Разработка мобильного приложения под управлением операционной системы IOS для распознавания текста на изображениях

1.

Министерство науки и высшего образования Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего образования
“ОМСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ”
Кафедра “Информатика и вычислительная техника”
Разработка мобильного приложения
под управлением операционной
системы IOS для распознавания
текста на изображениях с
использованием искусственной
нейронной сети
Выполнил:
бакалавр группы ИВТ-202
Черкасов Н.А.
Руководитель:
к.т.н., доцент каф. ИВТ
Грицай А.С.
Омск 2024

2.

Актуальность работы
Распознавание текста на изображениях является сложной задачей,
существует потребность в разработке более точных и эффективных
методов распознавания. Искусственные нейронные сети являются
одним из перспективных направлений в области искусственного
интеллекта, и их применение в данной сфере может дать значительные
результаты. Кроме того, разработка мобильного приложения позволит
пользователям легко использовать данную технологию в повседневной
жизни.
2

3.

Цель работы
Разработать мобильное приложение под управлением операционной
системы IOS на языке программирования Swift, которое использует
искусственные нейронные сети для распознавания текста на
изображениях.
3

4.

Задачи
анализ схожих по тематике/функционалу приложений
и формулировка требований к разрабатываемому
приложению;
● анализ и выбор средств для разработки приложения;
● проектирование интерфейса и алгоритмов работы
приложения;
● разработка архитектуры искусственной нейронной
сети для задачи распознавания текста;
● реализация нейронной сети и ее обучение на наборе
данных с изображениями и текстом.
● программная реализация функционала мобильного
приложения;
● тестирование разработанного продукта
4

5.

Обзор существующих инструментов преобразования
фото в текст
Критерии
оценки
Преимущества
Недостатки
Инструменты преобразования фото в текст
Google Lens
Microsoft Office Lens
Adobe Scan
Интеграция с экосистемой
Google, что обеспечивает
доступ к другим сервисам
Google.
Широкий набор функций,
включая
не
только
распознавание текста, но
и распознавание объектов,
перевод текста и т.д.
Интеграция с сервисами
Microsoft
Office,
что
обеспечивает
простоту
сохранения
распознанного текста и
других документов в
облаке.
Удобный интерфейс и
простота использования.
Высокая
точность
распознавания
текста
благодаря использованию
технологий оптического
распознавания символов
(OCR) от Adobe.
Различные
функции
обработки документов и
изображений,
помимо
распознавания текста.
Некоторые функции могут
быть
менее
оптимизированы
для
работы
с
текстом,
поскольку
приложение
ориентировано на более
общие
задачи
распознавания
изображений.
Основное
направление
приложения

это
сканирование документов,
поэтому
функции
распознавания
текста
могут быть менее развиты
по
сравнению
с
специализированными
приложениями.
Платное приложение (в
основной
версии)
с
возможностью
покупки
дополнительных
функций, что может быть
недоступно
для
некоторых пользователей.
5

6.

Обзор существующих инструментов преобразования
фото в текст
Google Lens
Microsoft Office
Lens
Adobe Scan
6

7.

Функциональные требования разрабатываемого
приложения
1. Загрузка изображений:
- загрузка изображения с галереи или камеры устройства;
2. Распознавание текста:
- обработка загруженных фотографий и распознавание текста на них с
помощью нейронных сетей;
3. Просмотр результатов:
-
возможность просмотра результатов на экране устройства;
-
возможность корректирования результата;
4. Оффлайн-режим
-
поддержка возможности распознавания текса на изображениях в
оффлайн-режиме без доступа к интернету
7

8.

Схема работы системы
8

9.

Алгоритм авторизации приложения
9

10.

Алгоритм исправления ошибок
10

11.

Алгоритм обработки изображения
11

12.

Алгоритм предобработки изображения
12

13.

Алгоритм сохранения текста
13

14.

Алгоритм регистрации пользователя (опционально)
14

15.

Главный экран приложения
15

16.

Форма авторизации
16

17.

Выбор фото из галереи
17

18.

Заключение
В ходе выполнения выпускной квалификационной работы было
реализовано мобильное приложение для преобразования фото в
текст. Поставленная цель была достигнута и решены следующие
задачи:
1. Проведен обзор существующих мобильных приложений для
распознавания текста: Google Lens, MS Lens, Adobe Scan;
2. Выбраны инструменты для разработки продукта: среда
разработки XCode, язык программирования Swift, библиотека
Vision;
3. Спроектирован пользовательский интерфейс мобильного
приложения: форма авторизации, форма регистрации, главный
экран, форма сканирования текста, форма сохранения текста;
4. Разработаны схемы алгоритмов: алгоритм обработки фото,
алгоритмы сохранения и редактирования текста, алгоритм
авторизации, алгоритм предобработки фото;
5. Реализовано мобильное приложение для распознавания текста;
6. Проведено тестирование полученного продукта: проверка
корректного и некорректного ввода данных при авторизации,
проверка неправильного формата фото, проверка распознавания
текста.
18

19.

Министерство науки и высшего образования Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего образования
“ОМСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ”
Кафедра “Информатика и вычислительная техника”
Разработка мобильного приложения
под управлением операционной
системы IOS для распознавания
текста на изображениях с
использованием искусственной
нейронной сети
Выполнил:
бакалавр группы ИВТ-202
Черкасов Н.А.
Руководитель:
к.т.н., доцент каф. ИВТ
Грицай А.С.
Омск 2024
English     Русский Правила