603.56K
Категория: ЭлектроникаЭлектроника

Распознавание образов

1.

Распознавание образов

2.

Распознавание лиц и людей
Большинство систем распознавания лиц основаны на распознавании объектов. Его можно использовать для обнаружения
лиц, классификации эмоций или выражений и подачи полученного поля в систему поиска изображений для
идентификации конкретного человека из группы.
Обнаружение лица — один из самых популярных вариантов использования обнаружения объектов, и вы, вероятно, уже
используете его всякий раз, когда разблокируете телефон своим лицом.
Обнаружение людей также обычно используется для подсчета количества людей в розничных магазинах или обеспечения
показателей социального дистанцирования.
Интеллектуальная видео аналитика
Обнаружение объектов используется в интеллектуальной видеоаналитики (IVA) везде, где в торговых точках присутствуют
камеры видеонаблюдения, чтобы понять, как покупатели взаимодействуют с продуктами. Эти видеопотоки проходят через
конвейер анонимизации, чтобы размыть лица людей и обезличить их. Некоторые варианты использования IVA сохраняют
конфиденциальность, глядя только на обувь людей, размещая камеры ниже уровня колен и гарантируя, что система
фиксирует присутствие человека, без необходимости непосредственно смотреть на его идентифицируемые черты. IVA
часто используется на заводах, в аэропортах и ​транспортных узлах для отслеживания длины очередей и доступа в зоны
ограниченного доступа.
Автономные транспортные средства
Беспилотные автомобили используют обнаружение объектов, чтобы обнаруживать пешеходов, другие автомобили и
препятствия на дороге, чтобы безопасно передвигаться. Автономные транспортные средства, оснащенные LIDAR, иногда
используют 3D-обнаружение объектов, при котором вокруг объектов применяются прямоугольные формы.
Интеллектуальная видео хирургия
Хирургическое видео — это очень зашумленные данные, которые снимаются с эндоскопов во время ответственных
операций. Обнаружение объектов можно использовать для обнаружения трудно различимых объектов, таких как полипы
или поражения, которые требуют немедленного вмешательства хирурга. Он также используется для информирования
персонала больницы о статусе операции.

3.

Проверка дефектов
Компании-производители могут использовать обнаружение объектов для выявления дефектов на
производственной линии. Нейронные сети можно научить обнаруживать мельчайшие дефекты, от складок
на ткани до вмятин или вспышек в литьевых пластмассах.
В отличие от традиционных подходов к машинному обучению, обнаружение объектов на основе глубокого
обучения также может обнаруживать дефекты в сильно различающихся объектах, таких как продукты
питания.
Обнаружение пешеходов
Это одна из важнейших задач компьютерного зрения, которая применяется в робототехнике,
видеонаблюдении и автомобильной безопасности. Обнаружение пешеходов играет ключевую роль в
исследованиях обнаружения объектов, поскольку оно предоставляет фундаментальную информацию для
семантического понимания видеоматериалов.
Однако несмотря на относительно высокую производительность, эта технология по-прежнему сталкивается
с такими проблемами, как различные стили одежды по внешнему виду или наличие закрывающих
аксессуаров, которые снижают точность существующих детекторов.
AI-навигация дрона
В наши дни дроны оснащены невероятными камерами и могут использовать модели, размещенные в облаке,
для оценки любого объекта, с которым они сталкиваются.
Например, их можно использовать для осмотра труднодоступных участков мостов на наличие трещин и
других структурных повреждений или для осмотра линий электропередач, заменяя опасные рутинные
вертолетные операции.

4.

Методы распознавания образов
R-CNN
В R-CNN метод выборочного поиска, разработанный Дж.Р.Р. Уйлингс и др. (2012) является альтернативой полному
поиску на изображении для фиксации местоположения объекта. Он инициализирует небольшие области изображения и
объединяет их в иерархическую группу. Таким образом, последняя группа представляет собой блок, содержащий все
изображение. Обнаруженные области объединяются в соответствии с различными цветовыми пространствами и
показателями сходства. Результатом является несколько предложений регионов, которые могут содержать объект путем
слияния небольших регионов.
Минусы R-CNN
•Обучение сети по-прежнему занимает огромное количество
времени, так как вам придется классифицировать 2000
предложений регионов для каждого изображения.
•Его нельзя реализовать в режиме реального времени, так
как для каждого тестового изображения требуется около 47
секунд.
•Алгоритм выборочного поиска является фиксированным
алгоритмом. Поэтому на этом этапе обучения не
происходит. Это может привести к созданию плохих
предложений регионов-кандидатов.

5.

Fast R-CNN
Цель быстрой сверточной сети на основе регионов (Fast R-CNN), разработанной Р. Гиршиком (2015), состоит в том,
чтобы сократить затраты времени, связанные с большим количеством моделей, необходимых для анализа всех
предложений регионов.
Основная CNN с несколькими сверточными слоями принимает все изображение в качестве входных данных вместо
использования CNN для каждого предложения региона (R-CNN). Области интересов (RoI) обнаруживаются с помощью
метода выборочного поиска, применяемого к созданным картам объектов. Формально размер карт объектов
уменьшается с использованием слоя пула RoI, чтобы получить допустимую область интересов с фиксированной
высотой и шириной в качестве гиперпараметров. Каждый слой области интереса передает полностью связанные слои¹,
создавая вектор признаков. Вектор используется для прогнозирования наблюдаемого объекта с помощью
классификатора softmax и для адаптации локализации ограничительной рамки с помощью линейного регрессора.

6.

Faster R-CNN
Предложения регионов, обнаруженные с помощью метода выборочного поиска, по-прежнему были необходимы в
предыдущей модели, которая требовала значительных вычислительных ресурсов. С. Рен и др. (2016) представили Сеть
предложений по регионам (RPN) для прямого создания предложений по регионам, прогнозирования ограничивающих
рамок и обнаружения объектов. Более быстрая сверточная сеть на основе регионов (Faster R-CNN) представляет собой
комбинацию между RPN и моделью Fast R-CNN.
Модель CNN принимает в качестве входных данных все изображение и создает карты характеристик. Окно размером 3x3
скользит по всем картам объектов и выводит вектор признаков, связанный с двумя полностью связанными слоями, один
для блочной регрессии и один для блочной классификации. Предложения нескольких регионов предсказываются
полностью связанными слоями. Фиксируется максимум k областей, поэтому выходные данные слоя регрессии блоков
имеют размер 4k (координаты блоков, их высота и ширина), а выходные данные слоя классификации блоков имеют
размер 2k («объективность» баллов чтобы обнаружить объект или нет в коробке). Предложения области k, обнаруженные
скользящим окном, называются якорями.
You Only Look Once (YOLO)
Модель YOLO (J. Redmon et al., 2016)) напрямую предсказывает ограничивающие рамки и вероятности классов с
помощью одной сети в одной оценке. Простота модели YOLO позволяет делать прогнозы в реальном времени.
Первоначально модель принимает изображение в качестве входных данных. Он делит его на сетку SxS. Каждая ячейка
этой сетки предсказывает B ограничивающих прямоугольников с показателем достоверности. Эта уверенность
представляет собой просто вероятность обнаружения объекта, умноженную на IoU между предсказанным и наземным
полем истинности.
English     Русский Правила