Похожие презентации:
8 лекция.Технология, использующая распознование лиц
1. ТЕХНОЛОГИЯ, ИСПОЛЬЗУЮЩАЯ РАСПОЗНАВАНИЕ ЛИЦ
2.
Для интеллектуальных сред следующего поколения лучще всего подходяттехнологии идентификации человека по его лицу. Данные технологии
«ненавязчивы (распознавание происходит на расстоянии, не задерживая и не
отвлекая человека), они, как правило, пассивны (не требуют специальных
действий со стороны человека), не ограничивают пользователя в свободе
перемещений и к тому же относительно недороги. Но самое важное, по-видимому,
то, что люди обычно узнают друг друга по лицам довольно просто и, значит, не
будут испытывать неудобств с подобными (биометрическими) системами»
2
3. Информационные знаки лица человека
При обычном анализе лица человека обращают на себя внимание следующиеинформационные знаки:
— форма лица (например, круглая, квадратная, треугольная...);
— соотношение частей лица между собой (лоб, средняя и нижняя части лица);,
— форма лба, скуловой области и подбородка;
— форма и размер ушной раковины, способ ее прикрепления, а также форма
частей ушной раковины (мочки, козелок, противокозелок);
— симметрия лица (симметрия или явная асимметрия);
— форма, величина и местоположение глаз, рта, носа;
— линии локализации морщин и т. д.
3
4. Информационные знаки лица человека
В методах автоматического распознавания лиц по видео портретам используют эти жеинформационные знаки в различных их сочетаниях, что в большинстве случаев
определяется тем, какой именно портрет распознается — ориентированный в фас, в
профиль или одновременно два портрета: в фас и профиль.
Если же говорить о коммерческих системах, то они ориентированы на распознавание
лиц, представленных в фас (с возможным поворотом и с наклоном головы не более ±
15°), в связи с чем практически не используют информационные знаки ушных раковин
и профиль лица. Хотя некоторая информация о профиле все же может быть получена и
из изображения лица строго в фас.
При этом два источника информационных знаков лица — глаза и ушные раковины —
представляют собой самостоятельные источники биометрических характеристик
человека и определяют отдельные направления в биометрике
4
5.
Результат распознавания лиц автоматической системой зависит от качества исходныхданных (например, фото- и видеопортретов); выбора исходных информационных
знаков лица и/или способа выделения признаков из них; метода, используемого для
распознавания, и критериев распознавания.
Если говорить о методах, то в технической литературе, посвященной проблеме
автоматического распознавания лиц, наиболее часто ссылаются на основополагающие
публикации, представляющие следующие методы:
5
корреляционный метод (метод согласованной фильтрации);
метод, основанный на преобразовании Карунена—Лоэва и понятии «Eigenface»
(собственных лиц);
метод, основанный на линейном дискриминантном анализе и понятии «FisherFace»,
названном так в честь Роберта Фишера, использовавшего дискриминантный анализ
в распознавании образов.
6. Корреляционный метод (метод согласованной фильтрации)
Относительно простым среди перечисленных является корреляционный метод.Обычно он реализуется в пространстве исходных признаков (исходных изображений) и
аналогично тому, как реализуется согласованная фильтрация. Важен сам факт
существования корреляции между распознаваемым образом лица и эталоном,
хранящимся в базе данных.
Если условия получения новых образов соответствуют условиям получения эталона
(освещение, пункт наблюдения лица, определяющий его наклон и поворот, масштаб,
фон и т. д.), то корреляция между ними близка к единице, а уровень распознавания в
целом доходит до 96 % .
Однако, если фон, масштаб, повороты и наклоны изменяются, то обычная линейная
корреляция не устанавливает подобия двух образов и становится практически
бесполезной.
6
7.
Развитием корреляционного метода является переход от исходного пространствапризнаков (исходного изображения) к пространству инвариантов Фурье—Меллина
(элиминирующих масштаб и заменяющих поворот на циклический сдвиг), что
позволяет на основе той же самой согласованной фильтрации достичь высоких оценок
корреляции между двумя образами.
Проблемой по-прежнему здесь остается высокая размерность пространства признаков,
соответствующая размерам исходных изображений и, кроме того, преобразование
Фурье—Меллина существенно усложняет весь вычислительный процесс
согласованной фильтрации.
7
8. Метод, основанный на преобразовании Карунена—Лоэва
Метод, использующий преобразование Карунена—Лоэва, позволяет осуществитьзначительную редукцию исходного пространства признаков, оставляя для
дальнейшего использования только те из них, которые имеют принципиальное
значение для конкретного класса образов, При этом непосредственное влияние
условий получения образов на его представление в редуцированном пространстве
признаков становится не так заметно, а сравнение образов в этом пространстве
значительно упрощается. Уровень правильного распознавания здесь стабильно
достигает 80 % даже при заметных изменениях условий получения образов лиц по
сравнению с условиями получения эталона.
8
9. Метод, основанный на линейном дискриминантном анализе
Метод, основанный на линейном дискриминантном анализе, так же как и предыдущий,позволяет реализовать редукцию исходного пространства признаков, при этом он
существенно улучшает кластеризацию образов в редуцированном пространстве
признаков. Последнее обеспечивает еще более высокий уровень распознавания,
доходящий до 99 % даже при изменениях условий получения образов.
9
10.
На сегодняшний день основное развитие при распознавании лиц получили методы,ориентированные на следующее:
10
а)
репрезентативный характер исходных данных — использование для
обучения системы распознавания того диапазона изменений образов лиц
(освещение, ориентация, масштаб, фон и т. д.), в рамках которого система должна
распознавать все другие образы;
б)
уменьшение размерности исходных данных — применение редукции
исходного пространства признаков с представлением исходных образов в
редуцированном пространстве признаков;
в)
реализацию процесса распознавания в редуцированном пространстве
признаков;
г)
использование процедур сопоставления распознаваемого образа с эталоном с
оценкой меры подобия между ними (на основе какой-либо метрики), используемой
в качестве критерия распознавания.
11.
Очевидно и то, что практическое применение этих, относительно непростых (свычислительной точки зрения), методов стало возможным благодаря мощному
развитию вычислительных средств, в том числе ресурсов персональных компьютеров,
используемых в биометрических системах.
11
12. База данных изображений лиц
Если говорить о качестве исходной базы данных, то здесь подразумевается:ее репрезентативность;
факт и/или способ структурирования данных;
качество самого образа, в том числе:
размер каждого образа, выраженный, например, в числе пик,, селей;
контраст и прорисовка деталей лица; фон, на котором находится основная часть
лица; отсутствие мешающих деталей на области лица и т. д.
12
13. База данных изображений лиц
В свою очередь, репрезентативность базы данных (лиц) и способ ееструктурирования, выраженные, например, в числе классов и числе образов в
каждом классе, определяются необходимостью наличия в базе образов лиц с
различным поворотом головы — вверх/вниз, влево/вправо и их комбинаций/
присутствием или отсутствием дополнительных предметов (очки, серьги...), а также
различным выражением на них. Важно при этом еще и соблюдать более или менее
одинаковые условия получения образов лиц (освещенность, размер самого лица на
фоне всего образа, незначительные возрастные изменения лиц, представленных в
каждом классе).
Довольно часто для тестовой проверки качества систем распоз-навания
используется база данных The ORL Database of Faces
как отвечающая
вышеперечисленным требованиям и наиболее доступная широкому классу
исследователей проблемы «Face Recognition». Первые 10 классов образов этой базы
данных представлены на рисунке.
13
14. The ORL Database of Faces
The ORL Database of Faces — база изображений лиц, подготовленная в научноисследовательской лаборатории компании Olivetti (Olivetti Research Laboratory илиORL; после приобретения корпорацией AT&T в 1999 г. и до закрытия в 2002 г.
лаборатория носила название AT&T Laboratories Cambridge). В базу входят
фронтальные изображения лиц.
База содержит 400 фронтальных изображений 40 человек.
Все изображения в базе полутоновые, с 256 градациями яркости. Размер каждого
изображения — 92x112 пикселей. Файлы представлены в формате PGM.
Фотографии, из которых получены образы лиц, выполнены в различное время
(некоторые с разницей более двух лет). Репрезентативность данных обеспечивается
некоторыми изменениями масштаба лица, угла наблюдения в момент
фотографирования (что определяет изменение наклона и поворота головы) и
условий освещения.
14
15. The ORL Database of Faces
1516. База данных изображений лиц
Получение более полных баз данных — процесс очень трудоемкий и длительный,хотя существуют базы данных с числом образов, превосходящим 1000. Примером
здесь может служить база FЕRЕТ, используемая для тестовой проверки коммерческих
систем распознавания лиц.
Национальный институт стандартов и технологий (NIST) выступает в качестве
технического агента по распространению базы данных FERET. Целью программы
FERET является разработка новых методов, технологий и алгоритмов
автоматического распознавания человеческих лиц. В рамках программы FERET в
период с декабря 1993 г. по август 1996 г. была собрана база данных изображений
лиц. Эта база данных используется для разработки, тестирования и оценки
алгоритмов распознавания лиц.
16
17. База данных лиц FEI
База данных лиц FEI - это база данных лиц Бразилии, которая содержит наборизображений лиц в Лаборатории искусственного интеллекта FEI в Сан-Бернардо-дуКампу, Сан-Паулу, Бразилия. Есть 2800 изображений, составленных из 14
изображений для каждого из 200 человек - 100 мужчин и 100 женщин. Субъекты в
возрасте от 19 до 40 лет.
17
18. База данных лиц FEI
Некоторыепримеры
вариаций изображения из
базы данных FEI
Среднее изображение лица
нейтрального
(слева)
и
улыбающегося
(справа)
выражений лица только до и
после нормализации
Наглядный пример 46 точек,
последовательно и вручную
помеченных на каждом
фронтальном изображении
лица базы данных
18
19. FiA «Face-in-Action»
Набор данных FiA состоит из 20-секундных видеофайлов с данными 180 участников,имитирующих сценарий проверки паспорта. Данные были получены шестью
синхронизированными камерами с трех разных углов, с фокусным расстоянием 8 мм
и 4 мм для каждого из этих углов.
19
20. База данных Georgia Tech Face
Эта база данных содержит изображения 50 человек, сделанные в Центре обработкисигналов и изображений Технологического института Джорджии. Каждый человек
представлен 15 цветными изображениями JPEG с загроможденным фоном, снятым с
разрешением 640x480 пикселей.
20
21. База данных биометрического исследовательского центра Гонконгского политехнического университета
На веб-сайте Биометрического исследовательского центрабиометрических баз данных. Две базы данных относятся к лицам.
имеется
ряд
База данных гиперспектральных лиц Гонконгского политехнического университета
(PolyU-HSFD) - предназначена для продвижения исследований и предоставления
ученым, работающим в области распознавания лиц, возможности сравнить
эффективность алгоритмов распознавания лиц. Набор данных содержит 300 кубов
гиперспектральных изображений от 25 добровольцев в возрасте от 21 до 33 лет (8
женщин и 17 мужчин).
База данных NIR Face Гонконгского политехнического университета (PolyU) - это
масштабная база данных NIR Face. Он собрал NIR изображения лица из 335
предметов. Всего было получено около 34 000 изображений.
21
22. База данных биометрического исследовательского центра Гонконгского политехнического университета
Созданнаягиперспектральная
система визуализации
лица
22
23. База данных биометрического исследовательского центра Гонконгского политехнического университета
Иллюстрация изнабора 33
гиперспектральных
полос лица
23
24. База данных биометрического исследовательского центра Гонконгского политехнического университета
Образцы NIR изображенийлица субъекта. а) нормальное
изображение лица; и
изображения с (b) вариацией
выражения; (в) представляют
вариации и (г)
масштабирования вариации
24
25. База данных биометрического исследовательского центра Гонконгского политехнического университета
Образцы NIR-изображений лица,снятые более чем за два месяца
25
26. База данных индийских фильмов (IMFDB)
Этот набор данных состоит из 34512 изображений 100 индийских актеров, собранныхиз более чем 100 видео. Существует подробная аннотация каждого изображения с
точки зрения возраста, позы, пола, выражения и типа окклюзии
26
27. База данных выражений лица японской женщины (JAFFE)
Представляет собой набор данных, содержащий 213 статических изображенийзаданных выражений, выполненных 10 японскими женскими моделями. Каждое
изображение помечено одним из 7 выражений лица (гнев, отвращение, страх, счастье,
нейтральность, грусть и удивление), оцененных 60 японскими предметами на основе
шести эмоциональных прилагательных. Изображения в наборе данных имеют
разрешение 256х256 пикселей и в оттенках серого.
27
28. Помеченные лица в Wild-a (LFW-a)
Коллекция «Помеченные лица в дикой природе» содержит 13 000 изображений лиц,собранных из Интернета и помеченных именем человека. Существует ряд
дополнительных баз данных, созданных с использованием фотографий из этой
коллекции.
Набор данных и эталон обнаружения лица (FDDB) - это набор данных областей лица,
предназначенный для изучения проблемы обнаружения лиц без ограничений. Он
содержит аннотации для 5171 лица в наборе из 2845 изображений.
Два изображения выровнены с использованием техники воронки Хуанга, Джайна и
Лирнед-Миллера (слева) и коммерческой системы выравнивания, основанной на
опорных точках. Несовпадения в левой паре видны при сравнении положения рта и
глаз с маркерами. Эти смещения почти устранены в правой паре. Показанные здесь
маркеры не являются частью системы выравнивания и предназначены только для
демонстрации смещений.
База данных LFWcrop является обрезанной версией набора данных «Помеченные грани
в дикой природе» (LFW), сохраняя только центральную часть каждого изображения (то
есть лицо). Большая часть фона устранена.
28
29. Помеченные лица в Wild-a (LFW-a)
2930. Помеченные лица Википедии (LWF)
Помеченные лица Википедии (LWF) - это набор данных из 8500 лиц для примерно 1500идентификаторов, взятый из Википедии. Изображения лиц LWF выровнены с лицами в
Помеченных лицах в базе данных Wild, поэтому можно проводить эксперименты по
проверке лиц и сравнивать их.
30
31. МакГилл Реальная (неограниченная) база видео данных
Эта база данных содержит 18 000 видеокадров с разрешением 640x480 из 60видеофрагментов. Каждая последовательность была записана с указанием различных
субъектов (31 женщина и 29 мужчин). Это гендерная метка для каждого изображения.
31
32. MOBIO - мобильная биометрическая база данных лица и речи
Эта база данных состоит из бимодальных (аудио и видео) данных, полученных от 152человек (100 мужчин и 52 женщины). Эти данные отличаются от остальных в этом
руководстве тем, что они состоят из говорящих людей, а не фотографий
32
33. PhotoFace: распознавание лиц с использованием фотометрического стерео
PhotoFace был проектом, предпринятым в UWE Bristol. Одна из его целей состояла втом, чтобы собрать новую трехмерную базу данных лиц для тестирования в рамках
проекта и на благо всемирного сообщества исследователей распознавания лиц. Эта
уникальная трехмерная база данных о лицах содержит 3187 сеансов по 453 предметам,
снятым за два периода записи по шесть месяцев каждый.
33
34. Коллекция психологических образов в Стерлинге (PICS)
Это коллекция изображений, полезных для проведения экспериментов в психологии,прежде всего лица. Есть несколько наборов данных:
- Stirling / ESRC 3D Face Database - это коллекция трехмерных изображений лица, а
также инструменты для управления ими и их отображения. В настоящее время
доступно 45 мужских и 54 женских набора;
- наборы двумерных граней - в настоящее время существует 10 наборов двумерных
граней: Абердин, иранские женщины, сканеры Ноттингема, оригиналы граней
Нотта, лица Стирлинга, выражения боли, подмножество выражения боли, Утрехт
ECVP, Mooney_LR и Mooney MF
Stirling / ESRC 3D Face Database
Наборы двумерных граней
34
35. SCface - База данных камер наблюдения
Face SCface - это база данных, содержащая статические изображения человеческих лиц,которые были сделаны в неконтролируемой внутренней среде. Пять видеокамер
различного качества были использованы для захвата изображений. База данных
содержит 4160 статических изображений (в видимом и инфракрасном спектрах) 130
субъектов. База данных SCface была создана как средство тестирования алгоритмов
распознавания лиц в реальных условиях.
35
36. SCface - База данных камер наблюдения
Пример одного набора изображений дляодного предмета
36
37. SCface - База данных камер наблюдения
Пример разных позна изображении
Координаты центров
глаз, кончика носа и
рта, и
соответствующих
ему текстовых
записей базы данных
37