Нейромережеві методи побудови програмного забезпечення для візуалізації текстових описів

1.

Виконав студент 667П2
групи
Чоломбитько П.С.
Керівник: к.т.н., доцент
Захаренко В.О.

ОБ’ЄКТ, ПРЕДМЕТ ТА МЕТОДИ ДОСЛІДЖЕННЯ
Об’єкт дослідження – процес обробки та зіставлення даних
різних модальностей (текстів та їх на зображень).
Предмет дослідження – обґрунтування вибору архітектури
нейронних мереж для трансформації текстової інформації у
зображення.
Методи дослідження – елементи теорії нейронних мереж, а
саме: засоби машинного та глибинного навчання; аналізу
основних властивостей різних архітектур, зокрема генеративних
змагальних мереж; планування експерименту в частині
порівняльного аналізу отриманих результатів.
2

3.

МЕТА ТА ЗАДАЧІ ДОСЛІДЖЕННЯ
Мета роботи – підвищення ефективності процедури
перетворення текстів у їх зображення за рахунок виявлення
найбільш дієвих у навчанні моделей, та розробка веб-застосунку
для демонстрації отриманих результатів.
Задачі дослідження:
– здійснити
критичний
огляд
предметної
«перетворення текстової інформації у зображення»;
галузі
– здійснити огляд існуючих нейромережевих методів для
перетворення текстового опису у зображення;
– здійснити опис змагальної
вирішення задачі перетворення;
генеративної
мережі
для
– розробити веб-застосунок для демонстрації отриманих
результатів;
–
здійснити аналіз отриманих результатів.
3

4.

АКТУАЛЬНІСТЬ ДОСЛІДЖЕННЯ
Актуальність теми дослідження обумовлена масштабом проблем, що
наразі існують в галузі автоматизованої обробки великих обсягів текстової
інформації, в процесі її переведення у зображення для вирішення широкого
кола завдань. До основних актуальних проблем можна віднести:
1. Виклик залежності. Моделі TTI сильно залежать як від текстових, так
і від візуальних методів аналізу, які, хоча вони й досягли значного прогресу в
останні роки, мають багато роботи, щоб домогтися масового впровадження.
З цього погляду можливості моделей TTI, як правило, обмежені специфікою
базового аналізу тексту та моделей генерації зображень.
2. Концептуально-об'єктні відносини. Неймовірно важка проблема, яка
має бути вирішена у моделях TTI, – це відносини між концепцією,
витягнутою з текстового опису та відповідними візуальними об'єктами.
З'ясування правильної відповідності між концепціями та об'єктами
залишається ключовою проблемою у моделях TTI.
3. Відношення типу «об'єкт-об'єкт». Будь-яке зображення виражає
відносини між об'єктами у візуальному форматі. Щоб відобразити це, модель
TTI повинна була не тільки генерувати правильні об'єкти, а й відносини між
ними. Створення складніших сцен, що містять кілька об'єктів з семантично
значущими зв'язками між цими об'єктами, залишається серйозною
проблемою технології генерації тексту в зображення.
4

5.

НЕЙРОМЕРЕЖЕВІ МЕТОДИ ДЛЯ ПЕРЕТВОРЕННЯ
ТЕКСТОВОГО ОПИСУ У ЗОБРАЖЕННЯ
Фундаментальні методи:
1. Генеративний змагальний текст у зображенні Synthesis.
2. Умовні GAN.
3. Кодування тексту.
4. Датасети.
Прямі методи T2I:
1. Перші підходи T2I.
2. Стековані архітектури.
3. Механізми уваги.
4. Сіамські архітектури.
5. Послідовність циклу.
6. Мережі пам’яті.
7. Адаптація безумовних моделей.
Методи T2I з додатковим наглядом:
1. Кілька субтитрів.
2. Діалог.
3. Макет.
4. Семантичні маски.
5. Графи сцен.
6. Мишачі сліди.
Інші нейромережеві методи для задачі перетворення:
1. Multi-Scale Gradient GAN.
2. Об'єктно-керований синтез тексту зображення через змагальне навчання.
3. StoryGAN.
5
4. Keras-текст до зображення.

6.

ЗМАГАЛЬНА ГЕНЕРАТИВНА МЕРЕЖА ДЛЯ
ВИРІШЕННЯ ЗАДАЧІ ПЕРЕТВОРЕННЯ
6

7.

ЗМАГАЛЬНА ГЕНЕРАТИВНА МЕРЕЖА ДЛЯ
ВИРІШЕННЯ ЗАДАЧІ ПЕРЕТВОРЕННЯ
(ПРОДОВЖЕННЯ)
7

8.

ЗМАГАЛЬНА ГЕНЕРАТИВНА МЕРЕЖА ДЛЯ
ВИРІШЕННЯ ЗАДАЧІ ПЕРЕТВОРЕННЯ
(ПРОДОВЖЕННЯ)
Внесок цього методу потрійний:
1. AttnGAN пропонується для синтезу зображень із
текстових описів. Зокрема, в AttnGAN пропонуються два
нові компоненти, включаючи генеративну мережу уваги та
DAMSM.
2. Для емпіричної оцінки запропонованого AttnGAN
проводиться
комплексне
дослідження.
Результати
експерименту показують, що AttnGAN значно перевершує
попередні сучасні моделі GAN.
3. Детальний аналіз виконується шляхом візуалізації шарів
уваги AttnGAN.
Вперше показано, що багатошарова умовна GAN здатна
автоматично звертатися до відповідних слів, щоб сформувати
умову для генерації зображення.
8

9.

ОПИС МЕРЕЖІ ATTNGAN
Пропонується дві нові моделі уваги, генеративна мережа уваги та DAMSM, які
відіграють різні ролі в AttnGAN.
Механізм уваги в генеративній мережі дозволяє AttnGAN автоматично
вибирати умови рівня слова для генерування різних субрегіонів зображення.
Завдяки механізму уваги, DAMSM здатний обчислювати ℒ

English Русский Правила