Разработка англо-русского машинного переводчика

1.

РАЗРАБОТКА АНГЛОРУССКОГО МАШИННОГО
ПЕРЕВОДЧИКА
МАТЕМАТИЧЕСКИХ ТЕКСТОВ
Вологодский
Государственный
Университет
Вологда,
2014
Дьякова Маргарита
Алексеевна
Научный
руководитель:
ст. преп. каф.
информационных
систем и технологий
ВоГУ,
к.ф.-м. н.
А.П. Ерёменко

2.

Один из великих технических вызовов XXI ВЕКА:
Полноценный машинный перевод
В настоящее время господствует один подход – статистический:
Технически это просто, НО:
Высокие затраты – игроки только крупн
Принципиальная ограниченность технол
Нестабильное качество перевода;
Сложность модернизации системы;
Почти непригодно для спец. текстов.

3.

Альтернатива: RBMT-сиcтемы. Несмотря на
перспективы никто пока не добился
полного успеха:
В теории RBMT-система способна добиться абсолютного
качества перевода за счет использования полной
формальной грамматической и лексической модели языка.
На практике для произвольного текста число правил
огромно и выразительные возможности естественного
языка основаны на их неоднозначном применении, что
приводит к конфликту и ломает всю систему.
Примеры: ABBYY Compreno. Срок разработки к настоящему времени около 15 лет, затраты боле
Другие системы, такие как Apertium, GramTrans, OpenLogos, Anusaaraka также имеют недостатк

4.

Что делаем мы:
Новый алгоритмический подход к токенизации текста на основе
больших групп лексем. Использование многоуровневого лексикона в
сочетании с несколькими параллельными уровнями сегментации
приводит к ускорению работы парсера и упрощению разработки.
Сужение тематики перевода до актуальных специализированных
текстов, для которых еще не создано ни одной полной формальной
грамматической модели.
Полноценное сохранение форматирования исходного сложного
специального текста за счет использования регулярных выражений на
основе TeX-разметки.

5.

Актуально? Да!
России нужна современная наука, при этом:
o Полноценное обучение
o Конкурентоспособность на мировом рынке специалистов
o Постоянное поддержание актуальных знаний
o Высокий уровень профессионализма
Невозможно без
доступа к современным
западным открытым библиот
o Знакомство с последними научными достижениями
Переводить самому?
На достойном уровне это возможно далеко не сразу,
учитывая сложность текстов.
Заказывать перевод?
Огромные деньги, учитывая ту же сложность текстов
и потребность в специальных знаниях у переводчика.
Использовать машинные
переводчики?
По указанным выше причинам они не обеспечивают
нужный функционал.

6.

Библиотека cornell university – сайт
препринтов arxiv.org

7.

наша система
Актуальна – огромное количество новейших статей, никогда не
публиковавшихся на русском. Бесценно для любого начинающего
исследователя из России – от студентов до аспирантов. Потенциально
огромная клиентская база и хорошее сочетание цены и качества делает
нашу систему уникальным продуктом на рынке России.
Доступна и легальна – библиотека ArXiv.org содержит около 1.000.000
препринтов под свободной лицензией и ежедневно их число растет на
несколько
сотен.
Мы
достижения всего мира.
делаем
доступными
новейшие
научные

8.

Архитектура системы:
йт переводчика
Парсер текста
Декодер
Правила

9.

Преимущество наших технологий
В настоящее время ни одна система не позволяет получить строгий перевод сильно формали
В настоящее время ни одна система не поддерживает полное оригинальное форматирование
Гибридные модели перевода имеют ограниченную RBMT-поддержку: достаточно, что бы
Статистический переводчик таких слов вообще не знает.
Неспециализированные RBMT-системы требуют практически полного переписывания мо

10.

План реализации,
использование Agile-разработки

11.

Наш рынок
В России на 2013 гг. обучалось более 36000 аспирантов по техническим специальностя
Исходя из последнего анализа эффективности ВУЗов, не менее 30% из них (все верхние
Даже в ЕС по данным статистики, уровень владения английским среди молодежи оце
Доступ к последним мировым научным публикациям (которые можно использовать в

12.

Стоит ли игра свеч?
а конкурентов – фланговая.
перевода много, но,
одного сервиса машинного перевода,
его требуемый функционал.

13.

Наши возможности
Энергичная команда:
Лидер проекта, разработчик ПО – Дьякова Маргарита Алексеевна, студентка ВоГУ, специальности «Лингвист
Разработчик ПО, web-дизайнер – Черных Александр Олегович, студент ВоГУ, специальность «Вычислительны
Дизайнер, переводчик – Махалова Дарья Михайловна, студентка ВоГУ, специальность «Лингвистика», призер
Переводчик – Колобянина Екатерина Александровна, студентка ВоГУ, специальность «Лингвистика», призер в
Академическая поддержка:
Профессорско-преподавательский состав кафедра информационных систем и технологий ВоГУ, включая 3 д.ф.
Вологодское региональное отделение Научного совета РАН по методологии искусственного интеллекта

14.

спасибо за внимание!
English     Русский Правила