Технологии распознавания речи в работе письменного переводчика

1. Технологии распознавания речи в работе письменного переводчика

Дмитрий Троицкий, к.т.н., доц.,
директор агентства переводов TTS

2. Цель: повышение производительности при письменном переводе

• Узкое место: преобразование текста на пути
«мозг переводчика – цифровой носитель»
150…200 знаков в минуту
Перевод по хорошо знакомой тематике
выполняется со скоростью набора текста на
клавиатуре

3. Предлагаемое решение: распознавание речи

Современные технологии:
Распознавание offline – непригодно для
практического использования
Распознавание online с использованием
распределенных вычислений – Google
Speech API (разрабатывается с 2011 г
группой из 32 человек). API бесплатна для
разработчиков ПО

4. Принцип работы Google Speech API

АЦП
https Сервер https
Google
Файл
FALC
Служебные
данные
Текстовая
строка

5. Особенности Google Speech API

Отсутствие каких-либо настроек распознавания
Поддержка многих языков с автоопределением
(иногда ошибается и вместо русского слова
выдает аналогичное английское)
Наличие обширных словарей (знает даже очень
редкие слова)
Учет результатов поисковых запросов в Интернете
(вероятностных связей между словами)
Изредка возникают «затыки» - временная
недоступность сервера

6. Качество распознавания

Google не сообщает % распознавания
В статье Julius Adorf Web Speech API (KTH
Royal Institute of Technology, Stockholm)
приводятся следующие данные для
английского языка:
В среднем 75…85%

7. Применение в работе письменного переводчика

Сервер Google
текст
Локальное
приложение
CAT-система
Приложение разработано в среде Delphi XE2 и выполняет следующие функции:
Запись звука с выбранного источника в FLAC-файл (начало и конец записи – по
нажатию и отпусканию заданной в настройках комбинации клавиш)
Отправка FLAC-файла на сервер Google и получение ответа
Вставка полученной текстовой строки в любое приложение

8. Оценка эффективности внедрения

150…200 знаков в минуту
350…450 знаков в минуту
Значительно меньшая утомляемость
(на управление мелкой моторикой
рук тратится заметная часть
«вычислительной мощности» мозга)
Вместо туннельного синдрома –
тонзиллит
Упрощение диверсификации для
устных переводчиков, переходящих
на письменный перевод

9. Из личного опыта

Качество микрофона, внешние шумы – не влияют
на распознавание (частотный диапазон голоса
очень невелик)
Плохо распознаются окончания русских слов
(«переводчики», «переводчика», «переводчику»…)
Лучше распознается быстро произносимый текст
(видимо, API сделано под темп речи английского
языка)
Говорить надо естественно, с обычной интонацией,
не пытаясь выделять слова, удлинять паузы между
ними и пр. Не надо «усиленно» диктовать, как
лектор на лекции!

10. Основные преимущества

Заметный рост производительности
Отсутствие опечаток: все слова подставляются из
словарей
Снижение утомляемости
повышение качества: устраняется подсознательное
желание «подсократить перевод», чтобы набирать
поменьше букв
Основные недостатки
Требуется обязательное повторное вычитывание (я
привлекаю корректора) для контроля окончаний и
проверки, не проскочило ли похожее по звучанию
слово («двух местных жителей» – «двухместных
жителей»)

11. Спасибо за внимание, готов ответить на ваши вопросы!

Выражаю благодарность Ирине Бариновой,
модератору секции устного перевода сайта
«Город переводчиков», за ценные советы и
поддержку при подготовке данного доклада.
Спасибо за внимание, готов ответить
на ваши вопросы!

English Русский Правила