АНАЛИЗ ВЛИЯНИЯ МАШИННОГО ПЕРЕВОДА НА КАЧЕСТВО КЛАСТЕРИЗАЦИИ И КЛАССИФИКАЦИИ
Проблематика и постановка задачи
АРХИТЕКТУРА ПРОЕКТА
Результаты
1.59M

Конференция Сочи Романов

1. АНАЛИЗ ВЛИЯНИЯ МАШИННОГО ПЕРЕВОДА НА КАЧЕСТВО КЛАСТЕРИЗАЦИИ И КЛАССИФИКАЦИИ

Романов М. А.
Толчеев В. О.

2. Проблематика и постановка задачи

В эпоху глобализации науки актуальной задачей
становится
автоматическая
обработка
научных
Пусть имеется
корпус научных
аннотаций
D = {d₁,
текстов
на
разных
языках.
d₂, ..., dₙ}, где каждая аннотация dᵢ представлена в
Проблематика и
постановка
задачи
двух языковых версиях:
Основная
заключается
в том,
что при
русской dᵢruпроблема
и английской
dᵢen. Каждая
аннотация
переводе
научных
текстов
может происходить
принадлежит
одному
из k тематических
классов
искажение
тематической
структуры,
что
C = {c₁, c₂, ..., cₖ}.
негативно влияет на качество автоматической
классификации.

3. АРХИТЕКТУРА ПРОЕКТА

4.
классификации
2.
Построение
признаковых
1. Алгоритмы
Подготовка
данных
3.
Оценка
семантической
близости
представлений
Наивный Байес (MultinomialNB) с
регуляризацией α = 0.1
Случайный лес (RandomForest) с 100
деревьями
Метод опорных векторов (SVM) с
радиальным базисным ядром

4. Результаты

Результаты
классификации на русском корпусе
Анализ
семантической
показали
точности:
близостиследующие
показал,значения
что
средняя
SVM:
0.91 косинусная близость
между
русскими
RandomForest:
0.90 и
английскими
версиями
Naive Bayes: 0.81
аннотаций составляет 0.66
На английском корпусе получены следующие
результаты:
SVM: 0.92
Naive Bayes: 0.88
RandomForest: 0.78

5.

EN
RU

6.

Выводы
Полученные результаты подтверждают возможность
Преимущества предложенного подхода включают:
эффективной кросс-лингвистической тематической
1. Использование комбинированного признакового
классификации научных аннотаций.
пространства, объединяющего частотные и
Семантическая близость 0.66 между языковыми
семантические характеристики
версиями текстов оказывается достаточной для
2. Применение семантических метрик вместо
обеспечения высокого качества классификации на
традиционных метрик качества перевода
обоих языках.
3. Высокую стабильность результатов SVM на разных
языках
4. Возможность интерпретации результатов через
анализ важности признаков

7.

Задавайте ваши
вопросы
Спасибо за внимание
English     Русский Правила