93.72K
Категория: ЛингвистикаЛингвистика

Синтаксическая разметка

1.

Синтаксическая
разметка

2.

Синтаксис наука о языковых единицах и их связях в составе словосочетания и
предложения.
Несколько подходов:
традиционный анализ по членам предложения (А.А.Шахматов,
В.В.Виноградов, Н.С.Валгина);
синтаксис структурных схем (академические Русские грамматики 1970,
1980 и 2005 гг) с детальным описанием структурных схем, т.е. базовых
моделей предложения;
грамматики зависимости и непосредственно составляющих (И.А.Мельчук,
А.В.Гладкий, И.М.Богуславский, Л.Л.Иомдин).

3.

В корпусной лингвистике
На Западе самой «теоретически нейтральной»
является грамматика зависимостей и
непосредственно составляющих;
В России – традиционный подход с анализом по
членам предложения

4.

Синтаксическая разметка в
терминах грамматики зависимостей
Основатель – Люсьен Теньер (1959 – «Основы структурного
синтаксиса».
В России – А.В.Гладкий (1985 – «Синтаксические структуры
естественного языка в автоматизированных системах общения»).
Предложение – набор синтаксических узлов и связей между ними.
Главное слово в цепочке – вершина или вершинный узел – управляет
зависимым узлом.
Если узел – конкретная лексема, то терминальный.
Если узел – синтаксическая группа, то нетерминальный.

5.

Типы анализа
Частичный синтаксический анализ (shallow parsing) выделение основных синтаксических групп
Полный синтаксический анализ (full parsing) построение синтаксического дерева.

6.

Одно и то же слово может быть и вершиной, и зависимым.
Вершина дерева – всегда предикат.

7.

Синтаксическая разметка в терминах грамматики
зависимостей.
Программы и корпусы
Программы – синтаксический анализатор или
парсер;
Корпус, созданный на основе этого подхода –
treebank.
Но! Есть проблемы

8.

Синтаксическая разметка в терминах грамматики
зависимостей.
Проблемы
Парсер строит связи на основе морфологических признаков и порядка
слов. Чем меньше морфологии, тем хуже дерево (Вася хлоп виски и
тогось);
синтаксическая омонимия (Гонщик Хяккинен вернулся из командировки в
Финляндию);
парсеры работают с буквенной цепочкой, трудность – нулевые
синтаксические единицы (Василий Петрович – учитель);
парсеры с трудом анализируют устную и поэтическую речь из-за их
особенностей.

9.

Синтаксическая разметка в
терминах членов предложения
Достоинства:
внимание к семантике синтаксических единиц;
общеизвестность не только среди лингвистов.
Недостатки:
игнорирование синтаксических связей;
неоднозначность в теоретических положениях;
сложность автоматической обработки.

10.

Синтаксическая разметка в терминах членов
предложения
Проблемы
Нечеткость критериев выделения определенного члена предложения:
косвенное дополнение/несогласованное определение;
косвенное дополнение/разные виды обстоятельств;
разные виды обстоятельств.
Недостаточно проработанный список форм выражения разных членов предложения:
подлежащее и главный член односоставного предложения;
составное подлежащее.
Вложенные члены предложения, т.е. когда многокомпонентный член предложения
может быть разложен на более мелкие, содержащие синтаксическую
информацию:
обстоятельства и определения из нескольких лексем, например, деепричастные и
причастные обороты;
вводные единицы и обращения.
English     Русский Правила