Квантитативная лiнгвiстика

1.

КВАНТИТАТИВНА ЛІНГВІСТИКА

2.

КВАНТИТАТИВНА ЛІНГВІТСИКА
Квантитативна лінгвістика (англ. quantitative linguistics) — це розділ
загальної лінгвістики, зокрема, математичної лінгвістики. Квантитативна
лінгвістика (КЛ) займається дослідженням процесу вивчення мови, його
зміни і сфери застосування, а також структури природних мов. КЛ
досліджує мову за допомогою статистичних методів; її кінцева мета —
сформулювати закони, за якими функціонує мова і, в кінцевому рахунку,
побудувати загальну теорію мови у вигляді сукупності взаємопов'язаних
законів функціонування мов. Спеціально для цієї мети була створена
синергетична лінгвістика (Synergetic linguistics). Корпусна лінгвістика і
комп'ютерна лінгвістика також вносять свій внесок у КЛ, постачаючи
важливі емпіричні дані.

3.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Назва «квантитативна лінгвістика» досить умовна, хоча і досить
широко використовується в сучасній науковій літературі. Вона
характеризує міждисциплінарний напрямок у прикладних дослідженнях,
в якому в якості основного інструменту вивчення мови та мовлення
використовуються кількісні або статистичні методи аналізу.
Іноді квантитативна (або кількісна) лінгвістика протиставляється
комбінаторній лінгвістиці. В останній домінуючу роль займає
«некількісний» математичний апарат — теорія множин, математична
логіка, теорія алгоритмів і т. д. Застосування кількісних методів при описі
функціонування мови мало чим відрізняється від аналогічного
інструментарію в природних і гуманітарних науках.

4.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Залучення методів вимірювання та обчислення мовних реалізацій дозволяє
істотно модифікувати уявлення про мовну систему та можливості її
функціонування. Наприклад, у сфері граматики теоретична лінгвістика, як
правило, обмежується констатацією існування в російській мові системи
відмінків. Зі структурної точки зору цього, бути може, і досить. Між тим за
межами обговорення залишається вельми суттєва інформація про те, як часто
використовуються різні відмінки, яка динамка використання різних відмінків з
плином часу. Такого роду дослідження дозволило б виявити тенденції розвитку
відмінкової системи і на основі цього навіть сформулювати гіпотези про
майбутній стан граматичної системи російської мови.

5.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Звичайні тлумачні словники не розміщують у складі словникової статті
інформації про частоту використання тієї чи іншої лексеми. Це пов'язано з
дуже великим обсягом роботи, який треба здійснити, щоб для кожного слова
вказати хоч якісь рамки частотності. Для користувача словника така інформація
може виявитися дуже важливою, часто вирішальним для ухвалення рішення
про використання слова. Пор., наприклад, високочастотні у публіцистиці
ідіоми з голови до ніг/з ніг до голови (48 входжень на 21 млн слововживань),
цілком і повністю (49 входжень на 21 млн), на всі сто (42 входження на 21
млн), рівним рахунком, ні більше ні менше (71 входження на 21 млн), ні
багато, ні мало (133 входження на 21 млн) і досить рідкісні для газетножурнального стилю (і) стар і млад (8 примірників на 21 млн), різні різниці (1
входження на 21 млн).

6.

КВАНТИТАТИВНА ЛІНГВІСТИКА
З теоретичної точки зору використання статистичних методів у
мовознавстві дозволяє доповнити структурну модель мови ймовірнісним
компонентом, тобто створити структурно-ймовірнісну модель, що володіє
значним пояснювальним потенціалом. Цю сторону використання кількісних
методів слід вважати додатком статистики у мовознавстві. До моделей такого
роду належить, наприклад, «модель життєвого циклу слова», запропонована
А. А. Полікарповим. Проведений ним квантитативный аналіз показав, що в
досить значній часовій перспективі є явна тенденція до збільшення ступеня
абстрактності значень у багатозначного слова — чим пізніше виникає
значення, тим воно більш абстрактно. Розроблена кількісна модель дозволяє
робити цікаві припущення про відносний «вік» різних частин мови, тенденції
розвитку лексичної системи мови і т. д.

7.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Основна увага лінгвостатистики звернена на дослідження того, що в мові
визначається правом вибору мовця, а що зумовлено її іманентною структурою і
як ці два параметри кількісно співвідносяться між собою. Виявляється, що
одиниці будь-якого мовного рівня мають сталі для певного періоду кількісні
показники їх використання.
Мовні закони і тенденції часто є статистичними. Статистика вивчає
сукупність подій, і на основі вивчення частини подій робиться висновок в
цілому.

8.

КВАНТИТАТИВНА ЛІНГВІСТИКА
У процесі статистичного спостереження використовуються наступні
правила:
1) вибірка матеріалу;
2) його розподіл;
3) подання матеріалу у формі таблиць, графіків (полігон, гістограма і криві).
У результаті передбачається:
1) обчислення похибок;
2) оцінка достатності вибірки;
3) ймовірнісно-статистична інтерпретація отриманих результатів.
Лінгвістика використовує різні прийоми вивчення лінгвістичних подій:
1) прийоми лексикографічної статистики;
2) прийоми стилостатистики;
3) прийоми вимірювання тексту.

9.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Подібність між членами одного мовного колективу полягає не тільки в тому,
які мовні одиниці (фонеми, лексеми, граматичні форми і синтаксичні
конструкції) вони викорисᴛᴏʙують, а й у тому, як часто вони їх уживають.
Отже, стає зрозуміло, чому нині такого великого поширення набули так звані
частотні словники, у яких слова розташовані не за алфавітом, а за спадом
частот, тобто першим іде найбільш частотне слово, за ним слово нижче рангом
за частотою від першого і т.д. Відомі такі частотні словники:
- Штейнфельдт Э. А. Частотный словарь современного русского литературного
языка. — Таллинн, 1963 (перевидавався в Москві в 1969 і 1973 pp.);
- Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М., 1977.

10.

КВАНТИТАТИВНА ЛІНГВІСТИКА
В Україні в 1981 р. вийшов двотомний «Частотний словник сучасної
української художньої прози». Частотні словники мають велике практичне
значення. На їх основі створюють підручники іноземних мов, тексти яких
будуються на найбільш уживаній лексиці, і словники-мінімуми. Якщо зважити
на те, що 1100 (за іншими даними — 1000) найбільш частотних слів покриває
80% тексту, то значення частотних словників для лінгводидактики неоціненне:
варто знати 1100 слів і можна розмовляти іноземною мовою, читати й розуміти
тексти (значення 20% невідомих слів можна якоюсь мірою визначити за
контекстом).

11.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Статистична організація тексту полягає в тому, що покриття тексту різними
словами відповідає такій закономірності: на початку тексту різних слів
більше, а далі їх менше. Найширше застосовують статистичні методи для
визначення семантичної відстані між словами. Найчастіше з цією метою
статистичній обробці піддають слова, які сполучаються з аналізованим словом.
На основі статистичних формул, які враховують випадки зникнення в мовах
слів основного фонду, можна встановити абсолютну хронологію диференціації
мовних сімей (метод глотохронології М. Сводеша).

12.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Стилостатистика — це визначення і характеристика стилістичних
особливостей окремих творів або авторів через кількісні відношення
використаних мовних елементів. В основі статистичного підходу до
дослідження стилістичних явищ лежить розуміння літературного стилю як
індивідуального способу володіння засобами мови. При цьому дослідник
абстрагується від питання про якісну значеннєвість обчислюваних мовних
елементів, зосереджуючи свою увагу тільки на кількісному аспекті.

13.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Історія виникнення квантитативних методів у науці відноситься до початку
XX ст., коли природничі та соціальні дослідження вдавалися до кількісних
підрахунків. До середини XX ст. спостерігалося переважання статистичних
методів над іншими способами кількісної обробки даних, хоча всі методи
називалися кількісними. Поступово квантитативні методи в науці знайшли своє
місце, і на цей час досить велика кількість дослідників бачать принципову
різницю між якісними і квантитативними (кількісними) методами.

14.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Квантитативні методи означають роботу з матрицею цифрових даних,
аналізованої за допомогою статистичних законів. Об'єктом дослідження також
може бути текст, проте в числовому вираженні дані квантитативного аналізу
однозначні, а інтерпретувати результати можна тільки з точки зору
передбачених закономірностей.
На наш погляд, основною перевагою квантитативних методів є їх точність і
однозначність результатів. Точність вимірювань з великою часткою
ймовірності дозволяє підтверджувати або спростовувати висунуті гіпотези.

15.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Висновки, отримані в результаті статистичних досліджень, можуть не
тільки мати описовий характер, але і впливати на існуючі теорії
функціонування та розвитку мови.
Кінцевою метою квантитативної лінгвістики є формулювання законів, за
якими функціонує мова за допомогою математичного апарату.

16.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Методи квантитативної лінгвістики застосовні до різних систем мови:
фонетичноїі, орфографічної, лексичної і граматичної, однак найчастіше вони
використовуються в лексикології для вивчення якісного складу словника і
отримання інформації про частотність або правильність вживання слів.
Основним об'єктом, до якого застосовуються статистичні методи, і в якому
здійснюється вибірка, є текст. Текст розбивається на кілька вибірок, кожна
довжиною в n лінгвістичних елементів. Мета вивчення тексту з допомогою
статистики теж буває різною. Наприклад, текст можна досліджувати для
дешифрування, вилучення інформації, яка прихована в силу того, що мова або
писемність невідомі, що характерне для давніх рукописів. Статистика в цьому
випадку допомагає встановити найбільш стійкі поєднання мовних одиниць і
розшифрувати мовний код.

17.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Іншою метою використання лінгвістичної статистики для вивчення зразків
текстів є встановлення авторства. У цьому випадку може виникнути
необхідність порівняння кількох текстів для встановлення того, який з них
належить автору, або визначення авторства для кожного з обраних текстів.
Ще одним прикладом застосування лінгвістичної статистики у тексті є
дослідження стилістичних особливостей, які використовує автор тексту, що
можна зробити стосовно і до лексики, і граматики. Тим не менш, дослідження
тексту і контексту можуть зачіпати і більш широку вибірку, таку як мовний
корпус – електронну базу даних про випадки використання мови, що дозволяє
здійснювати вибірку в більшому масиві на підставі різноманітності
використання мовних одиниць.

18.

КІЛЬКІСНІ МЕТОДИ
На
цьому
будуються
різноманітні
методики, представлені в книзі «Від
Нестора до Фонвізіна. Нові методи
визначення
авторства».
Фахівці
досліджували кілька простих параметрів
авторського стилю і на базі великої
кількості творів письменників XVIII-XX ст.
статистично довели, що частка всіх
службових слів в даному прозовому творі є
авторським інваріантом.

19.

КІЛЬКІСНІ МЕТОДИ
Знаменитий
шедевр
давньоруської
словесності XII ст. «Слово о полку Ігоревім»,
унікальність якого ось уже понад століття
ставиться скептиками під сумнів, був підданий
жорсткій формально-кількісній ревізії.
Застосування
аналізу
частот
парної
зустрічальності
граматичних
класів
слів
дозволило наочно довести, що глибинна
структура «Слова» - це структура мови XI
століття. Цей формально-кількісний аналіз не
відкидає гіпотези історика Б.А. Рибакова про
боярина Петра Бориславича як автора «Слова о
полку Ігоревім». Можливо, частково вона і
підтверджена. Однак, вважають дослідники,
необхідно ще більш детальне дослідження
текстів.

20.

КІЛЬКІСНІ МЕТОДИ
В Единбурзі (Англія) розроблено аналітичний метод, заснований на
обліку залежності частоти вживаного слова і довжини речення, в якому
воно з'являється. Цей метод отримав назву «діаграми сум, що
накопичуються». З його допомогою встановлено, що кожній людині
властивий міцно вкорінений, незмінний стиль, який не піддається
імітації.

21.

КІЛЬКІСНІ МЕТОДИ
Аналіз показав, що автори набувають і зберігають
постійний стиль, як би не склалося їхнє життя.
Наприклад, стиль В. Скотта в «Антиквар» (1816)
повністю збігається з його стилем в «Замку небезпек»,
написаному після того, як знаменитий англійський
письменник переніс три інсульти, один з яких позбавив
його дару мови і порушив рухові здібності.

22.

КОЛИЧЕСТВЕННЫЕ МЕТОДЫ
Метод виявляє в тексті сторонні вставки, виявляє
спроби підробити авторський стиль. Англійська
письменниця Джейн Остін не закінчела повість
«Сандіція», яка обривається на сімдесят третьому
реченні одинадцятого розділу. Повість була дописана
іншою письменницею. При читанні неможливо
визначити, де закінчується текст Д. Остін, а метод
дозволив точно визначити чужорідну частину повісті.

23.

КІЛЬКІСНІ МЕТОДИ
Петербурзький поет і перекладач «Слова о полку Ігоревім» Андрій
Чернов знайшов, що побудова віршів загадкової давньоруської
пам'ятки підпорядковується певним математичним закономірностям, а
саме - формулі «срібного перетину».
А. Чернов зробив висновок про те, що «Слово о полку Ігоревім» має
дев'ять пісень і що в основу тексту лягла кругова композиція. Якщо в
композиції «Слова» лежить коло, то у нього має бути «діаметр» і якась
математична закономірність.

24.

КІЛЬКІСНІ МЕТОДИ
Число віршів у всіх трьох частинах «Слова» (їх 804) А. Чернов розділив на
число віршів в першій (або останній) частини (256), в результаті отримав
3,14. Число «пі» з точністю до третього знака.
А.
Чернов
зробив
використовував
висновок:
інтуїтивно,
математичний
несучи
в
собі
модуль
образ
автор
«Слова»
давньоруських
архітектурних пам'яток. В ті часи храм являв собою всеосяжний художній
ідеал, який впливає на композицію і ритміку віршування. Дослідник
назвав
виявлену
літературної
перетину»
ним
пам'ятки
закономірність
і
давньоруських
у
побудові
храмів
давньоруського
принципом
«срібного

25.

КВАНТИТАТИВНА ЛІНГВІСТИКА
Існує цілий ряд лінгвістичних законів, серед яких:
• Закон диверсифікації: Якщо лінгвістичні категорії (такі, наприклад, як
частини мови або граматичні закінчення) з'являються в різних формах, то
можна сказати, що частота їх появи в текстах контролюються певними
законами.
• Розподіл довжин (або, в більш загальному вигляді, багатокомпонентності).
Дослідження частот різних мовних одиниць з точки зору їх довжин в текстах і
словниках регулярно призводить до виявлення цілого ряду розподілу, в
залежності від досліджуваної одиниці.

26.

КВАНТИТАТИВНА ЛІНГВІСТИКА
На сьогодні були вивчені наступні одиниці:
• Закон розподілу довжин морфів;
• Закон розподілу довжин ритмічних одиниць;
• Закон розподілу довжин пропозицій;
• Закон розподілу довжини складів;
• Закон розподілу довжин слів;
Закон Ципфа: Частота слова зворотньо пропорційна їхньому рангу в
списках частотності.

27.

ДЯКУЮ ЗА
УВАГУ!
English     Русский Правила