Лингвистика для математиков
План на жизнь
Дистрибутивная семантика
Дистрибутивная семантика
Векторное представление слов
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Аналогии
Наивный подход
Наивный подход
Векторное представление слов
Векторное представление слов
Как закодировать слово
Как обучить компьютер отделять слова? word2vec
Embeddings
Embeddings
Embeddings
Embeddings
Embeddings
Нейронная модель языка
Нейронная модель языка
Нейронная модель языка
Нейронная модель языка
Обучение модели
Обучение модели
Обучение модели
Обучение модели
Как работает word2vec?
Мешок слов
Skip-gram
Skip-gram
Skip-gram
Skip-gram
Skip-gram
Skip-gram
Предсказываем слова
Вместо этого....
Это:
Проблемка
Ключевые концепты еще раз
Параметры обучения
Параметры обучения
RusVectores
Векторные романы
Пирожки в дистрибутивной семантике
Применение
Вопросы к тесту
Спасибо за внимание!
Литература
4.99M

Лингвистика для математиков

1. Лингвистика для математиков

Дистрибутивная семантика

2. План на жизнь

На следующей паре тест!
Пользоваться можно будет всем кроме соцсетей и соседей

3. Дистрибутивная семантика

Дистрибутивная семантика — это область лингвистики, которая занимается
вычислением степени семантической близости между лингвистическими
единицами на основании их дистрибуционных признаков в больших
массивах лингвистических данных.

4. Дистрибутивная семантика

Значение слова - это сумма всех его контекстов
Каждое слово\лексическая единица - вектор

5. Векторное представление слов

Каждое слово - это вектор
Иначе: word embeddings

6. Аналогии

Как вообще мы используем
концепт векторного
представления для
сравнения каких-либо
сущностей?

7. Аналогии

8. Аналогии

Следующий шаг - Расстояние!
С животными мы исследуем Евклидово расстояние:

9. Аналогии

10. Аналогии

Цвета RGB = вектора в
трехмерном пространстве
Красный - (229, 0, 0)
Черный - (0, 0, 0)
Оливковый - (110, 117, 14)

11. Аналогии

12. Аналогии

13. Аналогии

14. Аналогии

15. Аналогии

16. Аналогии

17. Аналогии

18. Наивный подход

19. Наивный подход

Разные виды близости слов: лексическая и
семантическая
● петух
● курица
● цыпленок

20. Векторное представление слов

One-hot encoding:

21. Векторное представление слов

One-hot encoding:

22. Как закодировать слово

Счётчик:

23. Как обучить компьютер отделять слова? word2vec

24. Embeddings

25. Embeddings

26. Embeddings

27. Embeddings

28. Embeddings

Вновь про понятие аналогий:
Кот соотносится с котенком так же, как курица с цыпленком

29. Нейронная модель языка

30. Нейронная модель языка

31. Нейронная модель языка

32. Нейронная модель языка

33. Обучение модели

34. Обучение модели

35. Обучение модели

36. Обучение модели

37. Как работает word2vec?

Обучение модели более формально:
● CBOW предсказывает текущее слово, исходя из окружающего его
контекста.
● Skip-gram, наоборот, использует текущее слово, чтобы предугадывать
окружающие его слова.

38. Мешок слов

39. Skip-gram

40. Skip-gram

41. Skip-gram

42. Skip-gram

43. Skip-gram

44. Skip-gram

45. Предсказываем слова

46.

47.

48.

49.

50.

51. Вместо этого....

52. Это:

53.

54. Проблемка

55.

56.

57. Ключевые концепты еще раз

58. Параметры обучения

59. Параметры обучения

60. RusVectores

https://rusvectores.org/ru/

61. Векторные романы

Ещё давайте посмотрим на векторные романы
https://nevmenandr.github.io/novel2vec/

62. Пирожки в дистрибутивной семантике

https://habr.com/ru/post/2
75913/

63. Применение


разрешение лексической неоднозначности
информационный поиск
кластеризация документов
машинный перевод
автоматическое формирование словарей (словарей семантических
отношений, двуязычных словарей)
создание семантических карт
моделирование перифраз
определение тематики документа
определение тональности высказывания

64. Вопросы к тесту

65. Спасибо за внимание!

66. Литература

https://habr.com/ru/post/446530/
English     Русский Правила