Программа модуля
Поисковая система – это
Поисковая система – это
Поисковая система – это
Поисковая система – это
Поисковая система – это
Схема работы (алгоритм) ПС
Схема работы (алгоритм) ПС
Схема работы (алгоритм) ПС
Схема работы (алгоритм) ПС
Зачем мне это знать?
Зачем мне это знать?
Зачем мне это знать?
Зачем мне это знать?
Зачем мне это знать?
Зарождение поисковых систем
Булев поиск
Булев поиск
Булев поиск
Булев поиск
Индекс
Инвертированный индекс - это
Координатный индекс - это
Современные ПС
Ранжированный поиск
Неточный поиск, кворум
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Обработка запроса
Обработка запроса
Обработка запроса
Обработка запроса
Обработка запроса
Обработка запроса
Обработка запроса
Работа поисковой системы
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Матрица результатов поиска
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Работа поисковой системы
Поисковый алгоритм
Поисковый алгоритм
Поисковый алгоритм
Поисковый алгоритм
Поисковый алгоритм
Поисковый алгоритм
Поисковый алгоритм
Домашнее задание
Схема работы (алгоритм) ПС
Сервисы для составления схем
Правила составления схем
Как составлять схему
Как составлять схему

Схема работы поисковой системы

1.

Схема работы поисковой
системы
1 занятие блока «Поисковые системы»

2.

О модуле
«Поисковые системы»

3. Программа модуля

1.
2.
3.
4.
5.
6.
Схема поисковой системы
Лингвистика
Ранжирование
Спам и антиспам
Фильтры поисковых систем
Консультация + разбор экзамена

4.

Основные термины и
понятия

5. Поисковая система – это

система для поиска информации,
отвечающей потребности пользователя (!),
осуществляющего поиск в ограниченном
объеме неструктурированных данных
(коллекции документов)

6. Поисковая система – это

7. Поисковая система – это

8. Поисковая система – это

9. Поисковая система – это

10. Схема работы (алгоритм) ПС

11. Схема работы (алгоритм) ПС

12. Схема работы (алгоритм) ПС

13. Схема работы (алгоритм) ПС

14. Зачем мне это знать?

- адаптация под смену алгоритмов
- исследования в области поисковой
оптимизации
- внутренний поиск на сайте
- разработка рекомендательных систем
- Data Mining
- ответы на вопросы заказчика/фильтрация
идей (а давайте сделаем еще один сайт и
займем выдачу!)

15. Зачем мне это знать?

• Внутренний поиск по сайту
Интересные ссылки:
http://ekaterinburg.hh.ru/article/1175 - HH учит пользователей языку поисковых запросов
http://ya-recruiter.blogspot.ru/2013/06/blog-post_16.html - рекрутер «прокачивается» в информационном поиске

16. Зачем мне это знать?

• Data mining - совокупность методов
обнаружения в данных ранее неизвестных,
нетривиальных, практически полезных и
доступных интерпретации знаний,
необходимых для принятия решений в
различных сферах человеческой
деятельности.
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/qlanguage.xml - язык поисковых запросов Яндекса

17. Зачем мне это знать?

• Найти все поддомены сайта – “site:”
• Найти все страницы раздела сайта – “url:”
• Найти все страницы, измененные за
последнее время – “date:”
• Найти файлы для скачивания – “mime:”
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/search-operators.xml - документные операторы Яндекса

18. Зачем мне это знать?

Для SEO-шника:
“mime:pdf + yandex-team.ru”
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/search-operators.xml - документные операторы Яндекса

19. Зарождение поисковых систем

Первые поисковые системы были каталогами сайтов с рубрикаторами
Полезные ссылки:
http://yaca.yandex.ru/ - Каталог Яндекса
http://www.rukv.ru/ - исследование "количество сайтов рунета"

20. Булев поиск

Умеет
• находить документы по
поисковым запросам с
простыми логическими
операторами:
– И (AND)
– ИЛИ (OR)
– НЕ (NOT)
Не умеет
• ранжировать документы по
степени релевантности
• учитывать словоформы,
синонимы
• учитывать местоположение
слова в документе
• учитывать неполные
вхождения (2 из 3 слов
запроса)
• и т.д.
Полезные ссылки:
https://ru.wikipedia.org/wiki/%D0%91%D1%83%D0%BB%D0%B5%D0%B2%D0%B0_%D0%B0%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D0%B0 – Булева алгебра
https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D0%B0_%D0%BB%D0%BE%D0%B3%D0%B8%D0%BA%D0%B8 – алгебра логики

21.

Булев поиск

22.

Булев поиск

23. Булев поиск

запрос: «apple OR iwatch»

24. Булев поиск

запрос: «apple AND iwatch»

25. Булев поиск

запрос: «apple AND (NOT watch)»
запрос: «alberto OR (NOT cavalli)»

26. Индекс

индекс – это структура данных, используемая поисковыми
системами для компактного хранения копий документов
коллекции и осуществления поиска по ним
Виды индекса:
• Прямой/Инвертированный
• Некоординатный/Координатный
Полезные ссылки:
https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81 – поисковый
индекс

27.

Прямой индекс - это
- таблица, в которой для каждого документа
представлен список слов, в него входящих

28. Инвертированный индекс - это

таблица, в которой каждому слову из словаря
сопоставлен список документов, его содержащих

29. Координатный индекс - это

индекс, учитывающий координату слова в документе
(словопозицию)

30.

Современный поиск

31. Современные ПС


Яндекс, Google, Mail….
Поиск по новостям
Поиск по картинкам, видео, аудио
YouTube
Поиск по блогам, форумам, отзывам
Специализированные поисковые системы
Поиск в Excel
Поиск по базам данных
Локальный поиск от Яндекс и Google

32. Ранжированный поиск

- поиск, который, помимо нахождения
документов, отвечающих информационной
потребности пользователя, осуществляет
сортировку (ранжирование) документов по
степени их релевантности (соответствия) этой
потребности.

33. Неточный поиск, кворум

Неточный поиск – поиск по документам, не
содержащим все слова запроса.
Кворум — необходимая доля суммарного веса слов из
поискового запроса, которая должна присутствовать в
тексте документа и/или текстах входящих на него
ссылок для попадания в результаты поиска.

34.

Схема работы поисковой
системы

35. Работа поисковой системы

36. Работа поисковой системы

37. Работа поисковой системы

38. Обработка запроса

• геозависимость
запроса

39. Обработка запроса

• геозависимость
запроса
• тип запроса

40. Обработка запроса

• геозависимость
запроса
• тип запроса
• многозначность

41. Обработка запроса

• геозависимость
запроса
• тип запроса
• многозначность
• колдунщики

42. Обработка запроса

• геозависимость
запроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение

43. Обработка запроса

• геозависимость
запроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение
• опечаточник

44. Обработка запроса

• геозависимость
запроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение
• опечаточник
• синонимы и
аббревиатуры

45. Работа поисковой системы

46. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)

47. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама

48. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)

49. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ

50. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики

51. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости

52. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости
Сниппеты

53. Матрица результатов поиска


Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости
Сниппеты
Диалоговые подсказки

54.

Варианты матриц
Для какого типа запроса
подходит матрица?

55.

Варианты матриц
Для какого типа запроса
подходит матрица?

56.

Варианты матриц
Для какого типа запроса
подходит матрица?

57. Работа поисковой системы

58. Работа поисковой системы

59. Работа поисковой системы

60. Работа поисковой системы

61. Работа поисковой системы

62. Работа поисковой системы

63. Работа поисковой системы

64. Работа поисковой системы

65. Работа поисковой системы

66. Поисковый алгоритм

• Поисковый индекс

67. Поисковый алгоритм

• Поисковый индекс
• Тематика сайта

68. Поисковый алгоритм

• Поисковый индекс
• Тематика сайта
• Регион сайта

69. Поисковый алгоритм


Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта

70. Поисковый алгоритм


Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции

71. Поисковый алгоритм


Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции
Асессорская оценка
Поведение пользователя на выдаче

72. Поисковый алгоритм


Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции
Асессорская оценка
Поведение пользователя на выдаче
Требования к скорости и качеству
– ступенчатое включение алгоритмов (1000 отбирается)
– распределение нагрузки
– кэш поиска

73. Домашнее задание


Найти интересные поисковые системы, протестировать на разных типах
запросов, выбрать и описать примеры:
Представьте, что в Интернете есть сайты, посвященные только одной теме –
товарам/услугам, представленным на вашем сайте. На основании базовых схем
поисковых систем (см. примеры) нарисуйте схему поисковой системы, которая
бы идеально подходила для поиска информации об этих товарах/услугах. В ходе
работы вам необходимо ответить на вопросы:
системы с Булевым поиском
системы с более сложным поиском (синонимы, тематические кластеры и пр.) + найти тип запросов,
которые она все же не умеет обрабатывать
системы, которую вы нашли полезной и планируете использовать на практике (и почему?)
какие типы запросов ваша поисковая система должна отрабатывать?
какую информацию она для этого должна индексировать?
на какие зоны поисковая система должна разделить документы вашего сайта и сайтов-конкурентов?
какие модули из базовой схемы поисковой системы вы не взяли и почему?
какие новые модули вы добавили в свою поисковую систему, которых не было в базовой схеме и почему?
Книгу «Введение в информационный поиск», прочита
поиск», поделиться впечатлениями.
ть главу №1 «Булев

74. Схема работы (алгоритм) ПС

75. Сервисы для составления схем


https://www.draw.io (тип Flowcharts)
https://www.gliffy.com/ (тип Блоксхема)
https://docs.google.com (Вставка -> Рисунок)
MS Word (Вставка -> Фигуры)

76. Правила составления схем

• Блоки одного типа оформляются одинаково
• Используются только однонаправленные
стрелки (от отдающего информацию блока
к принимающему ее)
• Детализация частей схемы должна быть
одинаковой
• Схема выкладывается в формате JPG, PNG

77. Как составлять схему

• Читаем:
https://yandex.ru/company/technologies/searchindex/

78. Как составлять схему

• Отражаем на схеме:
English     Русский Правила