Алгоритм работы поисковых систем
Понятие алгоритмы поисковых систем(ПС)
Этапы поисковых систем
Сбор данных. Индексация.
Ранжирование
Алгоритмы поисковых систем.
Параметры, на основании которых регулируется поисковая выдача
Алгоритмы поисковой системы Google
Алгоритмы поисковой системы Яндекса
182.10K
Категория: ИнтернетИнтернет

Алгоритм работы поисковых систем

1. Алгоритм работы поисковых систем

2. Понятие алгоритмы поисковых систем(ПС)

Алгоритмы поисковых систем (ПС) – это особые
математические формулы, по которым поисковые
системы решают задачу выдачи сайтов в результаты
поиска. Именно с их помощью поисковики разделяют
сайты на "хорошие" и "плохие".
Поисковая система – это робот, который автоматически
обрабатывает миллиарды страниц по какому-то
алгоритму, в результате показывая в доли секунды
несколько
страниц,
содержащих
информацию,
релевантную (относящуюся к) запросу пользователя.
Для каждой поисковой системы разрабатываются свои
алгоритмы. Схемы работы всех алгоритмов поисковых
систем построены на схожих принципах.

3. Этапы поисковых систем

Если рассматривать процесс поиска
информации в сети, его можно разбить на
следующие этапы:
• Сбор данных
• Индексация
• Поиск информации
• Ранжирование
Рассмотрим эти этапы.

4. Сбор данных. Индексация.

• Сбор данных.
Как только пользователь запускает свой сайт и даёт роботу какойнибудь поисковой системы понять, что появился новый ресурс,
робот начинает ходить по страницам и собирать с них данные(это
могут быть текстовый контент, картинки, видео и др. файлы). Этот
процесс называется сбором данных.
• Индексация.
Страницам сайта необходимо пройти такой этап, как индексация
– составление для каждой страницы обратного файла индекса.
Индекс служит для того, чтобы быстро по нему производить
поиск и состоит обычно из списка слов из текста и информации о
них (позиции в тексте, вес и др.). После того, как прошла
индексация сайта или отдельных страниц, они появляются в
основной выдаче поисковика и их можно найти по ключевым
словам, присутствующим в тексте.

5. Ранжирование

После того, как наиболее схожие
документы
были
отобраны
из
основной коллекции, они должны
ранжироваться, чтобы в верхних
результатах отражались наиболее
полезные для пользователя ресурсы.
Для этого используется специальная
формула ранжирования, которая для
разных поисковиков имеет разный вид.

6. Алгоритмы поисковых систем.

У каждой поисковой системы свои алгоритмы. При вводе одного и того же
запроса в разных поисковиках, пользователь получает разные результаты. Это
как раз и является следствием разных алгоритмов, используемых различными
поисковыми системами.
Задача любой поисковой системы выводить в результатах выдачи
максимально релевантный результат, то есть максимально соответствующий
запросу пользователя. Более того, алгоритмы так же учитывают авторитет
ресурса, информативность сайта и страницы.
Каждая поисковая система стремится очистить ряды поисковой выдачи от
искусственно накрученных, малоинформативных и неинтересных сайтов.
Существуют специальные сервисы, собирающие данные о наиболее часто
встречающихся запросах и о часто просматриваемых страницах. Совокупность
данной информации так же используется при выдаче результатов.
Многие алгоритмы поисковых систем исследуют и внутреннее строение
сайтов, оценивая ссылочную структуру, простоту навигации и соотношение
страниц, плотность ключевых слов и т.д. Полученная информация
формируются в базы данных, на основании которых и производится
ранжирование сайтов и страниц в поисковой выдаче. Причем, во многих
случаях, существует ручная модерация.

7. Параметры, на основании которых регулируется поисковая выдача

Количество ключевых слов или запросов на странице и на сайте,
отношение числа слов на сайте к их количеству на сайте, отношение числа
слов на странице к их количеству на странице, индекс цитирования,
тематика и ее популярность, количество запросов по ключевому запросу
за период времени, общее количество проиндексированных страниц
сайта, применение стиля к страницам ресурса, объём текста всего сайта,
общий размер сайта, размер каждой страницы сайта, объём текста на
каждой странице сайта, возраст домена и время существования сайта,
домен и URL сайта и его страниц, наличие в нем ключевых слов, частота
обновления информации на сайте, последнее обновление сайта и его
страниц, общее число картинок (рисунков, фотографий) на сайте и на
странице, количество мультимедийных файлов, наличие описаний
(замещающих надписей) на картинках, количество символов (длина) в
описании картинок, использование фреймов, язык сайта, географическое
положение сайта, шрифты и теги, которыми оформлены ключевые слова и
фразы, где на странице располагаются ключевые слова, стиль заголовков,
наличие и анализ мета-тегов «title» «dеscription» «keywords», параметры
файла «robot.txt», программный код сайта, присутствие в составе сайта
flash модулей, наличие дублей страниц или контента, соответствие
содержания сайта разделу каталога поисковика, наличие «стоп слов»,
количество внутренних ссылок сайта, количество внешних входящих и
исходящих ссылок, использование java скриптов, другие параметры.

8. Алгоритмы поисковой системы Google

История алгоритмов поисковой системы Google началась с введения в
поисковый механизм индекса цитирования, заключающегося в
ранжировании страниц и сайтов в зависимости от количества и
авторитетного веса ссылок (PageRank), ведущих на них с других
ресурсов. Таким образом сеть Интернет превратилась в подобие
коллективного разума, который и определял релевантность сайтов.
Подобная концепция оказалось удачным нововведением, благодаря
которому Google и стала наиболее популярной системой.
На ранних этапах алгоритмы Google уделяли внимание лишь
внутренним атрибутам страницы. Позже стали учитываться такие
факторы, как свежесть информации и географическая принадлежность.
В 2000 г. начал использоваться алгоритм Hilltop, предложенный
Кришной Бхаратом, для более точного расчёта PageRank. В 2001 г.
первоначальный механизм действия системы был полностью
переписан. С этого момента Google стала разделять коммерческие и
некоммерческие страницы. В этом же году был введён коэффициент,
который добавлял ссылкам, ведущим с авторитетных сайтов, больший
вес.

9.

Первым по-настоящему сложным барьером для специалистов SEO стал
алгоритм «Флорида», введённый Google в 2003 г. Он не только
поставил
под
сомнение
целесообразность
использования
распространённых на тот момент способов продвижения, но и
существенно проредил позиции поисковой выдачи, исключив из неё
страницы с повторяющимся анкором и переспамленные ключевыми
словами.
В 2006 г. система стала использовать разработку израильского студента
Ори Алона – алгоритм «Орион», улучшающий поиск благодаря
отображению наиболее релевантных результатов и принимающий во
внимание
качество
индексируемых
сайтов.
В 2007 г. компания Google внедрила ещё одну систему фильтров и
штрафных санкций – алгоритм «Austin». Многие из страниц,
занимавших до его введения первые места в рейтинге, понизились на
несколько позиций и не поднимались выше шестого места.
В 2009 г. был анонсирован алгоритм «Caffeine», выступивший в
качестве ещё одного серьёзного улучшения инфраструктуры «Google».
С этого момента система стала не только индексировать больше
страниц, но и значительно быстрее производить поиск.

10. Алгоритмы поисковой системы Яндекса

В
отличие от
Google,
поисковая
система Яндекс раскрывает намного
больше данных о своих алгоритмах, с
помощью которых выстраивается картина
выдачи.
С лета 2007 года компания Яндекс начала
сообщать широкой публике (прежде всего,
на форуме searchengines.ru и в своём
блоге для вебмастеров) об изменениях в
своих механизмах ранжирования. До этого
момента
изменения
активно
не
афишировались и новые алгоритмы не
получали названий.

11.

Таким образом, поисковые машины борются за своего
пользователя, конкурируя между собой, ведут
непрекращающуюся борьбу с мастерами накрутки
сайтов. Как только алгоритм становится известен и
достаточно точно просчитан, в ТОПе выдач
появляются сайты, которых там быть не должно. Для
борьбы с такими явлениями у Яндекса например
существуют случайные составляющие алгоритма.
Не смотря на то, что поисковый алгоритм
представляет собой череду математических формул,
за ними стоит кропотливая работа многих
человеческих умов. Как правило, все поисковики
стремятся приблизить работу алгоритма к работе
живого человека.

12.

Презентацию выполнили:
Медведева Алина
Чапыева Алина
English     Русский Правила