СИСТЕМА ИНТЕРНЕТ-МОНИТОРИНГА И АДРЕСНОГО РАСПРОСТРАНЕНИЯ НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ
Актуальность задачи
Требования к системам адресного распространения информации
Состав системы
Структурная схема системы
Функциональная схема системы
Подсистема индексирования. Информативность слов
Подсистема индексирования. Поисковый образ текста
Индексирование кратких сообщений
Иерархическая структура веб-сайтов
Порядок сканирования веб-страниц
Адресная рассылка текстов
Спасибо за внимание!
554.00K
Категория: ИнтернетИнтернет

Система интернет-мониторинга и адресного распространения научно-технической информации

1. СИСТЕМА ИНТЕРНЕТ-МОНИТОРИНГА И АДРЕСНОГО РАСПРОСТРАНЕНИЯ НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

Объединенный институт проблем информатики
Национальной академии наук Беларуси
(ОИПИ НАН Беларуси)
А.Г. Буравкин, С.Ф. Липницкий, Л.В.Степура
СИСТЕМА ИНТЕРНЕТ-МОНИТОРИНГА
И АДРЕСНОГО РАСПРОСТРАНЕНИЯ
НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ
Минск 2019

2. Актуальность задачи

Адресное (избирательное) распространение
информации – это индивидуальное информирование о
новых публикациях с учетом информационных
потребностей пользователей. Первые
информационные системы подобного назначения
появились более полувека назад. В них
использовались главным образом ручные методы
поиска и распространения информации. В настоящее
время этот вид информационного обслуживания
приобретает особую актуальность в связи с
существованием большого количества интернетсервисов, основанных на веб-технологиях.
2
2

3. Требования к системам адресного распространения информации

Оперативность и регулярность рассылки
новых публикаций.
Изложение краткого содержания каждой
публикации в виде реферата, аннотации или
набора ключевых слов.
Наличие обратной связи с пользователями
рассылаемой информации для
своевременной корректировки их
информационных профилей.
3

4. Состав системы

Функциональными компонентами
автоматизированной системы интернетмониторинга и адресного распространения
научно-технической информации являются три
подсистемы:
индексирования текстов, архивов
пользователей и кратких сообщений;
сканирования веб-страниц;
адресной рассылки текстов и кратких
сообщений пользователям.
4

5. Структурная схема системы

Интернет
Найденные тексты и
краткие сообщения
База поисковых
образов
Тексты, релевантные
профилю 1
Архив 1
Тексты, релевантные
профилю 2
Архив 2
...
Тексты, релевантные
профилю n
...
Профиль 1
Профиль 2
...
Архив n
Профиль n
5

6. Функциональная схема системы

Интернет
Подсистема сканирования веб-страниц
База поисковых образов
найденных текстов и
кратких сообщений
База найденных
текстов и кратких сообщений
Подсистема
индексирования
Программы
индексирования
текстов
Лингвистические
словари
Подсистема
адресной рассылки
Архив 1
Профиль 1
Архив 2
Профиль 2
...
Программы
индексирования
кратких сообщений
Архив n
...
Профиль n
6

7. Подсистема индексирования. Информативность слов

Информативность Ia каждого слова a в тексте T
вычисляем по формуле:
n1 n2 n3
Ia
( N1 N 2 N 3 ) (n1 n2 n3 )
где n1 – количество вхождений слова a в текст T, n2 –
число вхождений всех словоизменений слова a в T,
а n3 – число вхождений в T всех синонимов слова a.
Символами N1, N2 и N3 обозначены соответствующие
числовые параметры для объединенного архива
текстов.
7

8. Подсистема индексирования. Поисковый образ текста

Поисковый образ (или индекс текста) - это
совокупность пар
ПОT {(a, I ); (b, I ); ... a T , b T , ...}
a
T
b
T
В каждой паре содержатся ключевое слово и
его информативность.
8

9. Индексирование кратких сообщений

Краткое сообщение
Программа поиска
релевантного профиля
Релевантный
профиль не найден
Релевантный
профиль найден
Лингвистические
словари
Программа создания
релевантного архива
текстов
Программа
индексирования текстов
Поисковый образ
краткого сообщения
9

10. Иерархическая структура веб-сайтов

Всякий веб-сайт в Интернете имеет
гипертекстовую структуру и может быть
представлен в виде орграфа, вершинами
которого являются веб-страницы, а дугами –
связи между ними. Среди разнообразия связей
(ассоциативные, родо-видовые и др.) при
решении задачи сканирования веб-сайтов нас
будут интересовать только те из них, которые
указывают на порядок следования страниц.
10

11. Порядок сканирования веб-страниц

s1
s2
s3
s4
s5
s1
s1
s2
s3
s3
s6
s1
s7
s5
s5
s7
s1
s7
s8
a)
б)
в)
г)
д)
С учетом иерархической структуры веб-сайта, сканирование
веб-страниц удобно реализовать в следующей
последовательности:
• сканируются все веб-страницы, являющиеся висячими
вершинами орграфа;
• найденные тексты помещаются в специальную базу данных;
• отсканированные веб-страницы условно исключаются из
орграфа; далее процесс продолжается аналогичным образом.
11

12. Адресная рассылка текстов

Рассылка реализуется в три этапа:
ищутся все релевантные профили пользователей по
поисковому предписанию, которым является
поисковый образ очередного текста, найденного при
сканировании веб-страниц;
проверяется, является ли новым найденный текст;
найденный новый текст помещается в архивы
пользователей, для которых он оказался
релевантным.
12

13. Спасибо за внимание!

English     Русский Правила