Похожие презентации:
Технология создания презентации. Лабораторная работа № 3
1.
Лабораторная работа № 3ТЕХНОЛОГИЯ СОЗДАНИЯ ПРЕЗЕНТАЦИИ
Выполнили:
Студенты гр. 020604
Соколов Л.А.
Мельников Е.М.
2.
ЦельПрактическое освоение технологии анализа текста, извлечения
ключевых слов и профессионального поиска информации
3.
Основные понятияДжордж Зипф установил, что все тексты подчиняются общим
закономерностям, и сформулировал в 1946—49 гг. несколько законов,
которые нашли применение в технологии поиска информации
Частота слова - количество повторений i-го слова в тексте
Зипф, располагая слова в порядке убывания их частот, поставил им в
соответствие числа натурального ряда, назвав эти числа рангами слов (R):
слову с максимальной частотой присваивется ранг 1, следующему по
частоте — ранг 2 и т.д
Вероятность встречи слова — отношение частоты слова к общему
количеству слов в тексте
4.
Закон ЗипфаПервый закон Зипфа утверждает, что произведение частоты встречи слова в
тексте (или вероятности встречи слова по Зипфу) на его ранг есть величина
приблизительно постоянная для любых текстов определенного языка, т.е.
имеет место C = f R const
5.
TextAnalystПерсональная система автоматического анализа текста TextAnalyst
предназначена для анализа содержания текстов, смыслового поиска
информации и формирования электронных архивов. TextAnalyst
6.
Возможности TextAnalystанализ содержания текста с автоматическим
формированием семантической сети с
гиперссылками
кластеризация информации - анализ
распределения материала текстов по
тематическим классам
анализ содержания текста с автоматическим
формированием тематического древа с
гиперссылками
автоматическая индексация текста с
преобразованием в гипертекст
ранжирование всех видов информации о
семантике текста по «степени значимости»
с возможностью варьирования детальности
ее исследования
автоматическое/автоматизированное
формирование полнотекстовой базы
знаний с гипертекстовой структурой и
возможностями ассоциативного доступа к
информации
смысловой поиск с учетом скрытых
смысловых связей слов запроса со словами
текста
автоматическое реферирование текста формирования его смыслового портрета в
терминах наиболее информативных фраз
7.
Последовательность действийпри выборе ключевых слов
При выборе ключевых слов поискового запроса без использования
программных средств необходимо выполнить следующее:
Удалить (или вычеркнуть) из выбранного текста все стоп-слова и вычислить частоту
вхождения каждого из оставшихся слов
Выписать слова в порядке убывания их частоты вхождения f и присвоить словам
ранги Выбрать, руководствуясь здравым смыслом, диапазон значений ранга слов.
Сформировать, используя выбранный диапазон ранга слов, список ключевых
слов. Достаточно взять 10-20 слов.
Составить поисковый запрос, используя логический оператор «ИЛИ» и соблюдая
порядок следования ключевых слов сформированного списка
8.
РезультатыВ качестве примера взята статья с Википедии. Статистика ключевых слов следующая
кортес
15
3.59
экспедиция
8
1.91
грихальва
4
0.96
оно
4
0.96
альварадо
3
0.72
армия
3
0.72
веласкес
3
0.72
включать
3
0.72
испанец
3
0.72
кубинский
3
0.72
франсиско
3
0.72
эскадра
3
0.72
алонсо
2
0.48
9.
Графикчастота
График представляет собой
зависимость частоты встречи
слова от его ранга. Частота и ранг
обратно пропорциональны, в
числовом выражении, это значит,
чем выше ранг тем реже оно
употребляется.
4,00
3,50
3,00
2,50
2,00
частота
1,50
1,00
0,50
0,00
1
2
3
4
5
10.
Описание результатовДиапазон ранга будет от 1 до 2, так как слова в нём отвечают
требованиям для поиска изначального текста. Необходимый
текст нашёлся. Прочие результаты дали такие же
удовлетворительные результаты
11.
ВыводПравильный выбор ключевых слов позволяет быстро находить
нужный результат, особенно если требуется найти какой-либо
конкретный фрагмент информации