Технология создания презентации. Лабораторная работа № 3

1.

Лабораторная работа № 3
ТЕХНОЛОГИЯ СОЗДАНИЯ ПРЕЗЕНТАЦИИ
Выполнили:
Студенты гр. 020604
Соколов Л.А.
Мельников Е.М.

2.

Цель
Практическое освоение технологии анализа текста, извлечения
ключевых слов и профессионального поиска информации

3.

Основные понятия
Джордж Зипф установил, что все тексты подчиняются общим
закономерностям, и сформулировал в 1946—49 гг. несколько законов,
которые нашли применение в технологии поиска информации
Частота слова - количество повторений i-го слова в тексте
Зипф, располагая слова в порядке убывания их частот, поставил им в
соответствие числа натурального ряда, назвав эти числа рангами слов (R):
слову с максимальной частотой присваивется ранг 1, следующему по
частоте — ранг 2 и т.д
Вероятность встречи слова — отношение частоты слова к общему
количеству слов в тексте

4.

Закон Зипфа
Первый закон Зипфа утверждает, что произведение частоты встречи слова в
тексте (или вероятности встречи слова по Зипфу) на его ранг есть величина
приблизительно постоянная для любых текстов определенного языка, т.е.
имеет место C = f R const

5.

TextAnalyst
Персональная система автоматического анализа текста TextAnalyst
предназначена для анализа содержания текстов, смыслового поиска
информации и формирования электронных архивов. TextAnalyst

6.

Возможности TextAnalyst
анализ содержания текста с автоматическим
формированием семантической сети с
гиперссылками
кластеризация информации - анализ
распределения материала текстов по
тематическим классам
анализ содержания текста с автоматическим
формированием тематического древа с
гиперссылками
автоматическая индексация текста с
преобразованием в гипертекст
ранжирование всех видов информации о
семантике текста по «степени значимости»
с возможностью варьирования детальности
ее исследования
автоматическое/автоматизированное
формирование полнотекстовой базы
знаний с гипертекстовой структурой и
возможностями ассоциативного доступа к
информации
смысловой поиск с учетом скрытых
смысловых связей слов запроса со словами
текста
автоматическое реферирование текста формирования его смыслового портрета в
терминах наиболее информативных фраз

7.

Последовательность действий
при выборе ключевых слов
При выборе ключевых слов поискового запроса без использования
программных средств необходимо выполнить следующее:
Удалить (или вычеркнуть) из выбранного текста все стоп-слова и вычислить частоту
вхождения каждого из оставшихся слов
Выписать слова в порядке убывания их частоты вхождения f и присвоить словам
ранги Выбрать, руководствуясь здравым смыслом, диапазон значений ранга слов.
Сформировать, используя выбранный диапазон ранга слов, список ключевых
слов. Достаточно взять 10-20 слов.
Составить поисковый запрос, используя логический оператор «ИЛИ» и соблюдая
порядок следования ключевых слов сформированного списка

8.

Результаты
В качестве примера взята статья с Википедии. Статистика ключевых слов следующая
кортес
15
3.59
экспедиция
8
1.91
грихальва
4
0.96
оно
4
0.96
альварадо
3
0.72
армия
3
0.72
веласкес
3
0.72
включать
3
0.72
испанец
3
0.72
кубинский
3
0.72
франсиско
3
0.72
эскадра
3
0.72
алонсо
2
0.48

9.

График
частота
График представляет собой
зависимость частоты встречи
слова от его ранга. Частота и ранг
обратно пропорциональны, в
числовом выражении, это значит,
чем выше ранг тем реже оно
употребляется.
4,00
3,50
3,00
2,50
2,00
частота
1,50
1,00
0,50
0,00
1
2
3
4
5

10.

Описание результатов
Диапазон ранга будет от 1 до 2, так как слова в нём отвечают
требованиям для поиска изначального текста. Необходимый
текст нашёлся. Прочие результаты дали такие же
удовлетворительные результаты

11.

Вывод
Правильный выбор ключевых слов позволяет быстро находить
нужный результат, особенно если требуется найти какой-либо
конкретный фрагмент информации
English     Русский Правила