ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В АНАЛИТИЧЕСКОЙ РАЗВЕДКЕ
Вопросы:
ИНФОРМАЦИОННЫЙ ПОИСК.
2. СПОСОБЫ ДОБЫВАНИЯ ИНФОРМАЦИИ ИЗ ДОКУМЕНТАЛЬНЫХ ИСТОЧНИКОВ.
3. ДОБЫВАНИЕ ИНФОРМАЦИИ ИЗ СЕТИ INTERNET.
213.13K
Категория: ИнформатикаИнформатика

Технологии добывания (сбора) информации

1. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В АНАЛИТИЧЕСКОЙ РАЗВЕДКЕ

ТЕМА № 4 ТЕХНОЛОГИИ ДОБЫВАНИЯ (СБОРА) ИНФОРМАЦИИ.

2. Вопросы:

1. Информационный поиск
2. Способы добывания информации из документальных
источников
3. Добывание информации из сети Internet

3. ИНФОРМАЦИОННЫЙ ПОИСК.

1. ИНФОРМАЦИОННЫЙ ПОИСК.
Поиск - процесс, в ходе которого в той или иной
последовательности
производится
соотнесение
отыскиваемого с каждым объектом, хранящимся в массиве.
Основные
критериальные
информационного поиска:
характеристиками
Критерий соответствия - признак или совокупность
признаков, по которым определяется степень соответствия
между запросом или поисковым предписанием и поисковым
образом документа, самим документом или записью его части
для принятия решения о выдаче или не выдаче конкретного
документа на информационный запрос, обрабатываемый
системой.

4.

Критерий смыслового соответствия,
критерий
релевантности (документов, данных) - признак или
совокупность признаков, по которым определяется степень
смыслового соответствия между содержанием поискового
предписания и поискового образа документа, самим
документом или записью его части для принятия решения о
выдаче или не выдаче конкретного документа на
информационный запрос, обрабатываемый системой.

5.

Критерий формального соответствия - признак или
совокупность признаков, по которым определяется степень
формального соответствия между поисковым предписанием
и поисковым образом документа, самим документом или
записью его части для принятия решения о выдаче или не
выдаче конкретного документа на информационный запрос,
обрабатываемый системой.

6.

Релевантность - характеристика степени соответствия
смыслового содержания документа, найденного в результате
поиска, содержанию информационного запроса.
Пертинентность - характеристика степени соответствия
документа или данных, найденных в результате поиска,
информационной потребности пользователя, выраженной в
его запросе.

7.

Точность поиска, коэффициент точности поиска/выдачи количественная
характеристика
результатов
информационного поиска. Точность поиска определяется
путем деления количества выданных в результате
выполнения поиска релевантных документов на общее
число
выданных
документов
(релевантных
и
не
релевантных).
Полнота поиска, коэффициент полноты поиска Количественная
характеристика
результатов
информационного поиска, которая определяется путем
деления количества выданных в результате выполнения
поиска релевантных (см. релевантность) документов на
общее число релевантных документов, имеющихся в
информационно-поисковой системе (выданных и не
выданных).

8.

Коэффициент информационного шума, коэффициент
шума -количественная характеристика информационного
поиска.
Коэффициент потерь - количественная характеристика
результатов информационного поиска.
Оперативность (время) поиска - время, затрачиваемое на
выполнение поиска, с момента формирования задания и
выдачи команды на производство поиска до момента
получения его результатов.

9.

Информационный поиск подразумевает использование
определённых стратегий, методов, механизмов и средств.
Стратегия
поиска
общий
план
(концепция,
предпочтение, установка) поведения системы или
пользователя
для
выражения
и
удовлетворения
информационной
потребности
пользователя,
обусловленный как характером цели и видом поиска, так и
системными решениями - архитектурой БД, методами и
средствами поиска в конкретной АИПС.
Метод поиска - совокупность моделей и алгоритмов
реализации
отдельных
технологических
этапов:
построения поискового образа запроса (ПОЗ), отбора
документов (сопоставление поисковых образов запросов и
документов), расширения и реформулирования запроса,
локализации и оценки выдачи.

10.

Механизмы поиска - совокупность реализованных в
системе моделей и алгоритмов процесса формирования
выдачи документов в ответ на поисковый запрос.
Средства поиска, с одной стороны, - взаимозависимый
комплекс информационно-поисковых языков и языков
определения/управления
данными,
обеспечивающий
структурные и семантические преобразования объектов
обработки
(документов,
словарей,
совокупностей
результатов
поиска),
а
с
другой,
объекты
пользовательского
интерфейса,
обеспечивающие
управление последовательностью выбора операционных
объектов конкретной поисковой системы.

11.

ИПС - представляет систему, предназначенную для
поиска и хранения информации; пакет программного
обеспечения,
реализующий
процессы
создания,
актуализации, хранения и поиска в информационных
базах и банках данных.

12. 2. СПОСОБЫ ДОБЫВАНИЯ ИНФОРМАЦИИ ИЗ ДОКУМЕНТАЛЬНЫХ ИСТОЧНИКОВ.

К основным видам информационного поиска документов
относятся:
Адресный поиск представляет собой процесс поиска
данных по формальным признакам, указанным в
поисковом запросе.
Семантический поиск представляет собой процесс
поиска документов по их содержанию.
Документальный поиск представляет собой процесс
поиска в хранилище информационно-поисковой системы
первичных документов или в базе данных вторичных
документов, соответствующих запросу пользователя.

13.

Фактографический поиск представляет собой процесс
поиска
фактов
(информационных
признаков),
соответствующих информационному запросу.
К основным видам электронного поиска относятся:
Полнотекстовый поиск — поиск по всему содержимому
документа.
Поиск по метаданным — это поиск по неким атрибутам
документа, поддерживаемым системой — название
документа, дата создания, размер, автор и т. д.
Поиск
изображений
изображения.

поиск
по
содержанию

14.

Добывание информации из документальных источников
осуществляется при помощи, информационно-поисковых
систем, которые можно разделить на два типа:
фактографические;
документографические системы.

15. 3. ДОБЫВАНИЕ ИНФОРМАЦИИ ИЗ СЕТИ INTERNET.

Основные способы использования Интернет-ресурсов для
решения задач аналитической разведки:
Получение новостей по целевой тематике.
Выявление тенденций.
Получение
рассылки
электронной почте.
целевых
документов
Построение сетей информационных связей.
Получение ответов на вопросы.
Фильтрация «мусора».
по

16.

Основные недостатки сети Интернет при сборе информации:
непропорциональный рост уровня информационного шума;
засилье паразитной информации;
слабая структурированность и связность информации;
динамичность информации;
отсутствие целостности информации;
многократное дублирование информации;
отсутствие возможности смыслового поиска;
ограниченность доступа к «скрытому» веб.

17.

Средства поиска информации в Интернете:
средства поиска информации на отдельных сайтах;
подборки ссылок;
каталоги;
поисковые системы;
метапоисковые системы;
системы мониторинга и контент-анализа;
экстракторы объектов, событий и фактов;
системы Knowledge Discovery, Data Mining, Text Mining;
специализированные системы конкурентной разведки;
интегрированные системы.

18.

Скрытое веб-пространство.
полнотекстовые информационные системы типа LexisNexis или
Factiva.
пиринговые сети, такие как BitTorrent, EDonkey, EMule, Gnutella,
Kazaa.
системы интерактивного взаимодействия с пользователями помощи, консультирования, обучения, требующие участия людей
для формирования динамических ответов от серверов.
категория так называемых «серых» сайтов, функционирующих на
основе динамических систем управления контентом (Dynamic
Content Management Systems).

19.

Социальные медиа ресурсы
Выделяют семь разновидностей социальных медиа:
1. социальные сети;
2. блоги;
3. форумы;
4. сайты отзывов;
5. серверы фото - и видеохостинга;
6. виртуальные службы знакомств
7. геосоциальные сети.

20.

Подходы к анализу социальных сетей.
Рис. Структура сети:
1) полная карта сети социальных коммуникаций;
2) социальная сеть, из которой изъяты слабые связи;
3) сеть, из которой изъяты сильные связи: структура сохраняет связность.
English     Русский Правила