2.57M

Интеллектуальный анализ данных (Data Mining)

1.

Интеллектуальный анализ данных
(Data Mining)
Введение
Савченко Наталья Александровна
ст.преподаватель

2.

Определение Data Mining
(короткое)
Data Mining это –
процесс «обнаружения знаний
в базах данных».
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
2

3.

Определение Data Mining
(полное)
Data Mining это
процесс обнаружения в сырых данных ранее
неизвестных, нетривиальных, практически
полезных и доступных для интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
3
3

4.

Процесс анализа данных
OLAP
Инструменты
анализа
Data Mining
Гипотеза
(модель)
Исходные
данные
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
4
4

5.

Междисциплинарность
интеллектуального анализа
данных
Теория баз
данных
Другие
дисциплины
Статистика
Машинное
обучение
Data
Mining
Визуализация
Алгоритмизация
Искусственный
интеллект
Распознавание
образов
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
5
5

6.

Что позволяет сделать Data Mining:
1. Найти закономерности в накопленных
данных;
2. Построить модели и правила,
описывающих выявленные
закономерности ;
3. Построить модели и правила,
прогнозирующих дальнейшее развитие
некоторых процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
6
6

7.

Основные ограничения
при использовании Data Mining
1. Качество данных
Около 75% работы над Data Mining состоит в сборе
данных, который совершается еще до того, как
запускаются сами инструменты интеллектуального
анализа.
2. Data Mining не может заменить аналитика
Необходим тщательный выбор модели и
интерпретация зависимостей или шаблонов, которые
обнаружены. Построенные модели должны быть
грамотно интегрированы в бизнес-процессы для
возможности их оценки и обновления.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
7
7

8.

Основные стадии Data Mining
СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)
ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
АНАЛИЗ ИСКЛЮЧЕНИЙ
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
8
8

9.

Свободный поиск
(выявление закономерностей)
На стадии свободного поиска осуществляется исследование
набора данных с целью поиска скрытых закономерностей.
Закономерность
(law)
существенная
и
постоянно
повторяющаяся взаимосвязь, определяющая этапы и формы
процесса становления, развития различных явлений или
процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
9
9

10.

Основные действия
на этапе свободного поиска
выявление закономерностей условной логики
(conditional logic);
выявление закономерностей ассоциативной
логики (associations and affinities);
выявление трендов и колебаний (trends and
variations);
а также валидация (тестирование, проверка)
выявленных закономерностей.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
10
10

11.

«Прозрачность» выявленных
закономерностей
Полученные закономерности, а точнее,
их конструкции, могут быть:
прозрачными, т.е. допускающими
толкование аналитика;
непрозрачными, так называемыми
"черными ящиками".
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
11
11

12.

Прогностическое
моделирование (Predictive
Modeling)
Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
12
12

13.

Прогностическое
моделирование (Predictive
Modeling)
Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
13
13

14.

Этапы подготовка к
проведению Data mining
анализ предметной области;
постановка задачи;
подготовка данных.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
14
14

15.

Понятие предметной области
Предметная область - это мысленно
ограниченная
область
реальной
действительности, подлежащая описанию
или моделированию и исследованию.
Предметная область состоит из объектов,
различаемых по свойствам и находящихся в
определенных отношениях между собой
или
взаимодействующих
каким-либо
образом.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
15
15

16.

Анализ предметной области
В процессе изучения предметной области
должна быть создана ее модель.
Модель предметной области описывает
процессы, происходящие в предметной
области, и данные, которые в этих
процессах используются.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
16
16

17.

Постановка задачи Data Mining
Включает следующие шаги:
формулировка задачи;
формализация задачи.
Постановка задачи включает также
описание
статического
и
динамического поведения исследуемых
объектов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
17
17

18.

Постановка задачи Data Mining
Описание статики:
описание объектов и их
свойств.
Описании динамики:
описывается поведение объектов
и те причины, которые влияют
на их поведение.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
18
18

19.

Постановка задачи Data Mining
!
Технология Data Mining
не
может
заменить
аналитика и ответить на те
вопросы, которые не были
заданы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
19
19

20.

Подготовка данных
Определение и анализ требований к данным
Сбор данных
Предварительная обработка данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
20
20

21.

Определение и анализ
требований к данным
Определение и анализ требований к
данным,
которые
необходимы
для
осуществления Data Mining.
Включая вопросы:
распределения пользователей;
вопросы доступа к данным, которые
необходимы для анализа;
аналитические характеристики
системы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
21
21

22.

Сбор данных
Использование существующего
хранилища данных.
Агрегация данных из различных
источников, включая бумажные
носители.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
22
22

23.

Определение необходимого
количества данных
Для определения оптимального
объема данных необходимо ответить на
следующие вопросы:
• Упорядочены ли данные?
• Включает ли набор данных
сезонную/цикличную компоненту?
• Есть ли в наборе устаревшие данные
или описывающие какую-то
нетипичную ситуацию?
• Каково соотношение количества
записей в наборе и количества
входных переменных?
• Репрезентативен ли используемый
набор данных?
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
23
23

24.

Предварительная обработка данных
качество
исходных
данных
качество
полученной
модели
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
24
24

25.

Предварительная обработка
данных
Качество данных (Data quality) в данном
случае является параметром, который
характеризует прежде всего возможность
их интерпретации.
Оценивание качества данных
Повышение качества данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
25
25

26.

Задачи Data-Mining:
Классификация;
Кластеризация;
Поиск ассоциативных
правил;
Прогнозирование;
Анализ отклонений.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
26
26

27.

Спасибо за внимание!
www.fdo.gubkin.ru
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
27
27
English     Русский Правила