Количественные методы исследований (SPSS) DATA ANALYSIS
Анализ данных
Место анализа данных в познавательном процессе
Место анализа данных в процессе принятия решений
Задачи систем поддержки принятия решений –СППР (DSS, Decision Support System)
СППР
Подсистема анализа. Может быть построена на основе:
Базы данных – основа СППР
Хранилище данных
OLAP - системы
OLAP – системы
Интеллектуальный анализ данных
DATA MANING
Средства DATA MANING www.kdnuggets.com
Рекомендации по изучению курса
Структура курса
Рассматриваемые методы и приемы позволят Вам ответить на следующие вопросы:
326.50K

Количественные методы исследований (SPSS) DATA ANALYSIS

1. Количественные методы исследований (SPSS) DATA ANALYSIS

Введение

2.

Структура лекции
1. Концептуальные основы: математическая статистика
2. Анализ данных
3. СППР
4. Методы анализа данных
5.
Программные продукты анализа
данных
6.
Информационное обеспечение
курса

3.

Концептуальные основы:
Главная задача любого исследования
– отыскание связи явлений,
выраженной по возможности в
Статистическ
Функциональн
количественной
форме.
ая связь
ая связь
Y
X
Y
X

4.

Вводная часть. Концептуальные основы:
Общая теория статистики
Теория статистики фокусируется
на принятии решений при наличии
случайных и непредсказуемых
воздействий
Разделы статистики:
Общая теория статистики (ядро –
математическая статистика)
Статистика по отраслям
деятельности
Прикладная статистика (бизнесстатистика, анализ данных, DATA
ANALYSIS)
Широкое внедрение методов
анализа данных 60-80-е годы ХХ века

5. Анализ данных

• Анализ ( из древнегреч.) – разделение или
мысленное расчленение объекта или явления на
части или составляющие его элементы. Сами
явления даны в опыте, эксперименте или
практической деятельности в качестве данных.
• Данные (лат. DATA) – совокупность фактов,
выраженных в формализованном (машиночитаемом)
виде, обеспечивающем возможность их хранения,
обработки или передачи.
• Анализ данных – процедура обнаружения в
имеющейся информации скрытых закономерностей и
взаимосвязей.

6. Место анализа данных в познавательном процессе

Информация
Место анализа данных в познавательном
процессе
Данные
Анализ
(упорядоченная
(обработка)
формализованная
данных
информация)
Знания
Анализ данных дает достаточно
надежные способы получения из
отрывочной,
фрагментарной,
искаженной
информации
адекватных знаний об окружающей
действительности

7.

Извлечение из множества разнообразных данных
нетривиальных, обоснованных и практически
значимых выводов – анализ данных

8. Место анализа данных в процессе принятия решений

Разработка
Выбор
вариантов
Сбор
Анализ
оптимальной
информацииинформации действий
альтернатив
(альтернатив)

9. Задачи систем поддержки принятия решений –СППР (DSS, Decision Support System)

1) Ввод данных
2) Хранение данных
3) Анализ данных
Выделяют 3 класса задач анализа:
Информационно-поисковый;
Оперативно-аналитический
Интеллектуальный

10. СППР

• Подсистема ввода данных OLTP (Online transaction
processing). Выполняется операционная
(транзакционная) обработка данных. Для реализации
этих подсистем используют обычные системы
управления базами данных (СУБД).
• Подсистема хранения. Для реализации данной
системы используют современные СУБД и концепцию
хранилищ данных.
• Подсистема анализа.

11. Подсистема анализа. Может быть построена на основе:

Подсистемы информационно-поискового анализа на
базе реляционных СУБД и статистических запросов с
использованием языка структурных запросов SQL
(Structured Query Language);
Подсистемы оперативного анализа. Для реализации
таких подсистем применяется технология оперативной
аналитической обработки данных OLAP (On-line
analytical processing). Используется концепция
многомерного представления данных.
Подсистемы интеллектуального анализа. Реализует
методы и алгоритмы Data Mining («добыча данных»).

12. Базы данных – основа СППР

Для решения задач анализа данных и поиска решений
необходимо накопление и хранение достаточно больших
объемов данных. Для этих целей используют базы данных
(БД).
База данных – модель некоторой предметной области,
состоящей из связанных между собой данных об
объектах, их свойствах и характеристиках.
Средства для работы с БД представляют системы
управления базами данных - СУБД.
СУБД – инструмент для разработки прикладных программ,
использующих БД.

13. Хранилище данных

Для объединения в одной архитектуре СППР
возможности
систем оперативной обработки
транзакций (OLTP-систем) и систем анализа
привело к концепции хранилищ данных (ХД)
Хранилище
данных

предметноориентированный,
интегрированный,
неизменчивый, поддерживающий хронологию
набор данных, организованный для целей
поддержки принятия решений [1992, У. Инмон
«Построение хранилищ данных»].
Основная идея – разделение данных для оперативной
обработки и для решения задач анализа.

14. OLAP - системы

Оперативный многомерный анализ корпоративных
данных (On-Line Analytical Processing)

15. OLAP – системы

OLAP- технология оперативной аналитической
обработки данных, использующая методы и
средства для сбора, хранения и анализа
многомерных данных в целях поддержки
принятия решений [1993 г., Э.Кодд].
Предоставляет аналитику средства для проверки
гипотез при анализе данных

16. Интеллектуальный анализ данных

DATA MANING – исследование и
обнаружение «машиной»
(алгоритмами, средствами
искусственного
интеллекта) в сырых данных
скрытых знаний, которые
ранее не были известны,
нетривиальны, практически
полезны, доступны для
интерпретации человеком.
В DATA MANING для
представления полученных
знаний служат модели. Виды
моделей зависят от

17. DATA MANING

Задачи
1. Классификация
2. Регрессия
3. Поиск ассоциативных правил
4. Кластеризация
По назначению задачи делят на
• описательные (descriptive)
• предсказательные (predictive)
По способам решения:
Обучение с учителем (supervised learning)
Обучение без учителя (unsupervised learning)

18.

Методы DATA MANING
• Базовые методы: статистические и
методы, основанные на переборе (эвристические
методы ограниченного перебора);
• Нечеткая логика;
• Генетические алгоритмы;
• Нейронные сети;
• Визуализация данных

19.

Резюме
Анализ данных – это прикладная научная
дисциплина, представляющая собой систему
взаимосвязанных
методов
и
технологий
обработки исходной стохастической информации
(полученной из наблюдений, экспериментов,
опросов, статистических отчетов, существующих
баз данных, компьютерных систем управления
различными сферами деятельности и т.п.) с
целью выявления (подтверждения, уточнения)
скрытых
закономерностей
определенной
предметной
области
для
принятия
управленческих решений.

20. Средства DATA MANING www.kdnuggets.com

Классификация по типу реализации:
входящие как неотъемлемая часть в системы
управления базами данных;
Библиотеки алгоритмов DATA MANING с
сопутствующей инфраструктурой;
Коробочные или настольные решения («черные
ящики»)

21. Рекомендации по изучению курса

1. Читать популярные (рассчитанные на прикладных
специалистов) книги по анализу данных. Например,
Наследов А. SPSS 19: профессиональный статистический
анализ данных. –Спб.: Питер, 2011. -400 с.
Урубков А.Р. Статистические методы и модели в бизнесе: учеб.
Пособие.- М.: Издательский дом «Дело» РАНХиГС, 2011.-324 с.
2. Читать документацию статистических пакетов.
3. Практически применять в ходе изучения математической
статистики и анализа данных статистические пакеты.
Пользоваться их подсказками.

22. Структура курса

Три части:
1. Введение в анализ данных;
2. Методы обработки и анализа статистической информации и
построения на ее основе математических моделей наиболее
часто используемых на практике;
3. Статистическая обработка данных на компьютере в пакете
SPSS и MS Excel.

23. Рассматриваемые методы и приемы позволят Вам ответить на следующие вопросы:

• Как извлечь полезную информацию из имеющегося
статистического материала – статистических данных,
накопленных по результатам собственной предшествующей
деятельности или деятельности аналогичных объектов?
• Как выявить основные закономерности и особенности,
присущие исследуемому объекту, рынку, бизнесу, исходя из
накопленной статистики?
• Как выявить факторы, влияющие на исследуемые
экономические показатели, и количественно оценить это
влияние?
• Как построить модели, связывающие между собой исследуемые
характеристики и влияющие на них факторы?
• Как оценить точность и достоверность моделей и получаемых
на их основе выводов и заключений?
English     Русский Правила