Похожие презентации:
Тема 1. Data Warehouse
1.
Анализ Больших данныхк.т.н., доцент
Бекенева Яна Андреевна
Тема 2. Хранилища
данных (Data Warehouse)
2.
Информационно-аналитические системыИАС (Business Intelligence
Systems)
Делятся на три уровня:
• Источники данных
• Хранилище данных
• Анализ данных
3.
Источники данных.В OLTP (On-line
transaction
processing) системах
выполняется
операционная
(транзакционная)
обработка данных
(ввод данных в БД).
Для реализации OLTP
систем используют
обычные системы
управления базами
данных (СУБД).
4.
Противоречия между OLTP и ИАС.Характеристика
Требования к OLTP-системе
Требования к ИАС
Степень детализации
хранимых данных
Хранение только детализированных
данных
Хранение как детализированных, так и обобщенных
данных
Качество данных
Допускаются неверные данные из-за
ошибок ввода
Не допускаются ошибки в данных
Формат хранения данных
Может содержать данные в разных
форматах
Единый согласованный формат хранения данных
Допущение избыточных
данных
Должна обеспечиваться максимальная
нормализация
Допускается контролируемая денормализация
(избыточность) для эффективного извлечения данных
Управление данными
Должна быть возможность в любое время
добавлять, удалять и изменять данные
Должна быть возможность
периодически добавлять данные
Количество хранимых
данных
Должны быть доступны все оперативные
данные, требующиеся в данный момент
Должны быть доступны все, накопленные в течение
продолжительного интервала времени данные
Характер запросов
к данным
Доступ к данным осуществляется
по заранее составленным запросам
Запросы к данным могут быть произвольными и заранее
не оформлены
Время обработки
обращений к данным
Время отклика системы измеряется в
секундах
Время отклика системы может составлять несколько
минут
Характер вычислительной
нагрузки на систему
Постоянно средняя
загрузка процессора
Загрузка процессора формируется только при
выполнении запроса, но на 100%
Приоритетность
характеристик системы
Производительность
и доступность
гибкость системы
и независимости работы пользователей
5.
Загрузка процессора транзакционных ианалитических систем.
CPU%
CPU%
100
100
80
80
60
60
40
40
20
20
7:00 9:00 11:00 13:00 15:00 17:00
OLTP – системы
7:00 9:00 11:00 13:00 15:00 17:00
Системы анализа
6.
Хранилища данных.В основе концепции ХД
лежит идея разделения
данных, используемых
для оперативной
обработки и для задач
анализа
7.
Хранилища данных.Хранилище данных — предметно-ориентированный,
интегрированный,
неизменчивый,
поддерживающий
хронологию набор данных, организованный для целей
поддержки принятия решений.
У. Инмон «Building the Data Warehouse», 1992.
Ключевые характеристики ХД:
• Предметная ориентация
• Интеграция
• Поддержка хронологии
• Неизменяемость
8.
Перенос данныхПеренос данных - ETL-процесс (Extraction, Transformation, Loading)
9.
ETL процессETL-процесс:
• Extraction (извлечение):
• извлечение данных;
• выгрузка данных;
• Transformation:
• обобщение данных;
• перевод значений;
• создание новых полей;
• очистка данных;
• Loading (загрузка)
10.
Очистка данныхОчистка выполняется на следующих уровнях данных:
• уровень ячейки таблицы
• орфографические ошибки (опечатки)
• пропущенные данные
• фиктивные значения
• логически неверные значения
• закодированные значения
• составные значения
• уровень записи
• уровень таблицы БД
•нарушение уникальности
•отсутствие стандартов (дублирующие и противоречивые записи)
• уровень одиночной БД
• уровень множества БД
11.
Этапы очистки данных• Выявление проблем в данных
• Определение правил очистки данных
• Тестирование правил очистки данных
• Непосредственная очистка данных
• над отдельными ОИД
• расщепление атрибутов
• проверка допустимости и исправления
• стандартизация
• над множеством ОИД
• сопоставление данных, относящихся к одному
элементу
• слияние записей
• исключение дубликатов
12.
Обогащение данныхПод обогащением данных подразумеваем насыщение
данных дополнительной информацией из других
источников (это могут быть какие-то справочники,
информациях из сторонних сервисов и т.п.).
Обогащение данных распространённый процесс, когда
следует учесть все возможные аспекты для
проведения дальнейшего анализа.
В процессе обогащения данные дополнительно
изменяются и очищаются в соответствии с бизнеслогикой.
13.
Концепция Хранилища данных• Хранилище данных — предметно-ориентированный,
интегрированный, неизменчивый, поддерживающий хронологию
набор данных, организованный для целей поддержки принятия
решений.
• У. Инмон "Build-ing the Data Warehouse", second edition — QED
Publishing Group, 1996
• Предметная ориентация – хранить только те данные, которые
нужны для их анализа
• Интеграция – объединяет данные из разных источников, приведя
их к единому формату
• Поддержка хронологии - все данные в ХД соответствуют
последовательным интервалам времени.
• Неизменяемость – данные в ХД никогда не удаляются и не
изменяются, только дополняются
14.
Архитектура хранилища данных.15.
Категории данных• Детальные
• измерения
• факты
• Метаданные:
• что (описание объектов);
• кто (описание
пользователей) ;
• Агрегированные
• где (описание места
• аддитивные
хранения) ;
• полуаддитивные • как (описание действий);
• неаддитивные
• когда (описание времени);
• почему (описание причин).
Репозиторий метаданных.
16.
Стандарт CWMCWM (Common Warehouse Metamodel) — разработан OMG для обмена
метаданными между программными продуктами и репозиториями ИАС
17.
Проблемы построения хранилищ данных• необходимость интеграции данных из
неоднородных источников в распределенной
среде;
• потребность в эффективном хранении и
обработке очень больших объемов
информации;
• необходимость наличия многоуровневых
справочников метаданных;
• повышенные требования к безопасности
данных.
18.
Типы хранилищ данных• Физические хранилища данных
• Виртуальные хранилища данных
• Хранилища данных с витринами данных (Data
Mart)
• автономными витринами данных
• совмещенными витринами данных
19.
Физические хранилища данных.20.
Виртуальные хранилища данных.21.
ХД с автономными витринами данных22.
ХД с совмещенными витринами данных23.
Анализ данных• стандартная
отчетность,
• произвольные
запросы,
• многомерный
анализ (OLAP)
• извлечение
знаний (data
mining)
24.
Регламентированные отчетыЗаголовок
Имя 1 Имя 2 Имя 3 Имя 4
SQL-запросы
База данных
Данные
Подвал
25.
Системы регламентированных отчетовCrystal Reports комании
SAP AG
Oracle Reports
Системы учета фирмы 1C
JasperReports –
Open Source библиотека
26.
Произвольные запросыКонструктор запроса
Имя 1
Заголовок
Имя 2
SQL-запросы
Имя 3
Имя 4
Имя 4
Метаданные
Имя 1 Имя 2 Имя 3 Имя 4
Имя 3
База данных
Данные
Подвал
27.
Системы произвольных запросовOracle Discoverer
IBM Cognos BI
Pentaho Business Analytics
28.
Концепция OLAPOLAP (On-Line Analytical Processing) — технология
оперативной
аналитической
обработки
данных,
использующая методы и средства для сбора, хранения и
анализа многомерных данных в целях поддержки
Измерение
процессов принятия решений.
Измерение — это
последовательность значений
одного из анализируемых
параметров.
Может быть иерархическим.
Мера - данные, количественно
характеризующие анализируемые
факты.
Измерение
Мера (ячейка)
Мера
Измерение
29.
Пример многомерного куба30.
Операции над многомерным кубом.Срез.
Фиксированное значение
Срез
31.
Операции над многомерным кубом.Вращение.
Измерение1
Измерение2
Измерение2
Измерение1
Вращение
Измерение3
Измерение3
32.
Операции над многомерным кубом.Консолидация.
Детализация
Консолидация
Детализация
33.
Правила КоддаОсновные особенности (B):
•многомерное концептуальное
представление данных;
•интуитивное манипулирование данными ;
•доступность;
•пакетное извлечение против
интерпретации;
•поддержка всех моделей OLAP-анализа;
•архитектура "клиент-сервер";
•прозрачность;
•многопользовательская поддержка.
Специальные особенности (S):
•обработка ненормализованных
данных;
•сохранение результатов OLAP
отдельно от исходных данных;
•исключение отсутствующих
значений;
•обработка отсутствующих
значений.
Особенности представления
отчетов (R):
•гибкость формирования отчетов;
•постоянная производительность отчетов;
•автоматическая настройка физического
уровня.
Управление измерениями (D):
•универсальность измерений;
•неограниченное число
измерений и уровней агрегации;
•неограниченные операции между
размерностями.
34.
Тест FASMI• FAST (Быстрый).
• ANALYSIS (Анализ).
• SHARED (Разделяемой)
• MULTIDIMENSIONAL (Многомерной)
• INFORMATION (Информации)
35.
Архитектура OLAP - систем• OLAP-сервер — обеспечивает хранение данных, выполнение над
ними необходимых операций и формирование многомерной модели
на концептуальном уровне.
• OLAP-клиент - представляет пользователю интерфейс к
многомерной модели данных, обеспечивая его возможностью удобно
манипулировать данными для выполнения задач анализа.
36.
Пример OLAP-клиента37.
Виды OLAP - систем• MOLAP — многомерный (multivariate) OLAP.
• ROLAP — реляционный (relational) OLAP.
• HOLAP — гибридный (hybrid) OLAP.
• DOLAP — настольный (desktop) OLAP.
• JOLAP — новая, основанная на Java коллективная
OLAP-API-инициатива.
38.
Пример многомерной OLAPИзмерения
Клиент
Время
Продавец
Продукт
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
Женская гимназия № 1
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
07.03.99
Юрий Т.
Юрий Т.
Юрий Т.
Юрий Т.
Юрий Т.
Юрий Т.
Дмитрий А.
Дмитрий А.
Дмитрий А.
Дмитрий А.
Дмитрий А.
Дмитрий А.
Алексей Ш.
Алексей Ш.
Карандаши
Ручки
Тетради
Фломастеры
Краски
Маркеры
Карандаши
Ручки
Тетради
Фломастеры
Краски
Маркеры
Карандаши
Ручки
Меры
Сумма
Объем
сделки
сделки
690
30
830
40
500
25
700
35
600
15
1500
100
690
30
830
40
500
25
700
35
2000
50
2250
150
230
10
1000
0
39.
Пример реляционной OLAP40.
OLAP cистемыMicrosoft Analysis Services
Oracle OLAP
Cognos PowerPlay
SAP BusinessObjects Analysis
Pentaho Mondrian
Jaspersoft OLAP
Программное обеспечение