Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных
Тема 5. Хранилища данных

Хранилища данных

1.

Программное обеспечение учетных и
статистических операций

2.

Технологии бизнес-анализа
Хранилища данных (ХД)
Хранилища данных (ХД)
Метаданные
Основные концепции построения ХД
Многомерные хранилища данных (MOLAP)
Реляционные хранилища данных (ROLAP)
Гибридные хранилища данных (HOLAP)
Виртуальные хранилища данных

3. Тема 5. Хранилища данных

Системы оперативной обработки информации
OLTP On-Line Transaction Processing
оперативная ( в режиме реального времени) обработка
транзакций

4. Тема 5. Хранилища данных

Система поддержки принятия решений (СППР)

5. Тема 5. Хранилища данных

Отличия СППР и OLTP-систем

6. Тема 5. Хранилища данных

Хранилище данных – разновидность систем хранения,
ориентированная на поддержку процесса анализа данных,
обеспечивающая целостность, непротиворечивость и
хронологию данных, а также высокую скорость выполнения
аналитических запросов.
Основные требования к ХД:
высокая скорость получения данных из хранилища;
автоматическая поддержка внутренней
непротиворечивости данных;
возможность получения и сравнения срезов данных;
наличие удобных средств для просмотра данных в
хранилище;
обеспечение целостности и достоверности хранящихся
данных.
Р. Кимбалл - один из авторов концепции

7. Тема 5. Хранилища данных

Основные положения концепции ХД:
Важнейшим элементом является семантический слой – механизм,
позволяющий аналитику оперировать данными посредством бизнес
терминов предметной области и не задумываться о механизме
получения данных
Цель использования
планирования

анализ
данных
для
стратегического
Динамика изменения данных – данные в отличие от БД не удаляются,
а пополнение происходит по регламенту (раз в час, день, неделю, в
др. определенное время)

8. Тема 5. Хранилища данных

Концептуальная схема ХД

9. Тема 5. Хранилища данных

Данные в ХД
Детализированныепоступают непосредственно из
источников данных и соответствуют
элементарным
событиям,
регистрируемым OLTP-системами;
неделимые
значения,
попытка
дополнительно
детализировать
лишает их логического смысла
Агрегированныеобобщенные
детализированные данные;
вычисляются и содержатся в
ХД
вместе
с
детализированными
данными

10. Тема 5. Хранилища данных

Метаданные
- «данные о данных», необходимы для описания значения и
свойств информации с целью лучшего ее понимания,
использования и управления ею.
Метаданные – высокоуровневые средства отражения
информационной модели и описания структуры
данных, используемой в ХД. Метаданные должны
содержать описание структуры данных хранилища и
структуры данных импортируемых источников.
Метаданные хранятся отдельно от данных в так
называемом репозитарии метаданных.

11. Тема 5. Хранилища данных

Основные подходы к использованию ХД:
• регулярные отчеты – подготовка отчетов стандартных
форм,
получаемых
многократно
с
определенной
периодичностью;
• нерегламентированные запросы – возможность получать
ответы на нестандартные, сформированные «по
требованию» вопросы;
• интеллектуальный анализ данных – поддержка процесса
интеллектуального анализа больших массивов данных с
целью выявления скрытых закономерностей, структур и
объектов, построения моделей, прогнозов и т. д.

12. Тема 5. Хранилища данных

Реляционные
ХД
Используется классическая
модель OLTP-системы и
эмулируется многомерное
представление данных –
технология Relation OLAP
Многомерные
ХД
Многомерное представление
данных в виде многомерных
кубов – технология
Multidimensional OLAP
Гибридные
Детализированные данные
хранятся в реляционных
таблицах, а агрегаты – в
многомерных кубах –
технология Hybrid OLAP
Виртуальные
Данные не консолидируются
физически, а собираются
непосредственно в процессе
выполнения запроса
Архитектуры
ХД

13. Тема 5. Хранилища данных

Многомерные ХД. Принцип организации многомерного куба

14. Тема 5. Хранилища данных

Многомерные ХД. Измерения и факты в многомерном кубе

15. Тема 5. Хранилища данных

В процессе поиска и извлечения из гиперкуба нужной информации над
его измерениями производится:
сечение (срез); транспонирование; свертка; детализация.

16. Тема 5. Хранилища данных

Свертка исходной таблицы по измерению «Товар»

17. Тема 5. Хранилища данных

Реляционные ХД
Реляционная БД (relational database) – совокупность отношений,
содержащих всю информацию, которая должна храниться в базе. Физически
это выражается в том, что информация хранится в виде двумерных
таблиц, связанных с помощью ключевых полей.
«звезда»
На логическом уровне
различают две схемы
построения РХД*
*зависят
от
«снежинка»
механизмов сбора и
обработки информации

18. Тема 5. Хранилища данных

Схема построения РХД «Звезда»

19. Тема 5. Хранилища данных

Реляционные ХД
На логическом
уровне
различают две
схемы
построения
РХД
«звезда» - центральной является таблица фактов, с
которой связаны все таблицы измерений;
«+»:
простота и логическая прозрачность модели;
более простая процедура пополнения измерений.
«-»:
медленная обработка измерений, т.к. одни и те же
значения измерений могут встречаться несколько раз в
одной и той же таблице;
высокая вероятность возникновения несоответствий в
данных из-за ошибок ввода.
«снежинка»

20. Тема 5. Хранилища данных

Схема построения РХД «Снежинка»

21. Тема 5. Хранилища данных

Реляционные ХД
На логическом
уровне
различают две
схемы
построения
РХД
«звезда»
«снежинка» - возможность работы с
иерархическими уровнями, определяющими степень
детализации данных;
«+»:ближе к представлению данных в многомерной
модели; процедура загрузки из РХД в многомерные
структуры более эффективна и проста, т.к. загрузка
производится из отдельных таблиц; намного ниже
вероятность появления ошибок, несоответствия
данных; компактность представления данных, т.к. все
значения измерений упоминаются только один раз.
«-»: достаточно сложная для реализации и
понимания структура данных;
усложненная
процедура
добавления
значений
измерений.

22. Тема 5. Хранилища данных

Гибридные ХД
-
сочетают высокую производительность, характерную для многомерной
модели, и возможность хранить большие массивы данных, присущую
реляционной модели.

23. Тема 5. Хранилища данных

Витрины данных
Витрина данных – специализированное локальное тематическое
хранилище, подключенное к централизованному ХД и обслуживающее
отдельное подразделение организации или определенное направление ее
деятельности.

24. Тема 5. Хранилища данных

Витрины данных
Преимущества витрин данных:
содержание данных, тематически ориентированных на
конкретного пользователя;
относительно небольшой объем хранимых данных, на
организацию и поддержку которых не требуется
значительных затрат;
улучшенные возможности в разграничении прав доступа
пользователей, так как каждый из них работает только со
своей витриной и имеет доступ только к информации,
относящейся к определенному направлению деятельности.

25. Тема 5. Хранилища данных

Централизованное ХД с витринами данных

26. Тема 5. Хранилища данных

Виртуальные ХД
Виртуальным хранилищем данных называется система, которая
работает с разрозненными источниками данных и эмулирует
работу обычного хранилища данных, извлекая, преобразуя и
интегрируя данные непосредственно в процессе выполнения запроса.
Появляется возможность анализа данных в OLTP-системе сразу после их
поступления без ожидания загрузки в хранилище.
Минимизируется объем требуемой дисковой и оперативной памяти, т.к.
отсутствует необходимость хранения исторических данных и
многочисленных агрегированных данных для различных уровней
обобщения информации.
Наличие в ВХД развитого семантического слоя позволяет аналитику
полностью абстрагироваться от проблем, связанных с процессом
извлечения данных из разнообразных источников, и сосредоточиться на
решении задач анализа данных.
! ВХД следует применять в системах, ориентированных на анализ
оперативной информации,
ограниченного периода.
актуальной
только
в
течение

27. Тема 5. Хранилища данных

Виртуальные ХД

28. Тема 5. Хранилища данных

Вариант организации ВХД
English     Русский Правила