269.26K

Хранилища данных

1.

Курс
«Хранилища данных»
Тема:
Хранилища данных
Барабанщиков Игорь Витальевич

2.

Концепция ХД
• В 1992г Инмон подробно описал концепцию хранилищ
данных.
• В основе концепции ХД лежит идея разделения данных,
используемых для оперативной обработки и для решения
задач анализа.
• Это разделение позволяет оптимизировать структуры
данных, используемые для анализа (для выполнения
аналитических запросов).

3.

Определение ХД
Хранилище данных – это предметно-ориентированный,
интегрированный, неизменчивый, поддерживающий
хронологию набор данных для целей поддержки
принятия решений.

4.

Предметная ориентация ХД
• Является фундаментальным отличием ХД от
оперативных источников данных (ОИД).
• Разные ОИД могут содержать данные,
описывающие одну и ту же предметную
область с разных точек зрения.
• ХД позволяет интегрировать информацию,
отражающую разные точки зрения на одну
предметную область.
• Предметная ориентация позволяет хранить в
ХД только те данные, которые нужны для
анализа.

5.

Интеграция в ХД
• ОИД, как правило разрабатываются
разными коллективами в разное время
на основе различного инструментария.
• Это приводит к тому, что данные,
отражающие один и тот же объект
реального мира в разных системах,
описывают его по-разному.
• Интеграция данных в ХД позволяет
решить эту проблему, приведя данные к
единому формату.

6.

Поддержка хронологии в ХД
• Данные в ОИД необходимы для выполнения
над ними операций в текущий момент
времени.
• Поэтому они могут не иметь привязки ко
времени.
• Для анализа данных важно иметь
возможность отслеживать хронологию
изменений показателей предметной области.
• Поэтому все данные, хранящиеся в ХД,
должны соответствовать последовательным
интервалам времени.

7.

Неизменяемость данных в ХД
• В ОИД данные хранятся ограниченное время.
Данные, которые не нужны для оперативной
обработки , удаляются из ОИД.
• Для анализа, наоборот, требуются данные за
максимально большой период времени.
• В отличие от ОИД, данные в ХД после загрузки
только читаются.
• Это позволяет существенно повысить
скорость доступа за счет исключения
операций модификации и за счет агрегации
данных.

8.

9.

Состав ХД
• Детальные данные – это данные,
переносимые непосредственно из ОИД. Они
соответствуют элементарным событиям,
фиксируемым OLTP-системами. (Например:
продажи).
• Агрегированные данные – получаются на
основе обобщения детальных данных.
• Архивные данные – редко используемые,
старые данные.
• Метаданные – информация, необходимая для
удобства работы с ХД (данные о данных).

10.

Метаданные ХД
• Работая с ХД, пользователь должен представлять:
- как вычисляются определенные наборы данных,
- что собой представляет система – источник данных,
- насколько этим данным можно доверять.
• Метаданные предоставляют в распоряжение
пользователей объяснение:
- характера данных,
- источника их происхождения
- способов доступа к данным.
• Никакие данные не могут появиться в ХД без
фиксации этого факта в метаданных.

11.

Пример метаданных
Данные, содержащиеся в репозитории
метаданных, позволяют отслеживать
информацию об аспектах функционирования ХД:
• Преобразование данных
• Адекватные даты и диапазоны для полей данных
• Система – источник данных
• Отображение полей системы-источника
• История извлечения данных
• Система защиты данных

12.

Информационные потоки в ХД
• Входной поток (In Flow) – образуется данными,
загружаемыми из ОИД в ХД
• Поток обобщения (Up Flow) – образуется при
выполнении агрегирования детальных данных
• Архивный поток (Down Flow) – образуется при
перемещении в архив детальных данных, количество
обращений к которым снизилось.
• Поток метаданных (Meta Flow) – образуется при
записи информации о данных в репозиторий.
• Выходной поток (Out Flow) – образуется данными,
извлекаемыми пользователями при выполнении
анализа.
• Обратный поток (Feedback Flow) – образуется
очищенными данными, записываемыми обратно в
ОИД.

13.

Архитектура корпоративного ХД
• В общем виде архитектура корпоративного ХД состоит
из шести уровней.
• Несмотря на то, что сами компоненты могут
отсутствовать, уровни в том или ином виде сохраняются.

14.

Итоги
• В основе концепции ХД
лежит идея разделения
данных, используемых для
оперативной обработки и
для решения задач
анализа.
• Это разделение позволяет
оптимизировать структуры
данных, используемые для
анализа
English     Русский Правила