10.72M
Категория: Базы данныхБазы данных

Архитектура ETL

1.

Архитектура
ETL

2.

Процессы Extract, Transformation, Loading (ETL)
О
Б
Р
А
Извлечение, Выделение дельты, Маппинг приложений, Унификация
записей, Преобразование ключей, Унификация артрибутов, История
Ядро DWH
Приложения
Казначейства (БД
Фондирование,
администратор ставок)
Приложения КБ:
(LoanManager,
AlfaFactoring, AlfaLeasing,
DBO, ..)
Приложения РБ:
(GEMINI, SLOLP RB,
SLOLP CF, SLOLP AK,
SLOLP MG, WSRM, CCM,
DebtManager, ПО Legal,
PDS, Credit Dossier,
Smart Vista, ..)
Перенос
Интерфейсный уровень Staging
Приложения
коммерческого Блока
(Credit, SalesLogix, СКС,
Вексельный Центр, ...)
Область выгрузки
Приложения
инвестиционного Блока
(FOCUS,OPICS,SMART, )
Интерфейсный уровень
Система интерфейсов
ручного ввода
Виртуальное Ядро DWH
(Представления детальных
данных)
Данные ДАБов
ПО Холдинга
Staging «Ядра DWH»
АБС EQUATION
В
А
Н
И
Я
1. Стандартизированная,
Отчет-специфические
преобразования
единообразная
обработка
Business Intelligence
2. Многоуровневая,
BI Front Ends
DataMarts
слабосвязанная,
Oracle BI
открытая архитектура
(Аналитические
системы)
«Бизнес-ET L», «Бизнесметаданные»
Система
Коррекций
Staging DM ФО
ODS
Staging
DM RWA
Слой
синхронизации
Staging DM РБ
Staging
DWH
Ядро DWH
(Хранимые детальные данные РСБУ)
Source
Integration
О
BI-специфические
преобразования
Data Warehouse
Системыисточники
З
DM ФБ
Бизнеспользоват ели
Вн ешние
системы
Отчетность
ФБ
DM Экспорт
в KRM
3. Модульность иОтчетность
КБ
многократность использования
компонентов
ETL
DM КБ
KRM
DM ФО
Е
(Детальные данные МСФО)
Р
CRM
BMB
Staging
DM КБ
Staging
DM Казн.
DM
Казн-во
Отчетность
Казначейства
Loan
Manager
4. Инкрементальная обработка
DM
ФВ RWA
MGR
Кредитный
портфель
5. Отказ от использования
ODS как компонента ETL
DM РБ
П
Staging
DM ACRM
DM
ACRM
Staging
DM Coll-n
DM
Collection
Staging
DM УРР
DM
УРР
Staging
DM PL
DM PL
Staging
DM PR
DM PR
Системы
потребители
Отчетность
Collection
6. Обеспечение ведения
истории изменений
Потоки обмена данными
Отчетность для
ОперБлока
Отчетность для
прочих Блоков
Системы
потребители
Отчетность Витрины
процессов
7. Быстрое подключение новых
источников, минимизация
Job Management, Метаданные Informatica
Метаданные BI
«переделок» уже
работающего
DM BUS
Централизованный Репозитарий Метаданных
Системы
потребители

3.

Извлечение и перенос данных из систем-источников
SOAP/HTTP
СИСТЕМА-ИСТОЧНИК
BUSINESS LAYER
СИСТЕМА-ИСТОЧНИК
DATA LAYER
8
APPLICATION
Таблица
Informatica Power Center (IPC, ETL DWH)
1
SRC LOAD
Таблица
Таблица
Trigger
2.1
10.
1
DWI
PUBLISH
DWS
STG
DWH
10.
2
Таблица
XSRC
3.1
Представление
STAGE
DWH 2.0
ФАЙЛ-СЕРВЕР\FTP
2.2
DELTA
DELTA
ИНТЕРФЕЙСНАЯ ОБЛАСТЬ
(ВНЕШНЯЯ)
3.3
Таблица
*SRC
3.2
11.
1
Таблица
MIRROR
11.
2
Таблица
5
BO, RC3, MR, S24x7
6
ОБЛАСТЬ ХРАНЕНИЯ
БИЗНЕС-СОБЫТИЙ
(WSBO)
ИНТЕРФЕСНАЯ ОБЛАСТЬ
СИСТЕМЫ ИСТОЧНИКА
Таблица
Таблица
4.1
SOAP
7.2
4.2
BC, DT\DR, S24x7
Таблица
9.1
7.3
9.2
CDC
SRC ETL
DATA EXPORT
Область выгрузки
системы
источника
CHANGE DATA CAPTURE
LOG READ
WBI / MQ
Сервис
7.1
бизнессобытий
Адаптер DWH
SRC2MDM
converter
Адаптер 1
Адаптер n
MDM
12
SYSTEM OF
RECORD
Когда использовать тип подключения к DWH через сервис бизнес-событий:
Система-источник
формирует
одиночные
бизнес-события
равномерно в течение бизнес-дня, в соответствии с уровнем
пользовательской активности, и не сохраняет их в собственной базе,
т.е. информация о бизнес-событии не нужна для нормального
функционирования системы-источника.

4.

Процессы ETL для Размерностей и Фактов
Обработка измерений
Обработка фактов
Извлечение
Извлечение
Перенос в промежуточное
хранилище
Перенос в промежуточное
хранилище
Преобразование к единой
структуре
Преобразование к единой
структуре
Исходные системы
Уровень выгрузки
Интерфейсный
уровень
Очистка от дублей
(при необходимости)
Интерфейсный
уровень Stagind DWH
Преобразование PK->NK
Идентификация изменений
Идентификация изменений
(при необходимости)
Простые проверки on-line
(без маркировки)
Простые on-line проверки
(без маркировки)
Преобразование данных
(маппинг приложений)
Преобразование данных
(маппинг приложений)
Простые on-line проверки
(с маркировкой)
Простые on-line проверки
(с маркировкой)
On-line валидация и очистка
Уровень
Staging DWH
Актуализация связанных
измерений
Унификация записей
и создание контекста
(преобразование NK -> UK)
Унификация атрибутов
Создание контекстной дельты
Преобразование
PK факта->TK
On-line Валидация и очистка
Преобразование PK->NK
Преобразование NK->UK
Простые on-line обогащения
Обновление Ядра DWH
Публикационный
уровень DWH
Многошаговые алгоритмы
проверок
(без маркировки)

5.

Информационная архитектура Staging, DWH и DM
Каждый «прямоугольник» – отдельная схема БД Oracle

6.

Процесс ETL для Размерностей
Обработка данных
CDC и первичные
трансформации при
извлечении из
Источника
Преобразование
Первичного ключа
системы-Источника в
Числовой Ключ (NK);
Выделение дельты
Приведение к
стандартному
техническому
формату
Преобразование данных
(маппинг приложений);
Валидация и очистка;
Унификация записей
(назначение UK)
Унификация
Атрибутов;
Обогащение
Публикация данных
Хранение данных
Системы
Источники
Уровень
Извлечения
Интерфейсный
Уровень
Интерфейсный Уровень
Staging DWH
Преобразование ключей
PK -> NK
Источник 2
PK
Источника
PK Источника
PK
Источника
PK Источника
Публикационный слой Ядра
DWH
Уровень Staging DWH
Преобразование ключей
NK -> UK
UKLINK
UKLINK
Унификация записей
NKLINK
NKLINK
NK
NK
UK
CDELTA
Источник 1
DELTA
DELTA
MIRROR
MIRROR
NKLINK
NKLINK
CONTEXT
UKLINK
SDELTA
WDELTA
UK
UK

7.

Процесс ETL для Размерностей
Исходные
системы
Уровень
выгрузки
Начало
загрузки в
DWH
Транзакция
Извлечение
Интерфейсный
уровень
Исходные
данные
(в формате
источников)
Перенос в
промежуточное
хранилище
Интерфейсный
уровень
Staging DWH
Уровень
Staging DWH
Преобразование данных
(маппинг приложений)
DWSORDERKEY
UNIBRIDGE
Преобразование
к единой
структуре
NKLINK
Идентификация
изменений
Исходные
данные
(*SRC)
MIRROR
Обновление
Ядра DWH
On-line проверки
качества данных
Очистка от
дублей
Преобразование
PK->NK
Публикационный
уровень DWH
Валидация и
очистка
UNIUPDATE
Актуализация
связанных измерений
UNITODO
Унификация записей и
создание контекста
измерения
UKLINK
SDELTA
Унификация
атрибутов
CDELTA
Ядро
(DWH)
Контекст
измерения
(CONTEXT)
Создание контекстной
дельты
Многошаговые
проверки
качества данных
V
UNIKEY
PROC
Нет
обогащения
Обогащение
Измененные
данные
(DELTA)
Обогащение
произвольными
данными
V
Стандартный процесс загрузки измерений
Дельта
измерения
(WDELTA)
Журналы КД

8.

Процесс ETL для Размерностей
Исходные
системы
Уровень
выгрузки
Начало
загрузки в
DWH
Транзакция
Извлечение
Исходные
данные
(в формате
источников)
Интерфейсный
уровень
Staging DWH
Интерфейсный
уровень
Перенос в
промежуточное
хранилище
Уровень
Staging DWH
DWSORDERKEY
Преобразование данных
(маппинг приложений)
Очистка от
дублей
On-line проверки
качества данных
UNIBRIDGE
Преобразование
PK->NK
Преобразование
к единой
структуре
Актуализация
связанных измерений
UNITODO
Унификация записей и
создание контекста
измерения
Идентификация
изменений
UKLINK
Исходные
данные
(*SRC)
MIRROR
Унификация
атрибутов
MIRROR
SDELTA
UNIKEY
Сложные
фильтрации/
обогащения
CDELTA
Ядро
(DWH)
Контекст
измерения
(CONTEXT)
Создание контекстной
дельты
Промежуточные
исходные
данные
(BRIDGE_*SRC)
Измененные
данные
(BRIDGE_DELTA)
Преобразование
PK->NK
Идентификация
изменений
PROC
Обогащение
Обогащение
произвольными
данными
V
Дельта
измерения
(WDELTA)
BRIDGE_
NKLINK
Многошаговые
проверки
качества данных
V
Нет
обогащения
Процесс загрузки измерений с
применением промежуточных таблицисточников
Обновление
Ядра DWH
Валидация и
очистка
UNIUPDATE
NKLINK
Публикационный
уровень DWH
UNIKEY
BRIDGE_
MIRROR
Журналы КД

9.

Перенос в область Staging DWH; Фильтрация
Область выгрузки
Интерфейсный уровень
Область выгрузки Equation (DB2/AS400)
TYPE
I
TIME
STAMP

I
I
RDKCUS RDKVID
DWI002_EQ (Equation)
RDKSEQ

RDKSEQ


I





DWSACT DWSJOB
RDKCUS RDKVID








I









….
I




….
U





U





BGPF_010310
BGPF002_DSRC
Перенос в Staging;
Приведение к
единообразному виду;
Фильтрация
(Informatica)
Offlineпроверка
качества
данных
(IDQ)
Офицер
качества
данных

10.

Идентификация изменений в ETL
Исходные
очищенные от
дублей данные
Поля лог. ключей
(UNIKEY)
Идентификация изменений
Зеркало данных
(MIRROR)
Измененные
данные
(DELTA)
Актуализация
зеркала

11.

Преобразование PK-NK; выделение Дельты
Интерфейсный уровень
Интерфейсный уровень Staging
DWI002_EQ (Equation)
DWS002_EQ (Equation)
RDKCUS
RDKVID
RDKSEQ
A0063Z
Паспорт
1
Дата
Серия,
выдачи
номер
12.10.01 4601 182738
A0063Z
Вод-е уд-е
1
A0063Z
Загран.
1
Кем
выдан
400-540
DWSACT
NK RDKCUS
RDKVID
RDKSEQ
U
4
A0063Z
Паспорт
20.05.05 78XZ132891 06 ГИБДД
I
5
A0063Z
14.06.08 51N2837348
I
6
A0063Z
MID
1
Дата
выдачи
12.10.01
Серия,
номер
4601 182738
Вод-е уд-е
1
20.05.05
78XZ132891
Загран.
1
14.06.08
51N2837348
RDKPF002_DSRC
Логический ключ
для унификации
записей
400-540
06 ГИБДД
MID
RDKPF002_MIRROR
Составной
Первичный ключ в
исходной системе
(PK)
Кем выдан
Преобразовани
е
PK в NK;
Выделение
дельты
(PL-SQL модуль)
Атрибут
Дата выдачи
Серия, Номер
Кем выдан
RDKFPF01_UNIKEY
RDKCUS
RDKVID RDKSEQ NK
A0063Z
Паспорт
1
4
A0063Z
Вод-е уд-е
1
5
A0063Z
Загран.
1
6
RDKPF002_NKLINK
NK
ACT
UNICHANGE RDKCUS
4
5
6
U
I
I
A0063Z
A0063Z
A0063Z
U
I
I
RDKPF002_DELTA
NK- целочисленный
Первичный ключ
записей системы
источника

12.

Маппинг Приложений
Уровень Staging DWH
Интерфейсный уровень Staging
DWS01STG (Equation)
CLIENT_CDELTA
EID NK UK
NK ACT
3
U
UNI
CHANGE
N
ID
Отделения
0000
EQ ID
A0063Z
Кол-во
детей
2
ФИО
EQ ID
12
3
A0063Z
14
6
A0063Z
21 59
Петрова A0063Z
Пол
ДР
Кол-во
детей
Паспорт
Загран
2
BRANCH UNI
DWS
_UK CHANGE ACT
124
51N2837348
Ж
25.02.80
1
4601 182738
N
U
I
I
I
I
BGPF002_DELTA (EID=12)
ID Отделения
NK
0000
124
CAPF002_NKLINK
ID
BR
A
NK ACT
UNI
Вид
Серия,
CHANGE док-та
номер
I
Y
Загран 51N2837348
6
Кем
выдан
MID
От
де
NC
H_
N
EQ ID
A0063Z
RDKPF002_DELTA (EID=14)
DWS03STG (SLOLP CF)
NK AC
UNI
ФИО
T CHANGE
59
I
Y
По
л
ДР
N паспорта Кол- EQ ID
во
детей
Петрова Ж 25.02.80 4601 182738
1
A0063Z
ORDER003_MIRROR (EID=21)
ле
ни
я=
K=
00
00
12
4
Маппинг
приложений
(Informatica)
BRANCH_NK=124
NK
BRANCH_UK=124
UK
BRANCH_UKLINK
Если связка NK-UK в
UKLINK не найдена,
значит UK=NK

13.

Обновление контекстной таблицы
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
11
2
2
12
3
2
A0063Z
14
4
2
A0063Z
14
6
2
A0063Z
21 59
2
Петрова A0063Z
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Ж
25.02.80
Кол-во
детей
Паспорт
Загран
BRANCH
_UK
12
124
4601 182738
51N2837348
Ж
25.02.80
1
4601 182738
CLIENT_SDELTA
UK
Обновление
контекстной таблицы
(PL/SQL)
2
Унификация
записей
CLIENT_CDELTA
EID NK UK
ФИО
EQ ID
12
3
14
6
A0063Z
21 59
Петрова A0063Z
ИНН
Пол
ДР
Кол-во
детей
2
Паспорт
Ж
25.02.80
1
4601 182738
A0063Z
Загран
BRANCH DWS
UNI
_UK
ACT CHANGE
124
U
N
51N2837348
I
Y
I
Y

14.

Валидация и Очистка
ODS
АБС EQUATION
Приложения розничных
направлений бизнеса:
GEMINI
SLOLP RB
SLOLP CF
SLOLP AK
SLOLP MG
WSRM
CCM
DM
Credit Dossier
Smart Vista,
..
Ядро DWH
Алгоритм валидации и очистки адреса
Область
REGN
Город
TOWN
Улица
STRT
Сравнение
элементов адреса с
эталоном
Исходный
«Грязный» адрес
Аддрес
ADDR
Определение «чистых»
значений
Присвоение ключей UK
Итоговый
Очищенный адрес
Регистрация
некорректного адреса
Коррекция
ОБЛАСТИ
Коррекция
ГОРОДА
UK
UK
UK
UK
Исправленная версия
адреса
Коррекция
УЛИЦЫ
Обработка некорректного
адреса (не «налету»)
Обработка некорректных
адресов, очистка и поиск
корректных
Интерфейс
Пользователя (IDQ)
Бизнес-сущности,
использующие адрес
Системы,
предоставляющие
адресную
информацию
Staging DWH
Корректный адрес в привязках к сущностям
Системыисточники

15.

Online-Унификация Записей (Вариант N1)
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
11
2
2
12
3
2
A0063Z
14
4
2
A0063Z
4
5
2
A0063Z
14
6
2
A0063Z
21 59
2
Петрова A0063Z
ИНН
Пол
ДР
Ж
25.02.80
Петрова A0063Z 485739475832
Кол-во
детей
Паспорт
2
BRANCH_
UK
124
4601 182738
Ж
25.02.80
1
4601 182738
Online
унификация
записей
CLIENT_CDELTA
EID NK UK
Если запись существует
в CONTEXT
и UNICHANGE=‘N’
12
3
ФИО
EQ ID
A0063Z
ИНН
Пол
ДР
Кол-во
детей
2
Паспорт
Загран
BRANCH_UK DWSAC
UNI
T
CHANGE
124
U
N

16.

Online-Унификация Записей (Вариант N2)
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Ж
25.02.80
Паспорт
Вод-е
удост-е
11
2
2
12
3
2
A0063Z
14
4
2
A0063Z
14
5
2
A0063Z
14
6
2
A0063Z
21
59
2
Петрова A0063Z
Ж
25.02.80
1
4601 182738
22
61
2
Петрова A0063Z
Ж
25.02.85
1
4601 182738
NK
UK MANUAL
3
2
CLIENT_UNITODO
UK
2
3
2
4
2
5
2
6
2
59
2
5
2
N
59
51N2837348
2
N
2
78XZ132891
NK
2
6
4601 182738
N
4
N
2
N
61 2
N
Onlineунификация
записей
(Informatica)
22 61
ФИО
EQ ID
Петрова A0063Z
ИНН
61 2
Флаг: «Требуется
переунификация»
EID NK UK
Загран
2
CLIENT_UKLINK
Унификация по
алгоритму
для новой записи
Кол-во
детей
CLIENT_CDELTA
Пол
ДР
Ж
25.02.80
Кол-во
детей
Паспорт
4601 182738
Загран
BRANCH_UK DWSAC
UNI
T
CHANGE
I
I

17.

Online-Унификация Записей (Вариант N3)
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Кол-во
детей
Ж
25.02.80
Паспорт
Вод-е
удост-е
11
2
2
12
3
2
A0063Z
14
4
2
A0063Z
14
5
2
A0063Z
14
6
2
A0063Z
21
59
2
Петрова A0063Z
Ж
25.02.80
1
4601 182738
22
61
2
Петрова A0063Z
Ж
25.02.85
1
4601 182738
34
99 2
99
Петро
М
25.02.80
32
4601
18
4601
182738
2
4601 182738
78XZ132891
51N2837348
A0063Z 485739475832
CLIENT_UNITODO
CLIENT_UKLINK
Задание на Update
UK в дочерних
измерениях
NK
UK MANUAL
3
2
N
4
2
N
5
2
N
6
2
N
59
2
N
61
2
N
99 2
N
NK
UK
OLD_UK
99
2
99
Onlineунификация
записей
(Informatica)
NK
UK
2
2
3
2
4
2
5
2
6
2
59
2
61
2
99
99
99 2
CLIENT_UNIUPDATE
Переунификация
существующей
записи
Загран
CLIENT_CDELTA
EID NK UK
ФИО
34 99
Петро
EQ ID
ИНН
Пол
M
ДР
Кол-во
детей
Паспорт
3
4601 182738
Загран
BRANCH_UK DWSAC
UNI
T
CHANGE
U
U

18.

Offline-Унификация Записей
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
Петрова A0063Z 485739475832
UK MANUAL
3
2
N
4
2
N
5
2
N
6
2
N
59
2
N
61
2
N
99
2
Y
Пол
ДР
Кол-во
детей
Ж
25.02.80
Паспорт
11
2
2
12
3
2
A0063Z
14
4
2
A0063Z
14
5
2
A0063Z
14
6
2
A0063Z
21
59
2
Петрова A0063Z
Ж
25.02.80
1
4601 182738
22
61
2
Петрова A0063Z
Ж
25.02.85
1
4601 182738
34
99
99
2
Петро
М
25.02.80
2
4601 18
Загран
4601 182738
78XZ132891
51N2837348
CLIENT_UNITODO
NK
Загрузка и обновление
результатов
Offline-унификации
(PL/SQL)
UK назначен вручную и не
подлежит автоматической
переунификации
Вод-е
удост-е
2
A0063Z 485739475832
CLIENT_UKLINK
NK
ИНН
UK


99
99
99
2
CLIENT_UNIMAN
UK
UK
OLD_UK
2
2
99
CLIENT_SDELTA
CLIENT_UNIUPDATE
NK
UK
DATE
99
2
29.02
Offlineунификация
записей
Офицер
качества
данных

19.

Актуализация связанных Изменений после
переунификации записей
Уровень Staging DWH
CLIENT_UNIUPDATE
NK
UK
OLD_UK
99
2
99
ACCOUNT_SDELTA
UPDATE
связанных
измерений
Номер счета
11
NK UK
UK
Владелец Распорядитель Ответственный Банк счета
UK
UK
UK
UK
121 10 42301810000271837263
2
2
23
34
45
2
1
135 11 42301810000271838473
99
1
141 45 42301840000728371623
44
56
34
1
ACCOUNT_CONTEXT

20.

Поддержка ссылочной целостности
(в рамках маппинга приложений)
Уровень Staging DWH
Интерфейсный уровень Staging
CLIENT_CONTEXT
DWS01STG (Equation)
NK ACT
3
U
UNI
CHANGE
N
EID NK UK
ID
Отделения
0042
EQ ID
A0063Z
Кол-во
детей
2
BGPF01_DELTA
11
2
2
12
3
2
… …

Если связка PK-NK в NKLINK
не найдена, заносим в NKLINK
новую, в DWS.WRONGLINK –
сообщение об ошибке и
создаем запись с признаком
«автогенерации» в сущности.
ID Отделения
NK
0001
124
0002
125
0042
350
NK
PK
124
125

350
Адрес отделения
0001
Москва, ул.Петровка 38.
0002
Шаболовское
Москва, ул.Шаболовская 37.

0042

NULL

NULL
CAPF01_MIRROR
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Кол-во
детей
Ж
25.02.80


A0063Z

Паспорт
BRANCH_
UK
350
2





Маппинг
приложений
(Informatica)
ID Отделения=0042
BRANCH_UK=350
Преобразование
PK-NK-UK
Название
отделения
Петровское
EQ ID
CAPF01_NKLINK
ФИО
Для оптимизации запись
генерится в исходном
MIRROR-е источника и в
CONTEXT/WDELTA
сущности DWH
Лог ошибок
DWS.WRONGLINK
BRANCH_WDELTA
UK
DWSACT

350
I
Название ADDRESS_UK DEFAULT_FLAG
отделения



N/A
0
Y

21.

Выделение Контекста
Уровень Staging DWH
CLIENT_SDELTA
UK
Список всех UK, по которым
произошли изменения в
рамках текущей загрузки
2
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
11
2
2
12
4
2
A0063Z
14
5
2
A0063Z
14
6
2
A0063Z
14
59
2
Петрова A0063Z
21
3
2
A0063Z
22
61
2
34
99
2
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Ж
25.02.80
Кол-во
детей
Паспорт
Загран
4601 182738
78XZ132891
51N2837348
Ж
25.02.80
Петрова A0063Z
Ж
25.02.85
1
4601 182738
Петро
Ж
25.02.80
3
4601 182
A0063Z 485739475832
Вод-е
удост-е
1
4601 182738
2
Контекст это:
по данному UK,
совокупность
последних
поступивших из всех
Систем-источников
записей, а также
последние записанные
в DWH данные

22.

Пример Правил Унификации Атрибутов
Уровень Staging DWH
Сущность
Атрибут
CLIENT_HDIM
ФИО
CLIENT_HDIM
EQ ID
CLIENT_HDIM
1
ИНН
Описание
1
«Мастер система»
2
«Частота»
11
3
«Максимум»
11
4
1
«Минимум»
«Приоритет»

CLIENT_HDIM
ПОЛ
2
5
CLIENT_HDIM
ДР
2

CLIENT_HDIM
Кол-во
детей
Паспорт
3
1
14
1
14
CLIENT_HDIM
Вод-е
Удост-е
Загран
1
14




CLIENT_HDIM
Правила
Унификации
Атрибутов
ID Правила
ID Правила ID Мастер
Таблицы
1
11
CLIENT_HDIM
Таблица настройки
Унификации атрибутов
DWS.UNIRULES
Справочник
алгоритмов
унификации
Атрибутов
ID СистемыОписание Приоритет
DWS.UNITYPE
Источника
1
Equation
50
2
Debt Manager
40
3
SLOLP CF
25
4
SLOLP RB
20

ID ТаблицыИсточника
11
Описание
BGPF
СистемаИсточник
1
12
GFPF
1
14
RDKFPF
1
21
ORDER
3


Справочник
Таблицисточников
DWS.ESRC

Справочник
Системисточников
DWS.SRC

23.

Унификация Атрибутов
Уровень Staging DWH
CLIENT_CONTEXT
EID NK UK
ФИО
EQ ID
ИНН
ДР
Кол-во
детей
Ж
25.02.80
Паспорт
11
2
2
12
4
2
A0063Z
14
5
2
A0063Z
14
6
2
A0063Z
14
59
2
Петрова A0063Z
21
3
2
A0063Z
22
61
2
Петрова A0063Z
Ж
25.02.85
1
4601 182738
34
99
2
Петро
М
25.02.80
3
4601 182
Петрова A0063Z 485739475832
Пол
Вод-е
удост-е
Загран
4601 182738
78XZ132891
51N2837348
Ж
25.02.80
1
4601 182738
2
A0063Z 485739475832
Контекст
измерения
для UK=2
“Частота”
“MASTER”
“MASTER”
“MASTER”
“MASTER”
NK=2
NK=2
NK=6
NK=4
NK=2
“MASTER”
“Частота”
“MASTER”
“MAX”
NK=2
NK=2
NK=5
NK=99
CLIENT_UNIMASTER
Унификация
атрибутов
UK
2
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
Пол
Ж
ДР
Кол-во
Паспорт
Вод-е
Загран
детей
удост-е
25.02.80
3
4601 182738 78XZ132891 51N2837348
Виртуальное представление, существует
только в рамках алгоритма
Правила
Унификации
Атрибутов
По NK=99 расхождения: “Петро”, “M”, “Паспорт”
Протокол
Расхождений
DWS.WRONGUNI
Offline
Коррекция
Источников
Офицер
качества данных

24.

Создание Контекстной дельты
Уровень Staging DWH
CLIENT_UNIMASTER
UK
Создание
Контекстной
дельты
2
UK
2
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
Пол
ДР
Ж
25.02.80
Пол
ДР
Ж
Кол-во
Паспорт
Вод-е
Загран
детей
удост-е
3
4601 182738 78XZ132891 51N2837348
Кол-во
Паспорт
Вод-е
Загран
детей
удост-е
25.02.80
2
4601 182738 78XZ132891 51N2837348
CLIENT_HDIM из DWH
CLIENT_WDELTA
UK DWSACT
2
U
ФИО
EQ ID
ИНН
Пол
ДР
Кол-во Паспорт
Вод-е
Загран
детей
удост-е
Петрова A0063Z 485739475832 Ж 25.02.80
3
4601 182738 78XZ132891 51N2837348

25.

Циклы обновления записи в Pre-DWH
Уровень Staging DWH
CLIENT_WDELTA (1)
UK
2
ФИО
EQ ID
ИНН
Петрова A0063Z 485739475832
Пол
Ж
Последующие
ДР
Кол-во
Паспорт
Вод-е
Загран
UK
детей
удост-е
Отделения
25.02.80
3
4601 182738 78XZ132891 51N2837348
124
циклы дня 06.03.10
CLIENT_WDELTA (n)
Первый
UK
цикл дня 06.03.10
2
ФИО
EQ ID
ИНН
Пол
Петрова A0063Z 485739475832
Ж
ДР
Кол-во
Паспорт
Вод-е
Загран
UK
детей
удост-е
Отделения
25.02.80
4
4601 182738 78XZ132891 51N2837348
124
Уровень DWH
Формирование
записи в DWH
UK
ФИО
EQ ID
ИНН
Пол
ДР
2
Петрова A0063Z 485739475832
Ж
Кол-во
Паспорт
Вод-е
Загран
UK
AS_OF_DAY VALIDFROM
детей
удост-е
Отделения
25.02.80
2
4601 182738 78XZ132891 51N2837348
124
10.01.09
10.01.09
2
Петрова A0063Z 485739475832
Ж
25.02.80
43
4601 182738 78XZ132891 51N2837348
CLIENT_HDIM
124
06.03.10
05.03.10
VALIDTO
31.12.5999
05.03.10
31.12.5999

26.

Модульность процесса загрузки DWH
DWI
DWS
DWH
Преобразование и
загрузка данных
Интеграция данных
Система-источник 1
STG
Модуль
интеграции СИ1
Модуль ETL1
Бизнес-модуль 1
Область интеграции СИ1
Модуль ETL2
Бизнес-модуль 2
Композитная системаисточник (СИ2)
Модуль
интеграции
СИ1+СИ2
Модуль 1
СИ2
Модуль
интеграции 1 СИ2
Модуль X
СИ2
Модуль
интеграции X СИ2
Область интеграции
СИ1+СИ2
Область интеграции СИ2
Корпоративные данные
Модуль ETL3
Модуль ETL4
Бизнес-модуль 3
Модуль ETLm
Бизнес-модуль k

27.

Модульность процесса загрузки DWH
Исходные
Исходные
системы
системы
Уровень
Уровень
выгрузки
выгрузки
Начало
загрузки в
DWH
Транзакция
Извлечение
Исходные
данные
(в формате
источников)
Интерфейсный
Интерфейсный
уровень
уровень
Staging
Staging DWH
DWH
Интерфейсный
Интерфейсный
уровень
уровень
Перенос в
промежуточное
хранилище
DWSORDERKEY
Преобразование данных
(маппинг приложений)
Очистка от дублей
On-line проверки
качества данных
UNIBRIDGE
Преобразование
PK->NK
Преобразование к
единой структуре
Презентационный
Презентационный
уровень
уровень DWH
DWH
Уровень
Уровень
Staging
Staging DWH
DWH
Перенос
изменений в DWH
Валидация и очистка
UNIUPDATE
Актуализация связанных
измерений
UNITODO
Унификация записей и
создание контекста
измерения
NKLINK
CDELTA
Ядро
(DWH)
Идентификация
изменений
UKLINK
Исходные данные
(*SRC)
1. Процессы
интеграции
данных
MIRROR
Унификация
атрибутов
DELTA
SDELTA
UNIKEY
Сложные
фильтрации/
обогащения
Создание контекстной
дельты
Многошаговые
проверки
качества данных
V
PROC
Нет
обогащения
Промежуточные
исходные данные
(BRIDGE_*SRC)
Измененные
данные
(BRIDGE_DELTA)
Преобразование
PK->NK
Идентификация
изменений
BRIDGE_N
KLINK
Контекст
измерения
(CONTEXT)
Обогащение
Обогащение
произвольными
данными
V
UNIKEY
BRIDGE_MI
RROR
Дельта
измерения
(WDELTA)
Изменения,
Изменения,
подготовленные
подготовленные
кк загрузке
загрузке вв DWH
DWH
Журналы КД
2. Процессы
преобразования
и загрузки
данных

28.

Процесс ETL для Фактов
Обработка Данных
CDC и первичные
преобразования
во время
извлечения из
Источника
Приведение к
стандартному
техническому
формату
Преобразование данных (Маппинг Приложений);
Назначение Ключей Размерностей
Публикация данных
Хранение Данных
Исходная
Система
Уровень
Извлечения
PK
Источника
Интерфейсный
Уровень
Интерфейсный Уровень
Staging
Уровень Staging
Ядра DWH
Ядро DWH
Преобразование
PK факта в TK
PK
источника
Actual
Partition
U
K
NKLINK
NKLINK
Размерность 1 Размерность 2
UKLINK
UKLINK
Размерность 1
Размерность 2
U
K
TK

29.

Процесс ETL для Фактов
Исходные
системы
Уровень
выгрузки
Интерфейсный
уровень
Staging DWH
Интерфейсный
уровень
Начало
загрузки в
DWH
Транзакция
V
«Снимок»
данных
Извлечение
Исходные
Исходные
Исходные
данные
данные
данные

формате

формате

формате
источников)
источников)
источников)
Перенос в
промежуточное
хранилище
Преобразование
к единой
структуре
Публикационный
уровень DWH
Измененные
данные
Перенос
изменений в
DWH
Преобразование
PK факта->TK
Идентификация
изменений
MIRROR
Валидация и
очистка
Набор
правил
Ядро
(DWH)
V
Исходные
Исходные
Исходные
данные

данные
данные(в(в
единой
единой
единой
структуре)
структуре)
структуре)
On-line проверки
качества данных и
преобразование
данных (маппинг
приложений)
Преобразование
PK->NK
Преобразование
NK->UK
Набор
правил
Измененные
данные
Дельта фактов
(WDELTA)
NKLINK
UKLINK
Многошаговые
проверки
качества данных
Журналы КД

30.

Преобразование PK-фактов в TK
Первичный ключ в
исходной системе
(PK-факта)
Дельта источника
Дата
создания
проводки
28.03.10
Дата
платежа
Время оплаты
Тип операции
ACCOUNT
Сумма
28.03.10
11:07:24
Перевод
42301810000000000042
100





29.03.10
29.03.10
Оплата
42301810000000000042
150
12:07:42
DWH
Преобразование
PK-факта -> TK
Преобразование к
тексту и конкатенация
TK
AS_OF_DAY
VALUE_DAY
ACCOUNT
Сумма
11:07:24~Перевод~ 42301810000000000042
29.03.10
28.03.10
42301810000000000042
100





12:07:42~Оплата ~42301810000000000042
30.03.10
29.03.10
42301810000000000042
150
TK используется для фактов с
технической историей для
связывания/обновления различных
версий одного факта

31.

Даты в DWH
Операционная дата
Дельта источника
Бизнес-дата
Дата
создания
проводки
28.03.10
Дата
изменения
проводки
28.03.10
Дата
платежа
ACCOUNT
Сумма
25.03.10
42301810000000000042
100





28.03.10
29.03.10
25.03.10
42301810000000000042
150
VALIDTO VALUE_DAY
Дата
создания
проводки
ACCOUNT
Сумма
29.03.10
31.12.5999
28.03.10
42301810000000000042
100
DWH
TK
AS_OF_DAY
VALIDFROM
234
29.03.10
28.03.10
25.03.10








346
30.03.10
29.03.10
31.12.5999
25.03.10
28.03.10
42301810000000000042
150
VALUE_DAY – бизнес-дата события или состояния, привязанная к операционному дню АБС
Equation (например, дата валютирования проводки, дата актуальности остатка).
AS_OF_DAY – дата актуализации, в которую производится загрузка данных.
VALIDFROM \ VALIDTO – интервал технической истории, в привязке к операционному дню
АБС Equation, в течение которого записи были валидны.

32.

Секционирование фактов по VALUE_DAY
Загрузка фактов в хранилище
BALANCE_WDELTA
Дата
загрузки в DWH
29.03.10
BALANCE_HSTAT
Account
28.03.10 42301810000000000042
Дата
загрузки в DWH
Для каждого источника д.б.
строго определена глубина
ввода «задним числом».
Ровно на эту глубину могут
изменяться данные в секциях.
Дата
остатка
Дата
остатка
Account
Остаток
Признак
записи
100
I
Остаток
Признак
записи
30.03.10
28.03.10 42301810000000000042
120
U
30.03.10
29.03.10 42301810000000000042
250
I
Остаток
Признак
записи
Дата
загрузки в DWH
Дата
остатка
Account
31.03.10
28.03.10 42301810000000000042
160
U
31.03.10
29.03.10 42301810000000000042
270
U
31.03.10
30.03.10 42301810000000000042
360
I
AS_OF_DAY VALUE_DAY
Уровень Staging DWH
Account
Остаток
VALIDFROM
VALIDTO
29.03.10
28.03.10
42301810000000000042
100
28.03.10
29.03.10
31.12.5999
30.03.10
28.03.10
42301810000000000042
120
29.03.10
30.03.10
31.12.5999
31.03.10
28.03.10
42301810000000000042
160
30.03.10
31.12.5999






Секция VALUE_DAY=28.03.10
AS_OF_DAY VALUE_DAY
Account
Остаток
VALIDFROM
VALIDTO
30.03.10
29.03.10
42301810000000000042
250
29.03.10
30.03.10
31.12.5999
31.03.10
29.03.10
42301810000000000042
270
30.03.10
31.12.5999






Секция VALUE_DAY=29.03.10
AS_OF_DAY VALUE_DAY
Account
Остаток
VALIDFROM
VALIDTO
31.03.10
30.03.10
42301810000000000042
360
30.03.10
31.12.5999






Секция VALUE_DAY=30.03.10
Уровень Пре-DWH

33.

Единая дата для аналитики по детальным данным
остояние без истории
События без истории
VALUE_DA
Y
AS_OF_DAY
Account
Остаток
VALUE_DA
Y
AS_OF_DAY
23.03.10
31.03.10
42301810000000000042
120
23.03.10




28.03.10
29.03.10
42301810000000000042
250
Account
ПЦ
Сумм
а
24.03.10
42301810000000000042 52Ж
+100
23.03.10
31.03.10
42301810000000000042 Р04
+20


29.03.10
30.03.10

Состояние c историей


42301810000000000042 Н02
+130
События с историей
VALUE_DA
Y
AS_OF_DAY
Account
Остато
к
VALIDFRO
M
VALIDTO
23.03.10
24.03.10
42301810000000000042
100
23.03.10
29.03.10
23.03.10
31.03.10
42301810000000000042
120
29.03.10
31.12.5999






29.03.10
30.03.10
42301810000000000042
250
28.03.10
28.03.10
VALUE_DA
Y
AS_OF_DAY
23.03.10
ПЦ
Сумм
а
VALIDFRO
M
VALIDTO
24.03.10
42301810000000000042 52Ж
+100
23.03.10
29.03.10
23.03.10
30.03.10
42301810000000000042 Л07
+100
29.03.10
31.12.5999
23.03.10
31.03.10
42301810000000000042 Р04
+20
30.03.10
31.12.5999
29.03.10
31.12.5999


29.03.10
30.03.10
Account


42301810000000000042 Н02

+130
Бизнес-дата VALUE_DAY – единая дата для анализа детальных данных
Используя ее с датой загрузки/датами валидации/бизнес-периодами
можно получить срез данных, по состоянию на любой день

34.

Витрины Данных
О
Б
Р
А
Извлечение, Выделение дельты, Маппинг приложений, Унификация
Приложения РБ:
(GEMINI, SLOLP RB,
SLOLP CF, SLOLP AK,
SLOLP MG, WSRM, CCM,
DebtManager, ПО Legal,
PDS, Credit Dossier,
Smart Vista, ..)
Виртуальное Ядро DWH
(Представления детальных
данных)
4. Глубина хранения –
Приложения КБ:
(LoanManager, необходимая для
минимально
AlfaFactoring, AlfaLeasing,
..)
решенияDBO,
задач
BI
5. Возможны периодические
перегрузки, пересчеты
агрегатов DM на основе
детальных данных Ядра DWH
Н
И
Staging
DM RWA
Я
Отчет-специфические
преобразования
Бизнеспользоват ели
Внешние
системы
системы)
Oracle BI
Система
Коррекций
Staging DM ФО
Перенос
Интерфейсный уровень Staging
Интерфейсный уровень
Фондирование,
администратор ставок)
Область выгрузки
3. Модель хранения –
Приложения
оптимизирована
инвестиционного Блока под
(FOCUS,OPICS,SMART, )
использование конкретным BI и
Приложения
коммерческого скорости
Блока
обеспечение
(Credit, SalesLogix, СКС,
Вексельный Центр, ...)
выполнения
аналитических
Приложения
запросовКазначейства (БД
А
«Бизнес-ETL», «Бизнесметаданные»
Слой
синхронизации
Staging DM РБ
Система интерфейсов
ручного ввода
Staging «Ядра DWH»
ODS
В
Business Intelligence
BI Front Ends
DataMarts
(Аналитические
DWH
Ядро DWH
(Хранимые детальные данные РСБУ)
2. Могут хранить как
АБС EQUATION
детальные,
так и
Данные ДАБов
агрегированные
данные
ПО Холдинга
О
BI-специфические
преобразования
1. Содержат
информацию,
записей, Преобразование
ключей, Унификация артрибутов, История
обогащенную и агрегированную
под задачи конкретнойData Warehouse
Системыпредметной
области Source
Staging
источники
Ядро DWH
Integration
З
DM ФБ
Отчетность
ФБ
DM Экспорт
в KRM
DM ФО
Е
(Детальные данные МСФО)
Р
KRM
Отчетность
КБ
DM
ФВ RWA
CRM
BMB
Staging
DM КБ
DM КБ
Staging
DM Казн.
DM
Казн-во
Отчетность
Казначейства
Loan
Manager
MGR
DM РБ
П
Staging
DM ACRM
DM
ACRM
Staging
DM Coll-n
DM
Collection
Staging
DM УРР
DM
УРР
Staging
DM PL
DM PL
Staging
DM PR
DM PR
Кредитный
портфель
Системы
потребители
Отчетность
Collection
Отчетность для
ОперБлока
Отчетность для
прочих Блоков
Отчетность Витрины
процессов
Потоки обмена данными
Системы
потребители
DM BUS
Job Management, Метаданные Informatica
Централизованный Репозитарий Метаданных
Системы
потребители
Метаданные BI

35.

Витрины данных
Основные принципы построения витрин
Источник данных для витрин – ядро или другая витрина
Исключением из этого правила могут являться настроечные таблицы, посредством
которых выполняется управление механизмом загрузки и lookup таблиц, которые
непосредственно в отчетах не используются
Для промежуточного хранения данных в ходе загрузки
используются Staging области витрин
Модель хранения данных в витринах оптимизирована для
выборки данных
При использование общих данных несколькими витринами –
организуются общие промежуточные витрины

36.

Схема загрузки витрин данных (DM)
Уровень
Staging DWH
PreDWH/DWH
PreDM/DM
Детальных
данных (ДД)
Загрузка/
перезагрузка
DM ДД
Загрузка Ядра
и DM ДД
Обновление
хранилища
Дельты
измерений и
фактов
(WDELTA*)
Уровень
Staging DM
Детальных
данных (ДД)
Ядро
DWH
Уровень
Staging DM
Публикационный
уровень DM
Загрузка/
перезагрузка
DM
Обновление
витрин
Обновление DM ДД
Извлечение
детальных данных
(ДД) и/или
изменений
Извлечение
детальных данных
(ДД) и/или
изменений
Трансформированные
данные
Дельта данных
для обработки
Создание
дельты DM ДД
(DMDELTA)
Трансформация
данных
Дельта
DM ДД
(DMDELTA)
Витрина данных
(DM ДД)
Дельта данных
для обработки
Создание
дельты DM
(DMDELTA)
Трансформация
данных
Дельта
DM
(DMDELTA)
Трансформации, выполняемые при построении витрин
Фильтрация исходных данных
Денормализация
Промежуточная фильтрация
Обогащение и перемаркировка
Фильтрация результата
Трансформированные
данные
Витрина
данных
(DM)

37.

Обогащение и перемаркировка при построении витрин
Типы механизмов перемаркировки и обогащения
простая трансляция, или бридж.
сложная трансляция (алгоритм со специфичными правилами поведения)
Предназначение механизмов:
Автоматическая перемаркировка и обогащение аналитических признаков при
загрузке и перезагрузке данных, реализованная в DWH в области Staging DM.
Управление механизмом происходит с помощью редактируемых настроечных
таблиц (бриджей).
Алгоритм механизма может быть как простым – прямая трансляция одних
атрибутов в другие, так и более сложным.
Первый случай – это простая трансляция, или бридж.
Второй – сложная трансляция (сложный алгоритм, со специфичными
правилами поведения).
Редактирование настроечных таблиц производится в отдельном интерфейсе по
ручному вводу и редактированию справочников. Регламент редактирования и
владелец определяется исходя из бизнес-требований и реализации.

38.

Принцип работы механизма “Bridge”
Уровень Staging DM
STG_BALANCE
TK
ACCOUNT_UK
GL_ACCT_UK
CLIENT_UK
PROFIT_UK
Баланс
Оборот
123
6542
896
45
30
100
80
124
6553
754
45
27
120
20
В данном примере бридж
содержит только записи,
требующие трансляции:
набор входящих полей, по
которым происходит
выборка исходящих
значений.
ACCOUNT_HDIM
ACCOUNT_UK
CLIENT_UK
Account
6542
45
42301810000000000042
8964
64
42301810000000000078
Осуществляет
прямое
преобразование
одного набора
атрибутов в
другой.
Алгоритм
максимально
простой и
унифицированный
; позволяет легко
включить в
процесс Staging
ETL.
Может
использоваться
как для
перемаркировки,
STG_GLACCT2IAS_BRIDGE
Обогащение и
перемаркировка
ID
ACCOUNT
CLIENT_UK
PROFIT_UK
1
42301810000000000042
45
12
2
42301810000000000099
45
12
3
42301810000000000100
34
15
4
42301810000000000200
34
19




Входящие
поля
Исходящие
поля
RPT_BALANCE
TK
ACCOUNT_UK
GL_ACCT_UK
CLIENT_UK
PC_UK
SRC_PC_UK
Баланс
Оборот
123
6542
896
45
12
30
100
80
124
6553
754
45
27
27
120
20
Уровень DM ФО

39.

Обновление агрегатов на витринах
Варианты обновления агрегатов в конечных витринах :
Инкрементальное обновление
«честный» инкремент;
псевдо-инкрементальное обновление
Не инкрементальное обновление
создание новой версии среза (при формировании зеркала
версий);
полное обновление (удаление + вставка)

40.

Полноценное инкрементальное обновление агрегатов
Загрузка данных в
интерфейсную область
системы отчетности
Вычисление набора
измененных записей
Выборка набора
измененных записей
старой и новой версии
3.1
1
<Таблица ДД>
Интерфейсная
таблица
2
<Таблица ДД>
Таблица
детальных
данных
<Таблица ДД>
Временная таблица,
содержащая старую
версию обновленных
данных
Формирование
объединенной
выборки, содержащий
дельту агрегата
Расчет агрегата на
наборе измененных
записей
4.1
<Таблица агрегат>
Временная таблица
старых значений
агрегата
*(-1)
5
3.2
<Таблица ДД>
Временная таблица,
содержащая новую
версию обновленных
данных
4.2
<Таблица агрегат>
Временная таблица
новых значений
агрегата
Запись дельты в
таблицу агрегата
*(+1)
Выборка
содержащая
дельту для
внесения в
агрегат
6
<Таблица агрегат>
Основная таблица
хранящая
агрегированные
данные

41.

Псевдо - инкрементальное обновление агрегатов
Уровень DM ФО
Уровень Stage DM
Уровень проектного DM
Исходные таблицы
детальных данных
Новая версия агрегата
Расчет данных за
определенный период
Построчное сравнение
за тот же период
Агрегат DM
Изменения
(дельта записей агрегата)
Плюс алгоритма - уменьшение
Обновление записей:
объема хранимого агрегата за
добавление новых версий,
счет введения стадии
инвалидация старых
определения изменений. С
учетом данных «задним
числом» оптимизация по
хранению может быть
значительной.
Если необходима
поддержка
историчности
агрегата, то это
реализуется
аналогично DWH – с
помощью дат
VALIDFROM/VALIDTO
для каждой записи

42.

Система редактирования ручных справочников
Система редактирования ручных справочников
Тонкий клиент
IE/Windows
HTTP
Ручной ввод
или импорт XLS
Серверное
приложение
«Редактор
справочников»
JBoss/Linux
JDBC
БД DWDICT
Oracle 11g
Ответственный
сотрудник
Data Warehouse
Staging DWH
Business Intelligence
Ядро DWH
Staging DM
DataMarts
Настроечные
таблицы и
BRIDGE-ы
...
Взаимодействие
ETL
Запросы данных
DWH
Oracle 11g
Staging
DM ФО
...
DM ФО
...

43.

Области для загрузки на витрины минуя Ядро(DM IN)
Организация взаимодействия функций при загрузке данных с использованием области DMIN на примере BI Reference в качестве источника
Внешние
источники
DWDICT
Область DMIN
DMINDM<datamart_code>_
DWDICT
Исходные
данные
*DMIN
DMS <datamart _code >
DM <datamart _code >
*DELTA
Таблица
Витрины
данных
*DMDELTA
KEYBRIDGE
Oracle Database
Перенос данных
в область DMIN
(mapping)
Функция переноса данных
в область DMIN для
DWDICT (workflow)
Преобразование к
структуре данных
Витрины
(mapping)
Процедура
*GENKEYBRIDGE
Процедура
*DELTA2DMDELTA
Процедура
*UPLOAD*
Генерация
суррогатных ключей
DK Витрины
(session)
Трансляция ключей
и подготовка к
загрузке
(session)
Загрузка данных
в целевую
таблицу
(session)
Функция загрузки данных в целевую таблицу Витрины (workflow)
Организация взаимодействия функций загрузки измерений из Ядра с заполнением таблицы KEYBRIDGE для обеспечения
трансляций ключей
Внешние
источники
DWH
Публикационный уровень
Витрины данных
Стейджинг Витрины данных
DMS <datamart _code >
DM <datamart _code >
Процедура
*UPLOAD*
*DMDELTA
Oracle Database
Таблица
измерения
Informatica PowerCenter
Informatica PowerCenter
Публикационный уровень
Витрины данных
Стейджинг Витрины данных
KEYBRIDGE
Процедура
*FILLKEYBRIDGE
Извлечение данных и
преобразование к
структуре Витрины
(mapping)
Заполнение таблицы
ключей соответствиями
UK и бизнес-ключей
(session)
Загрузка данных в
целевую таблицу
(session)
Функция загрузки данных в целевую таблицу Витрины (workflow)
Таблица Витрины
данных

44.

В случае доработок, при особых
требованиях к структуре, можем
изменить тип объекта на view
или table
Потребитель 1
Потребитель 2
Для целей
консолидации данных
из нескольких витрин
можно сформировать
общий промежуточный
DMOUT
DM OUT 2
DataMart
ETL
Для каждого
потребителя
создается своя
схема DM OUT
Создаем синонимы для
используемых сущностей,
если не требуется
изменений структуры
DM OUT
DataMart
ETL
DM OUT 1
Области выгрузки во внешние системы (DM OUT)

45.

Спасибо за внимание!
English     Русский Правила