2.82M

Переход от Прототипа к ЦПД

1.

ПЕРЕХ О Д О Т ПРО Т О Т ИПА К
ЦЕЛЕВО Й Ф АБРИКЕ ДАННЫХ
А С Т АН А
О К Т ЯБ Р Ь 2 0 2 4
Copyright © 2024 Axellect Company All rights reserved

2.

Цель и задачи масштабирования Прототипа целевой фабрики данных
Цели
Задачи
• Поэтапный переход от
• Определить план перехода от
Прототипа Фабрики
данных к целевой
архитектуре данных
НБРК
Прототипа к целевой ФД
• Сформировать ресурсный и рабочий
план НБРК
• Параллельно реализовывать силами НБРК
поэтапно другие источники в Прототипе до начала
реализации целевой Фабрики данных
Copyright © 2024 Axellect Company All rights reserved
2

3.

Обогащение Прототипа данными и переход на целевую ФД
К целевой ФД и развитию ML
моделей
От
Прототипа
1
10.2024-03.2025 Прототип ФД + 2
пилота
Axellect
2
2024-2025 Обогащение данными
НБРК
Команда Axellect реализует
Прототип ФД
в соответствии с кейсами 1-4
Импорт новых источников
данных и обогащение
инфраструктуры
+
+
IBM
Informatica
Параллельные пилоты для
демонстрации
возможностей различных
инструментов одних
и тех же компонентов ФД
Copyright © 2024 Axellect Company All rights reserved
3
2025-2026 Внедрение ЦФД
Поставщик
Загрузка всех источников
данных и установка целевых
компонет Фабрики данных
+
Axellect
НБРК
Консультация
сотрудников НБРК по
освоению
навыков работы с
инструментами и
методологией УД
Загрузка всех источников
данных и установка целевых
компонет Фабрики данных.
Операционная поддержка
решения

4.

Архитектура Прототипа целевой фабрики данных (МАРТ 2024)
ВНУТРЕННИЕ
ПОСТАВЩИКИ
ДАННЫХ
ВНУТРЕННИЕ ИСТОЧНИКИ
Интеграция данных
ДЕЙСТВУЮЩИЕ
Пакетная
загрузка
АИС “ЕССП”
СТРУКТУРНЫЕ
ПОДРАЗДЕЛЕНИЯ НБРК
АИП “ФРСП”
АИП “Платежный баланс”
Горячее хранение данных
FLEX ZONE –
Сырые данные
Потоковая
загрузка
АИП “Ведение
НСИ в НБРК”
ВНЕШНИЕ
ПОСТАВЩИКИ
ДАННЫХ
УЧАСТНИКИ ФИНАНСОВОГО
РЫНКА
АИП “Мониторинг предприятий
реального сектора экономики”
АИП “Экспортно-импортного
валютного контроля РК”
DM
DDS
ODS
Песочница
Холодное хранение данных
Оркестрация
процессов
загрузки
ИС “СУАР”
БИС «Т24»
В СТАДИИ ВЫВОДА
ИЗ ЭКСПЛУАТАЦИИ
ГОСУДАРСТВЕННЫЕ
ОРГАНЫ
Ролевая модель
Регулярная
отчетность,
инфографика
Self-service отчетность
Ad-hoc
Хранение паролей
ML LAB
ETL/ELT
АИП "Индикаторы финансовой
устойчивости"
ДОЧЕРНИЕ ОРГАНИЗАЦИИ
НБРК
Потребление
Обезличивание
Виртуализаци
я
Песочница
Безопасность данных
НСИ/MDM
Управление данными
Бизнес-глоссарий
Каталог данных
Качество данных
Бизнес-глоссарий
Каталог данных
Качество данных
Бизнес-глоссарий
Каталог данных
Качество данных
MDM
АИП "ПУРЦБ"
АИП “Страховой надзор”
АИП “Статистика”
ПРЕДПРИЯТИЯ РЕАЛЬНОГО
СЕКТОРА
ВНЕШНИЕ ИСТОЧНИКИ
Витрины ЕНПФ
ФИЗИЧЕСКИЕ
ЛИЦА
Витрины KASE
Витрины ЦДЦБ
Витрины НПК
Витрины БНС
Оркестрация
контейнеров
1
ИНТЕГРАЦИЯ ИСТОЧНИКОВ
Внутренние источники,
данные которых
доступны для аналитики:
Внешние источники,
данные которых
доступны для аналитики:
2
0
8 действующих
источников
Copyright© 2024 Axellect Company All rights reserved
DataOps / Сопровождение инфраструктуры
Автоматизация
Инфографика и
Мониторинг
развертывания
мониторинг
инфраструктуры
3 в промышленной
интеграции
2 в стадии пилотирования*
2
Сбор логов
и аналитики
ХРАНЕНИЕ И ОБРАБОТКА ДАННЫХ
10 Тб
Объем несжатых
данных в Хранилище
~20 %
прирост данных
за последний год
32 таблицы,
которые необходимо
разложить по слоям,
описать, построить витрины
и подготовить справочники
4

5.

Архитектура Прототипа целевой фабрики данных (ДЕКАБРЬ 2024)
ВНУТРЕННИЕ
ПОСТАВЩИКИ
ДАННЫХ
ВНУТРЕННИЕ ИСТОЧНИКИ
Интеграция данных
ДЕЙСТВУЮЩИЕ
Пакетная
загрузка
АИС “ЕССП”
СТРУКТУРНЫЕ
ПОДРАЗДЕЛЕНИЯ НБРК
АИП “ФРСП”
АИП “Платежный баланс”
Горячее хранение данных
FLEX ZONE –
Сырые данные
Потоковая
загрузка
АИП “Ведение
НСИ в НБРК”
ВНЕШНИЕ
ПОСТАВЩИКИ
ДАННЫХ
УЧАСТНИКИ ФИНАНСОВОГО
РЫНКА
АИП “Мониторинг предприятий
реального сектора экономики”
АИП “Экспортно-импортного
валютного контроля РК”
DM
DDS
ODS
Песочница
Холодное хранение данных
Оркестрация
процессов
загрузки
ИС “СУАР”
БИС «Т24»
В СТАДИИ ВЫВОДА
ИЗ ЭКСПЛУАТАЦИИ
ГОСУДАРСТВЕННЫЕ
ОРГАНЫ
Ролевая модель
Регулярная
отчетность,
инфографика
Self-service отчетность
Ad-hoc
Хранение паролей
ML LAB
ETL/ELT
АИП "Индикаторы финансовой
устойчивости"
ДОЧЕРНИЕ ОРГАНИЗАЦИИ
НБРК
Потребление
Обезличивание
Виртуализаци
я
Песочница
Безопасность данных
НСИ/MDM
Управление данными
Бизнес-глоссарий
Каталог данных
Качество данных
Бизнес-глоссарий
Каталог данных
Качество данных
Бизнес-глоссарий
Каталог данных
Качество данных
MDM
АИП "ПУРЦБ"
АИП “Страховой надзор”
АИП “Статистика”
ПРЕДПРИЯТИЯ РЕАЛЬНОГО
СЕКТОРА
ВНЕШНИЕ ИСТОЧНИКИ
Витрины ЕНПФ
ФИЗИЧЕСКИЕ
ЛИЦА
Витрины KASE
Витрины ЦДЦБ
Витрины НПК
Витрины БНС
Оркестрация
контейнеров
1
ИНТЕГРАЦИЯ ИСТОЧНИКОВ
Внутренние источники,
данные которых
доступны для аналитики:
Внешние источники,
данные которых
доступны для аналитики:
2
0
8 действующих
источников
Copyright © 2024 Axellect Company All rights reserved
DataOps / Сопровождение инфраструктуры
Автоматизация
Инфографика и
Мониторинг
развертывания
мониторинг
инфраструктуры
3 в промышленной
интеграции
2 в стадии пилотирования*
2
Сбор логов
и аналитики
ХРАНЕНИЕ И ОБРАБОТКА ДАННЫХ
20 Тб
Объем несжатых
данных в Хранилище
~20 %
прирост данных
за последний год
64таблицы,
которые необходимо
разложить по слоям,
описать, построить витрины
и подготовить справочники
5

6.

Целевая архитектура Фабрики данных и источники
ВНУТРЕННИЕ
ПОСТАВЩИКИ
ДАННЫХ
СТРУКТУРНЫЕ
ПОДРАЗДЕЛЕНИЯ НБРК
ВНУТРЕННИЕ
ИСТОЧНИКИ
ДЕЙСТВУЮЩИЕ
Интеграция
данных
АИС “ЕССП”
Пакетная
загрузка
АИП “ФРСП”
АИП “Платежный баланс”
ВНЕШНИЕ
ПОСТАВЩИКИ
ДАННЫХ
УЧАСТНИКИ
ФИНАНСОВОГО РЫНКА
АИП “Ведение
НСИ в НБРК”
АИП “Мониторинг
предприятий реального
сектора экономики”
АИП “Экспортно-импортного
валютного контроля РК”
Горячее хранение данных
ODS
DDS
FLEX ZONE –
Сырые данные
Потоковая
загрузка
DM
Песочница
Оркестрация
процессов
загрузки
Холодное хранение
данных
Песочница
Хранение паролей
Управление данными
Бизнес-глоссарий
Каталог данных
Self-service
отчетность
ML LAB
Оркестрация
контейнеров
Автоматизация
развертывания
НСИ/MDM
MDM
Качество данных
АИП "ПУРЦБ"
DataOps / Сопровождение инфраструктуры
АИП “Страховой надзор”
АИП “Статистика”
ПРЕДПРИЯТИЯ
РЕАЛЬНОГО СЕКТОРА
Регулярная отчетность,
инфографика
ETL/ELT
БИС «Т24»
ГОСУДАРСТВЕННЫЕ
ОРГАНЫ
Доступ к данным
Обезличивание
Виртуализац
ия
ИС “СУАР”
В СТАДИИ ВЫВОДА
ИЗ ЭКСПЛУАТАЦИИ
Потребление
Ad-hoc
АИП "Индикаторы финансовой
устойчивости"
ДОЧЕРНИЕ
ОРГАНИЗАЦИИ НБРК
Безопасность данных
ВНЕШНИЕ ИСТОЧНИКИ
Витрины ЕНПФ
ФИЗИЧЕСКИЕ
ЛИЦА
Витрины KASE
Витрины ЦДЦБ
Витрины НПК
Витрины БНС
1
ИНТЕГРАЦИЯ ИСТОЧНИКОВ
Внутренние источники,
данные которых
доступны для
аналитики:
8
8 действующих
источников
Copyright © 2024 Axellect Company All rights reserved
Мониторинг
инфраструктуры
Внешние источники,
данные которых
доступны для
аналитики:
5
3 в промышленной
интеграции
2 в стадии
пилотирования*
Инфографика и
мониторинг
2
Сбор логов
и аналитики
ХРАНЕНИЕ И ОБРАБОТКА ДАННЫХ
40 Тб
Объем несжатых
данных в Хранилище
~20 %
прирост данных
за последний год
953 таблицы, из которых 197 в ЕССП
которые необходимо
разложить по слоям,
описать, построить витрины
и подготовить справочники
6

7.

Объем данных для Прототипа – 32 таблицы
Для кейса Loans
LOANS_REPORT_REFERENCE
• rr.region_
• is_over_year
• subject_type
• purpose
• enterprise_type
• pledge
• residency
• is_npl
• is_homogeneous
• risk_stage
Для кейса 5
DQ_CREDIT_
LOANS_
AVG_RATE
LOANS
• REPORT_DATE -- Отчетная дата
• RESPONDENT -- наименование респондента
• SUBJECT_TYPE -- Тип субъекта
кредитования
• IS_OVER_YEAR -- Признак долгосрочного
займа
• is_foreign_currency
LOANS_REPORT_AVG_RATE
• lrar_avg_rate ,
• lrar_issued_amount ,
• lrar_repay_debt
W_BALANCE_ACCOUNT_D
• Code
LOANS_REPORT_TMP_CRD_REF
• LRCR_CREDITOR_ID
• LRCR_REPORT_DATE
• LRCR_REFERENCE
LOANS_REPORT_TMP_STEP_0
• ACCOUNT_NO
Copyright © 2024 Axellect Company All rights reserved
W_FACT_CREDIT_F
W_CON_SUBJECT_IDS
• PURPOSE -- Цель кредитования
Для кейса 6
• IS_NPL -- Признак неработающего займа
LOANS_
REPORT_
VALUE
W_SUBJECT_TYPE_D
• IS_FOREIGN_CURRENCY -- Валютный
признак
• RISK_STAGE -- Стадия кредитного риска
REF_LOANS_ACCOUNT_NO
W_SUBJECT_ROLE_D
W_AGR_DEBTOR_TYPE_D
• IS_HOMOGENEOUS -- Признак однородности
• lrar_reference ,
W_ECON_TRADE_D
• REGION_ -- Регион
• RESIDENCY -- Признак резидентства
• lrar_report_date,
W_CREDIT_D
• REFERENCE_ -- Референс
• ENTERPRISE_TYPE -- Категория субъекта
предпринимательства
• lrar_creditor_id
W_CREDITOR_D
• LOANS_REPORT_VALUE.LRV_COST_
INDICATOR -- LRV_COST_INDICATOR вид стоимостного показателя, LRV_VALUE
- сумма остатка на конец отчетного
периода
• LOANS_REPORT_VALUE.LRV_ACCOUNT_NO -номер счета
• PLEDGE -- Признак наличия обеспечения
• ISSUED_AMOUNT -- выдано за отчетный
период
• REPAY_DEBT -- погашено за отчетный
период
• AVG_RATE -- средневзвешенная ставка
вознаграждения, %
DQ_FUND_REPORT
V_V_REF_UNIONPERSONS_SIMPLE_HD
DQ_FUND_COMPANY_GROUP
V_PD_FORM_HIS
DQ_FUND_DFSI_RANKING
LNK_REPORT_RESP_HD
V_PD_TABLE_COL
W_REPORT_DATA
V_PD_INDICATOR
LNK_REPORT_XYZ
V_PD_TABLE_ROW_UNV
700-N
REPORT_SIMPLE_VALUE
DQ_700ND
W_REPORT_ID
DQ_700ND_MONTHS_DATE

8.

TO-DO LIST
Шаги для имплементации
После проведения аналитики необходимо дополнительное место для загрузки новых данных
(Ориентир – объем Целевой Фабрики Данных)
1 Увеличить инфраструктурные мощности
2 Сформировать проектную команду
DEVOP’s Инженер
BI – Разработчик X2
DQ/ DG Эксперт
DATA Аналитик X4
DATA Инженер X4
MDM Эксперт X2
ML-Инженер
Согласовать с Бизнесом сущности для загрузки/наиболее используемые витрины данных
3 Определить бизнес цель (список источников для загрузки)
4 Установить дополнительные компоненты инфраструктуры
Произвести установку компонент, отмеченных на слайде 5
5 Проверить наличие и произвести закупку лицензий
Произвести анализ достаточности закупленных лицензий для реализации
6 Сформировать план имплементации
Разработать план реализации проекта
7 Реализовать шаги, выполненные на первом этапе вендором
С запаздыванием на один шаг от проектной команды разработки Прототипа выполнять
работы по созданию Платформы данных
8 Реализация дополнительных шагов, не выполненных на предыдущих
этапах
Copyright © 2024 Axellect Company All rights reserved
Руководитель проекта
Выполнить работы не реализованные в процессе создания Прототипа Фабрики Данных
8

9.

Таймлайн развития Прототипа. Параллельная имплементация
СЕНТЯБРЬ
ОКТЯБРЬ-НОЯБРЬ
ДЕКАБРЬ-ЯНВАРЬ
ФЕВРАЛЬ
МАР
Т
Axellect
Предоставление сайзинга
для Прототипа
• Установка ПО всех компонентов
Прототипа
• Описание логики построение
сущностей в DDS
• Построение расчетных
показателей
Выделение серверов
Построение и описание
логической модели данных
• Тестирование и отладка
загруженных данных
• Визуализация данных
• Описание и добавление
перекодировочных таблиц для
унификации справочников
• Анализ, описание и добавление в
модель справочников
Предоставление доступов
к серверам
Выгрузка данных для
анализа атрибутов
Анализ источников,
таблиц и атрибутов
НБРК
• Описание терминов в БГ и
Построение линеджей в каталоге
данных
• Получение требований к качеству
данных
• Получение доступов к серверам
• Построение и описание
логической модели данных
• Выбор источника и выгрузка
данных для анализа атрибутов
• Тестирование и отладка
• Анализ источника, таблиц и
атрибутов
• Сдача Прототипа
• АВР
• ПСИ
• Разработка правил проверок
качества данных
• Описание и добавление
перекодировочных таблиц для
унификации справочников
• Описание терминов в БГ
• Построение линеджей в
каталоге данных
Copyright© 2024 Axellect Company All rights reserved
• Тестирование
• Устранение замечаний
• Описание логики
построение сущностей в
DDS
• Анализ, описание и
добавление в модель
справочников
• Получение требований к
качеству данных
• Разработка правил
проверок качества данных
• Построение расчетных
показателей
• Визуализация данных

10.

Задачи и роли команды НБРК для обогащения данными
Прототипа
Задача
1
Определение приоритетных
источников для загрузки
2
Разработка логической модели
данных слоя stage
3
Разработка логической модели
данных слоя DDS
4 Построение BI аналитики
5 Нормализация справочников
Copyright© 2024 Axellect Company All rights reserved
Целеполагание
Необходимо совместно с бизнесом определить
приоритетные отчеты, которыми следует обогащать
Прототип
Построение и описание логической модели слоя сырых
данных, описание сущностей, атрибутов, типов данных и
тд. Данный анализ позволит полноценно и качественно
описать целевую модель в Прототипе
Построение и описание логической модели слоя сырых
данных, описание сущностей, атрибутов, типов данных
на слое детальных данных. Мэппинг s2t слоя DDS с
описанием логики построения сущностей DDS
Завершая цепочку анализа данных, следует определить
требования к дашбордам, фильтрам, показателям и
иным параметрам аналитики, после чего произвести
построение расчетных показателей и визуализацию
данных для наглядного видения аналитики в том или ином
разрезе.
Мастер-данные и справочники организации должны быть
также единые и соответствовать требованиям
качества. В зависимости от выбранных данных,
справочники могут вестись централизованно в MDM, либо
иной системе, но в соответствии с выстроенным
процессом управления мастер-данными
Роль
Data Steward
Аналитик
Аналитик
BI аналитик
Менеджер по мастер-данным

11.

Задачи и роли команды НБРК для обогащения данными
Прототипа
Задача
6
Описать все термины в
инструменте Business Glossary
7 Расписать логику расчетов
8
Выстроить потоки данных (data
Lineage)
9
Определить требования к качеству
данных
1 Разработать правила проверки
0 качества данных и метрики
Copyright© 2024 Axellect Company All rights reserved
Целеполагание
Термины должны быть описаны в Бизнес-глоссарии для
ведения единого терминологического аппарата и
однозначного понимания каждого термина ХД. Business
Glossary – это полноценная среда разработки, согласования
и утверждения терминологии, построения взаимосвязей
терминов с другими информационными активами НБРК
Помимо общих характеристик должно быть детальное
описание атрибутного состава отчётов с примерами
значений и методикой расчетов. Подобная детализация
уже сразу дает пользователю ответ, полезен для него
отчёт или нет.
Помимо ведения Бизнес-глоссария, следует еще
разработать физическую модель данных по всем
терминам, тем самым описывая процесс формирования
жизненного цикла данных от систем источников до BIвизуализации через все слои хранилища данных
Data Quality (качество данных) — характеристика,
показывающая степень пригодности данных к
использованию, но данную пригодность и,
соответственно, требования к качеству может
определить бизнес-пользователь
На основе полученных требований и метрик качества
данных, ИТ специалист разрабатывает правила проверки
качества данных в самом инструменте DQ
Роль
Менеджер по метаданным
Менеджер по метаданным
Менеджер по метаданным
Data Steward
Data Инженер

12.

Необходимые лицензии
10.2024-03.2025
Для Прототипа
предоставлены
04.2025-2026
Закуплено
Необходимо
закупить
Open Source
Open Source
Open Source
Open Source
Copyright© 2024 Axellect Company All rights reserved
Не требуется
+ IBM, Informatica – DG, DQ
ДОБАВИТЬ в таблицу
Стоимость лицензирования

13.

Сравнение технологий
Copyright© 2024 Axellect Company All rights reserved
English     Русский Правила