Автоматизация процессов работы с хранилищами данных на платформе Micro Focus Vertica

1.

Автоматизация процессов работы с
хранилищами данных на платформе
Micro Focus Vertica
Продукты компании EasyData
Алексей Константинов

2.

О компании EasyData
С 2013 г. реализует проекты на BigData
Многолетний подтвержденный золотой статус Micro Focus
Gold Big Data Specialist
Разработчик крупных проектов в области хранилищ данных
на платформе Micro Focus Vertica и Cloudera Hadoop
Сертифицированный тренер и аудитор решений ХД на
платформе Micro Focus Vertica
Статус глобального технологического партнёра Vertica в
категории «Developer/Modelling/IDE»
Разработчик open source, freeware и коммерческого ПО
автоматизации ETL/ELT/Cron процессов

3.

Техническая поддержка Vertica

4.

Автоматизация ХД Vertica
Yota [250 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Humans [10 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Трансфин М [1 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Ситилинк [15 тб]
•Оптимизация работы Vertica
•Синхронизация стендов разработки и
промышленной эксплуатации

5.

Экосистема продуктов EasyData
EasyScheduler
&
EasyWebServices
Управление
задачами по
расписанию,
работа веб
сервисов
Управление
источниками
данных
EasyPortal
Создание
моделей
обработки
данных
Выпуск версий в
промышленную
эксплуатацию
Groovy ETL
language
(GETL)
EasyWebServer
Portal
&
EasyWorkspace
client
Разработка
шаблонов,
автоматизация
тестирования
процессов
Разработка
процессов
движения
данных
EasyLoader
ETL/ELT
&
Patterns libraries

6.

Работа с EasyPortal
Подключение
источников
Импорт описания
структур источников
Экспорт структур в
таблицы ХД
Разработка моделей
маппинга и
трансформации данных
источников в ХД
Разработка SQL
скриптов очистки,
консолидации и
расчетов данных в ХД
Разработка задач
захвата, репликации и
обработки данных
Тестирование задач на
стенде разработки
Установка расписания
на выполнение задачи
в промышленном
контуре
Мониторинг работы
задач ХД

7.

Инициализация данных из
источников в таблицы ХД
Импорт структур
источников в
репозиторий
Установка расписания
на выполнение задачи
в промышленном
контуре
Экспорт структур
источников в таблицы
ХД оперативного слоя
Разработка моделей
маппинга первичных
данных источников и
таблиц ХД
Тестирование задачи в
контуре разработки
Создание задачи
первичной
инициализации
данных таблиц
оперативного слоя

8.

Инициализация данных
Поддержка
выгрузки хинтом
partition
Не требуется
заново выгружать
с источника в
случае ошибки
загрузки в ХД
Выгрузка параллельными
потоками всех записей или
партиций таблиц в CSV файлы
Пакетная загрузка CSV файлов
в таблицы ХД
Раздельные
транзакции
выгрузки и загрузки
на источнике и
приёмнике
Выполнение дополнительных
SQL скриптов инициализации
после загрузки данных
Дополнительная
логика
инициализации на
языке ХП

9.

Репликация данных
источников в таблицы ХД
Настройка адаптера
OGG Flat Files для
генерации файлов с
логами репликации
Разработка моделей
правил репликации
таблиц источника с
таблицами ХД
Создание задачи
захвата Flat файлов и
репликации логов
изменений в таблицы
ХД
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи в
контуре разработки

10.

Репликация из источников
Не более 9000
полей в таблице
Загрузка файлов логов
репликации в буферные таблицы
Vertica
Можно
перегрузить заново
с нужной scn файлы
Для таблиц без PK
поддерживаются
только операции
вставок записей
Обработка записей буферных
таблиц с помощью подключенной
JDK библиотеки EasyVertica
Горизонтальное
масштабирование:
выполнение на
всех нодах кластера
Применение изменений на
таблицы Vertica оперативного
слоя
Оптимизация
выполнения INSERT,
UPDATE, DELETE
операторов
Запись выявленных ошибок логов
репликации в таблицы ошибок
репликации
Возможность анализа
ошибок
логов репликации

11.

Инкрементальный захват
данных с источников
Разработка моделей
маппинга
инкрементального
захвата
Создание задачи
инкрементального
захвата и доставки
данных с источника в
таблицы ХД
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи
на контуре разработки

12.

Инкрементальная загрузка
Точка захвата может
быть числовым или
дата-время полем
Захват новых записей по точке
захвата
Выгрузка записей в CSV файлы
Можно
перегрузить заново
с нужной точки файлов
Раздельные
транзакции
выгрузки и загрузки на
источнике и
приёмнике
Пакетная загрузка CSV файлов в
таблицы ХД
Выполнение дополнительных SQL
скриптов после доставки данных
Дополнительная
логика после загрузки
на языке ХП

13.

Расчеты витрин
Разработка SQL
скриптов в
репозитории на языке
ХП
Создание задачи
выполнения скриптов
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи
на контуре разработки

14.

Преимущества EasyPortal
Кроссплатформенная среда разработки для Windows, Linux и Mac OS
Централизованный репозиторий структур данных, моделей и процессов
Low-code подход с шаблонизацией решений
Онлайн и оффлайн командная работа с помощью Git
Интеграция с Java приложениями
Центр управления работы задач по расписанию на серверах
ETL язык работы с источниками данных на базе Java и Groovy

15.

Преимущества EasyScheduler
Управление и мониторинг
работы runtime серверов
Deploy пакетов файлов на
runtime сервера
WebCenter
Запуск задач по расписанию и
правилам на runtime серверах
Мониторинг работы задач,
хранение истории выполнения
и логов работы задач,
рассылка уведомлений

16.

Спасибо
за
внимание!
Алексей Константинов
+7 499 390 88 92
easydata.ru
[email protected]
English     Русский Правила