Похожие презентации:
биг дата кт5
1.
ETL и ELT процессы2.
ETLETL(Extract, Transform, Load) - Это процесс сбора «сырых» данных из раздельных источников, передачи в
промежуточную базу данных для преобразования и загрузки подготовленных данных в единую целевую
систему.
3.
ETLExtract - подключение к системе-источнику и считывание данных.
• API
• подключение к базе (напрямую или через промежуточную)
• Excel, XML, PDF и иных табличных файлов
Transform - процесс преобразования и трансформации полученных данныхиз источника.
• фильтрация
• изменение типов данных
• обогащения
• дедупликация
Load - процесс загрузки преобразованных данных в целевую систему (система-приемник)
4.
ELTELT(Extract, Load, Transform) - это процесс интеграции данных. В этом подходе сырые данные сначала
извлекаются из различных источников, затем загружаются в целевое хранилище (например, облачное
хранилище данных), и только потом трансформируются и обрабатываются, используя вычислительную
мощность самого хранилища. Это отличается от классической модели ETL, где трансформация происходит до
загрузки.
5.
ETL vs ELT6.
ETL vs ELT7.
Концепция Data PipelineПоследовательность автоматизированных шагов для перемещения и обработки
данных из одного или нескольких источников в целевую систему для дальнейшего
анализа или использования. Типичный поток данных состоит из трех основных
компонентов:
Источник данных: Место, откуда берутся данные. Это могут быть базы данных, API,
файловые системы, устройства IoT и многое другое.
Обработка данных: Этап, на котором извлеченные данные проходят различные
преобразования и манипуляции для подготовки к использованию в целевой
системе. Это может включать очистку данных, обогащение, агрегацию и
форматирование.
Место назначения данных: Обработанные данные загружаются в целевую
систему, которой может быть хранилище данных, озеро данных или аналитическая
платформа.
8.
Данные для кода9.
ELT код10.
ETL код11.
Результаты кода12.
Плюсы и минусы ELT и ETL1. Время – Загрузка
3. Время – Обслуживание
ETL: использует промежуточную область и систему,
ETL: высокий уровень обслуживания – выбор данных для
дополнительное время для загрузки данных
загрузки и преобразования; необходимо сделать все
ELT: все в одной системе, загрузка только один раз
снова, если данные удалены или вы хотите улучшить
основное хранилище данных.
2. Время – Преобразование
ELT: низкие эксплуатационные расходы – все данные
всегда доступны
ETL: нужно подождать, особенно для больших объемов
данных – по мере роста данных время преобразования
4. Сложность реализации
увеличивается
ETL: на ранней стадии требует меньше места, и результат
ELT: все в одной системе, скорость не зависит от
будет чистый
размера данных
ELT: требует глубоких знаний инструментов и экспертного
проектирования основного большого хранилища.
13.
Плюсы и минусы ELT и ETL5. Анализ и стиль обработки
7. Поддержка хранилищ данных
ETL: основан на нескольких сценариях для создания
представлений – удаление представления означает
удаление данных
ETL: преобладающая устаревшая модель, используемая
для локальных и реляционных структурированных
данных.
ELT: создание специальных представлений – низкие
затраты на создание и обслуживание
6. Ограничение данных или ограничение на поставку
ELT: адаптировано для использования в масштабируемой
облачной инфраструктуре для поддержки
структурированных и неструктурированных источников
больших данных.
ETL: предполагая и выбирая данные априори
8. Поддержка озера данных
ELT: По HW (нет) и политике хранения данных
ETL: не является частью подхода
ELT: позволяет использовать озеро с поддержкой
неструктурированных данных
14.
Плюсы и минусы ELT и ETL9. Удобство использования
10. Рентабельность
ETL: фиксированные таблицы, фиксированная
ETL: нерентабельно для малого и среднего бизнеса
временная шкала, используется в основном ИТ
ELT: масштабируемость и доступность для бизнеса любого
ELT: ситуативность, гибкость, доступность для всех, от
размера с использованием онлайн-решений SaaS
разработчика до гражданского интегратора
Базы данных