Платформы для анализа больших данных
Что такое Apache Hadoop?
Основные компоненты Hadoop
Как работает Hadoop
Преимущества Hadoop
Что такое Apache Spark?
Компоненты spark
Преимущество spark
682.81K

ггг

1. Платформы для анализа больших данных

ПЛАТФОРМЫ
ДЛЯ АНАЛИЗА
БОЛЬШИХ
ДАННЫХ
A PA C H E
S PA R K
H A D O O P
И
A PA C H E

2. Что такое Apache Hadoop?

Ч ТО ТА К О Е
A PA C H E H A D O O P ?
Apache Hadoop — это платформа для хранения и работы с
большими объемами данных. Ее преимущество заключается в
распределении вычислений между множеством узлов. Hadoop
разбивает большую задачу на много маленьких и решает их
одновременно на разных компьютерах.
Основная идея:
• Разделить данные на части
• Распределить по кластеру серверов
• Обрабатывать параллельно

3. Основные компоненты Hadoop

Hadoop Distributed File System (HDFS) — файловая
система для хранения больших данных с потоковым
доступом. HDFS оптимизирована под работу с файлами до
десятков терабайт, а кластеры могут хранить петабайты
информации.
ОСНОВНЫЕ
КОМПОНЕНТ
Ы HADOOP
MapReduce — модель для обработки записей из HDFS.
MapReduce разбивает задачу на две фазы. На этапе «Map»
данные обрабатываются параллельно на разных узлах
кластера, а на этапе «Reduce» результаты объединяются.
Yet Another Resource Negotiator (YARN) — система
управления ресурсами кластера и планирования задач.
YARN расширяет возможности Hadoop и поддерживает
другие модели обработки помимо MapReduce — Spark, Flink.
Hadoop Common — это набор библиотек и утилит для
работы с различными компонентами Hadoop: настройки,
управления и обеспечения безопасности.

4. Как работает Hadoop

ЭТАП
ЧТО ДЕЛАЕТ
РЕЗУЛЬТАТ
MAP
- Делит данные на части
- Распределяет по узлам
- Параллельная обработка
Промежуточные
данные <ключ,
значение>
REDUCE
- Группирует по ключам
- Агрегирует результаты
- Формирует итог
Конечный ответ
К А К РА Б О ТА Е Т H A D O O P

5. Преимущества Hadoop

П Р Е И М У Щ Е СТ ВА H A D O O P
Масштабируемость. Систему Hadoop можно расширять до тысяч узлов. Компании
наращивают вычислительные мощности по мере роста объемов данных.
Экономия. Дешевые сервера на базе Hadoop объединяются в мощный
вычислительный кластер. Компании используют Hadoop, чтобы не инвестировать в
дорогостоящее оборудование.
Отказоустойчивость. Благодаря распределенной архитектуре и автоматической
репликации Hadoop работает даже при отказе отдельных узлов кластера.
Гибкость. Hadoop применяется в проектах со структурированными и
неструктурированными данными.

6. Что такое Apache Spark?

Ч Т О ТА К О Е
A PA C H E
S PA R K ?
• Apache Spark — это система распределенных
вычислений. Она используется для преодоления
ограничений Hadoop MapReduce и
интегрируется поверх HDFS.

7. Компоненты spark

Spark Core — движок для распределенной обработки больших данных. Включает в
себя API для работы с Resilient Distributed Datasets (RDD) — основной абстракцией
данных в Spark.
Spark SQL — модуль для работы со структурированными данными, поддерживающий
SQL-запросы.
Spark Streaming — компонент для обработки потоковых данных в реальном времени.
MLlib — библиотека машинного обучения с алгоритмами для классификации,
регрессии, кластеризации и фильтрации данных.
GraphX — движок для визуализации данных на графиках.
К О М П О Н Е Н Т Ы S PA R K

8. Преимущество spark

Скорость. Spark быстрее Hadoop.
Производительность заметна при
интерактивной обработке информации и
задачах с низкой задержкой.
Отказоустойчивость. Как и Hadoop, Spark
устойчив к сбоям за счет распределенного
хранения и обработки информации.
Универсальность. Spark подходит для
разных видов обработки информации:
пакетной, потоковой, SQL-запросов,
машинного обучения и графовых
алгоритмов.
Интерактивность. Благодаря
производительности, с помощью Спарка
можно анализировать информацию в
реальном времени.
ПРЕИМУЩЕСТВ
О S PA R K
English     Русский Правила