17.47M

Help

1.

Мир бол ь ших данны х : как
инф ормация становится
решением
Ежесекундно генерируются колоссальные объемы информации из
соцсетей, онлайн-транзакций и IoT-устройств, формируя «Большие
Данные».
Традиционные методы анализа бессильны перед таким
масштабом. Как извлечь ценность из этого «цифрового океана»?

2.

Где рождаются Большие Данные? Области
применения
Цифровые следы
Техногенные данные
Социальная
информация
Специализированны
е базы
история покупок (CRM,
Показания датчиков (IoT,
Опросы, профили в
Медицинские карты,
онлайн-кассы).
промышленное
соцсетях.
научные исследования.
Поведение на сайтах,
оборудование).

3.

Почему это важно? Ценность для бизнеса и
науки
Скрытые
закономерности
Data-driven решения
Обнаружение неочевидных
обоснованным действиям.
Переход от интуиции к точным,
связей и трендов в данных.
Реакция в реальном
времени
Мгновенная аналитика для
оперативного управления.
Конкурентное
преимущество
Фундамент для
инноваций
Персонализация, оптимизация
Основа для развития ИИ,
и прогнозирование.
машинного обучения и
автоматизации.

4.

4V: Основны е х арактеристики Big Data
Объ ем (Volume)
Масштабы от терабайтов до
экзабайтов, постоянный рост.
Достоверность / Ценнос ть
(Veracity/Value)
Скорость (Velocity)
Высокая скорость генерации и
потребность в быстрой обработке.
Разнообразие (Variety)
Структурированные,
Важность качества данных и
извлекаемых инсайтов.
полуструктурированные и
неструктурированные данные.

5.

Как собрать и сохранить? Архитектура хранения Big Data
Архитектура Big Data включает горизонтальную масштабируемость, параллельную обработку и распределенные файловые системы для надежного хранения.
Источники данных
Логи, сенсоры, приложения
Ingestion (Kafka, Flume)
Сбор и хранение
данных
Аналитика
Запросы, машинное обучение
Потоковая загрузка данных
Обработка
Распределённое хранилище
Параллельная обработка батч/стрим
HDFS и облачное хранилище

6.

Тех нологии обработки: MapReduce
и Workflow
Модел ь MapReduce
Map
Разделение задачи на подзадачи
Workflow (Оркестрация
процессов)
Граф овое представление
и параллельная обработка
Представление процесса в виде
(например, Apache Hadoop).
графа с задачами и
зависимостями.
Reduce
Агрегация и суммирование
результатов.
Автоматизация
Автоматизация сложных,
многокомпонентных конвейеров
обработки данных (например,
Apache Airflow).

7.

Методы анализа: от Data Mining к ИИ
Data Mining
Кластеризация, классификация, регрессия, поиск аномалий.
Машинное обучение
Алгоритмы для прогнозирования и принятия решений.
Нейронные сети и глубинное обучение
Распознавание образов, NLP, компьютерное зрение.
Краудсорсинг
Использование человеческого интеллекта для разметки данных.

8.

Кто работает с Big Data? Рол и и решения
Потребител и инс айтов
Создател и решений
Руководители
Data Engineer: инфраструктура, конвейеры данных.
Маркетологи
Data Scientist/Analyst: анализ, моделирование, визуализация.
Врачи
DevOps/Infra Engineer: обеспечение работы кластеров.
Инженеры
Облачные сервисы (Google Cloud Platform, AWS, Azure, VK Cloud Solutions) ускоряют внедрение.

9.

В ы воды : Б ол ь шие данны е как стратегический
актив
Комплексны й подход
Обоснованность решений
Сбор, хранение, обработка и
Ключевой навы к
Умение работать с большими
анализ превращают информацию
Анализ данных обеспечивает
данными — залог успеха в
в ценное знание.
оперативность и конкурентные
цифровую эпоху.
преимущества.
English     Русский Правила