Содержание
Содержание
Критика Big Data
Критика Big Data
Критика Big Data
Критика Big Data
Хранение Big Data
Как хранить большие данные. Базовые подходы
Как хранить большие данные. Базовые подходы
Как хранить большие данные. Базовые подходы
Хранение Big Data не всегда приводит к получению выгоды
Скорость обновления данных и «актуальный» временной интервал
Тенденции и перспективы на рынке Big Data
Big Data как способ сэкономить
Big Data как способ сэкономить
Видеоаналитика и распознавание лиц
Искусственный интеллект и Deep Learning
Облачные хранилища
Blockchain
Использование Dark Data
Программное обеспечение Statistica
Тенденции и перспективы на рынке Big Data
Результаты внедрения технологий больших данных
Результаты внедрения технологий больших данных
Перспективы роста, госсектор
Участники рынка big data
Участники рынка big data
Участники рынка big data
Участники рынка big data
Участники рынка big data
LAMP
LEMP
MEAN
XAMPP
WAMP
AMPPS
Рекомендательная система Spotify
Основные стратегии создания рекомендательных систем
Примеры рекомендаций Spotify
Архитектура и основные возможности Big Data системы сервиса Spotify
Роль Apache Cassandra в рекомендательной системе стримингового сервиса
WEB Сервер- APACHE
Что такое веб-сервер?
Apache или NGINX
Apache или Tomcat
Apache – преимущества
Apache – недостатки

Введение в специальность BIG DATA

1.

Введение в специальность
BIG DATA
Корчагин Сергей Алексеевич, кандидат физико-математических наук,
доцент Департамента анализа данных и машинного обучения
[email protected]
Москва, 2020

2. Содержание

Тема 7. Проблемы Big Data.
7.1. Критика Big Data. Недостатки Big Data, о которых нельзя
забывать
7.2. Хранение Big Data.
7.3. Скорость обновления данных и «актуальный»
временной интервал.
Тема 8. Перспективы и тенденции развития Big data.
8.1. Тенденции и перспективы на рынке Big Data
8.2. Искусственный интеллект и Deep Learning.
8.3. Облачные хранилища.
8.4. Blockchain.
8.5. Использование Dark Data.
8.6. Программное обеспечение Statistica
2

3. Содержание

Тема 9. Рынок технологий больших данных в России и
мире.
9.1. Результаты внедрения технологий больших данных.
9.2. Перспективы роста, госсектор
9.3. Участники рынка big data
Тема 10. Введение в LAMP, LEMP, MEAN, XAMPP, WAMP
и стек AMPPS.
10.1. Стеки LAMP, LEMP, MEAN, XAMPP, WAMP и AMPPS
10.2. Оболочки для разработки сайтов на «домашней»
(локальной) Windows или Linux - машине без выхода в
Интернет.
10.3. «Денвер»
10.4. Как Apache Cassandra, Kafka, Storm и Hadoop
формируют рекомендации пользователям Spotify
Тема 11. WEB Сервер- APACHE
3

4.

Проблемы Big Data

5. Критика Big Data

Недостатки Big Data, о которых нельзя
забывать
вопрос сохранения
собственной конфиденциальности
люди считают, что анализ больших данных —
это наука
Не зная математику, использованную в
алгоритме, невозможно оспорить
справедливость сделанных расчетов
В большинстве случаев технологии анализа
больших данных — это коммерческая тайна
5

6. Критика Big Data

«Никто в министерстве образования
Нью-Йорка не понимает, как
работает эта модель. Учителя не
знают, на каком основании им
ставят те или иные оценки и что
нужно сделать, чтобы их
повысить, — им никто ничего не
может и не хочет объяснить»
6

7. Критика Big Data

Недостатки Big Data, о которых нельзя
забывать
механизм работы алгоритма непрозрачен:
неясно то, какие именно данные
обрабатываются, а какие — нет
выводы программы также не являются
полностью прозрачными и могут быть
неверно интерпретированы
никто не станет вас спрашивать, согласны ли
вы стать частью какого-нибудь исследования
самосбывающиеся пророчества
7

8. Критика Big Data

«Полицейский отправляется патрулировать, и
алгоритм ему подсказывает, что в этом районе он с
вероятностью 70% встретит взломщика. Найдет ли
он взломщика только потому, что ему сказали: «Ты
найдешь взломщика»?»
8

9. Хранение Big Data

Типичные проблемы, связанные с «Big data»:
Объём. Как мы только что заметили, данных очень много
и их объём постоянно растет. Это требует принципиально
новых устройств и алгоритмов для хранения информации.
Скорость. Сами по себе данные почти бесполезны, если
их не обрабатывать, причем обрабатывать быстро.
Кстати, скорость – понятие весьма относительное, и то,
что для одних данных – очень быстро, для других будет
непозволительно медленно.
Неоднородность. Данные могут быть самыми разными:
по важности, скорости обновления, дополнения и т. п. Всё
это требует разных форматов хранения.
Безопасность. Данные не должны теряться;
несанкционированный доступ к ним также нежелателен.
9

10. Как хранить большие данные. Базовые подходы

Существует три способа хранения цифровых
данных:
Традиционный: «где-то у себя» – на дисках,
лентах, локальных хранилищах и т. д.;
В публичных «облаках»: от таких гигантов, как
Amazon, Microsoft и Google или от компаний
поменьше;
В частных «облаках»: вариант, более
характерный для корпоративного сегмента;
хранилище входит в инфраструктуру компании и
доступно только её сотрудникам.
10

11. Как хранить большие данные. Базовые подходы

Хранение «у себя»
Плюсы
Это привычно
Скорость доступа
Цена
Минусы
Ненадёжность
Доступ к данным
Масштабирование
11

12. Как хранить большие данные. Базовые подходы

Публичные облака
Плюсы
Это удобно
Относительно безопасно
Довольно дёшево
Относительно надёжно
Новые горизонты в будущем
Минусы
Психологический фактор
Цена
Скорость доступа
12

13. Хранение Big Data не всегда приводит к получению выгоды

“Как должны в идеале выглядеть результаты?”
“Как я могу измерить успех? “
“Какая информация более информативна и
полезна для достижения идеального результата?”
13

14. Скорость обновления данных и «актуальный» временной интервал

Cледует начинать с четкого определения
необходимых параметров и стратегии того, как
добиться успехов в той или иной области.
После этого уже будет очевиден необходимый
временной интервал обновления данных, а,
следовательно, и требования к оптимальному плану
сбора данных, их хранению и анализу.
14

15.

Перспективы и тенденции
развития Big DATA

16. Тенденции и перспективы на рынке Big Data

Концепция Big Data, которая в
последние годы входила в
«горячий» топ технологий
анализа, постепенно выходит
из моды. ИТ-специалисты
уже не ждут революционных
изменений в этой области
Теряет ли Big Data
актуальность?
Конечно же, нет
Роман Баранов — руководитель
направления бизнесаналитики и хранилищ данных компании
«Крок»
16

17. Big Data как способ сэкономить

«Применение классических
технологий оказалось
достаточно дорогим, так как
тогда пришлось бы держать
внутри одного процесса
огромные массивы
информации, собранные со
всех филиалов по всей
стране. А Big Data позволила
значительно удешевить
решение и выполнить проект
за несколько месяцев»
Роман Баранов — руководитель
направления бизнесаналитики и хранилищ данных компании
«Крок»
17

18. Big Data как способ сэкономить

Wi-Fi-аналитика позволяет,
задействовав сигналы с
мобильных устройств
посетителей, составить
репрезентативный
аналитический срез
18

19. Видеоаналитика и распознавание лиц

Видеоаналитика и распознавание лиц
19

20. Искусственный интеллект и Deep Learning

Deep Learning – один из подходов к машинному
обучению, который позволяет предугадывать
результаты по входным данным
20

21. Облачные хранилища

Облачное хранилище данных – модель хранилища,
где данные хранятся на многочисленных серверах,
которые распределены в сети и предоставляются в
пользование клиентам
21

22. Blockchain

Блокчейн технология – это непрерывная
последовательность блоков, которые содержат
информацию и выстроены по определённым правилам.
22

23. Использование Dark Data

Dark Data – это вся неоцифрованная информация, не
играющая ключевой роли при ее использовании, но
которая может послужить причиной для перехода на
новый формат хранения сведений
23

24. Программное обеспечение Statistica

Statistica – это программный продукт для
статистической обработки данных, разработанный
компанией StatSoft
24

25. Тенденции и перспективы на рынке Big Data

Причины неудач проектов больших
данных:
дефицит специалистов
отсутствие постановок задач анализа и
критериев эффективности их решения
неосведомленность бизнес–аналитиков о
потенциале технологий больших данных,
методов и средств их анализа
не правильное проектирование
хранилища данных
25

26.

Рынок технологий больших
данных в России и мире

27. Результаты внедрения технологий больших данных

27

28. Результаты внедрения технологий больших данных

28

29. Перспективы роста, госсектор

29

30. Участники рынка big data

Поставщики инфраструктуры, которые решают
задачи хранения и предобработки данных
30

31. Участники рынка big data

Датамайнеры — разработчики алгоритмов,
которые помогают клиентам извлекать ценность из
больших данных
31

32. Участники рынка big data

Системные интеграторы, которые разворачивают
системы анализа больших данных на стороне
клиента
32

33. Участники рынка big data

Потребители, которые покупают программноаппаратные комплексы и заказывают алгоритмы у
консультантов (телеком, банки, ритейл и др.)
Разработчики готовых сервисов на базе больших
данных (в основном цифровой маркетинг), которые
открывают возможности big data для широкого
круга пользователей, в том числе для малого и
среднего бизнеса.
33

34. Участники рынка big data

Экспертные классификации игроков рынка
технологий для больших данных
34

35.

Введение в LAMP, LEMP, MEAN,
XAMPP, WAMP и стек AMPPS.

36. LAMP

LAMP - это сокращение для Linux, Apache,
MySQL и PHP.
36

37. LEMP

В стеке LEMP, L обозначает Linux, E обозначает Nginx
(engine-x), M обозначает MariaDB или MySQL, а P
обозначает PHP, также это может быть Perl или Python.
37

38. MEAN

Под стеком MEAN понимается стек MongoDB,
Express, Angular, и Node.js
38

39. XAMPP

В стеке XAMPP X обозначает
кроссплатформенный, A - Apache, M - MariaDB и
P - PHP или Perl.
39

40. WAMP

WAMP - это Windows, Apache, MySQL и PHP.
40

41. AMPPS

AMPPS - это комбинация стека LAMP (Linux), WAMP
(Windows) и MAMP (Macintosh) от Softaculous, состоящая
из Apache, MySQL, MongoDB, PHP (также Perl и Python).
41

42.

Как Apache Cassandra, Kafka,
Storm и Hadoop формируют
рекомендации пользователям
Spotify

43. Рекомендательная система Spotify

Рекомендательная система Spotify
43

44. Основные стратегии создания рекомендательных систем

44

45. Примеры рекомендаций Spotify

45

46. Архитектура и основные возможности Big Data системы сервиса Spotify

Архитектура и основные возможности Big Data системы
сервиса Spotify
46

47. Роль Apache Cassandra в рекомендательной системе стримингового сервиса

Роль Apache Cassandra в рекомендательной системе
стримингового сервиса
Рекомендательная Big Data система Spotify на
базе Cassandra, Kafka, Storm и Hadoop
47

48.

WEB Сервер- APACHE

49. WEB Сервер- APACHE

Apache – это программное обеспечение с
открытым исходным кодом, вебсервер, который обеспечивает работу около
46% сайтов по всему миру
49

50. Что такое веб-сервер?

50

51. Apache или NGINX

Nginx произносится как Engine-X, это более новое
веб-серверное программное обеспечение с
первым релизом в 2004 году. Nginx был создан для
решения так называемой проблемы c10k –
проблемы 10 тысяч соединений
51

52. Apache или Tomcat

Tomcat – это веб-сервер также разработанных
Apache Software Foundation, поэтому его
официальное название Apache Tomcat. Это тоже
HTTP-сервер, однако он обрабатывает приложения
Java вместо статических сайтов.
52

53. Apache – преимущества

Преимущества:
Бесплатный даже для использования в коммерческих
целях.
Надёжный, стабильное программное обеспечение.
Часто обновляемый, регулярные патчи безопасности.
Гибкий благодаря своей модульной структуре.
Легко настраиваемый, дружелюбный для
начинающих.
Кроссплатформенный (работает одинаково хорошо на
Unix и на Windows серверах).
Работает для сайтов на WordPress сразу после
установки без дополнительных настроек.
Большое сообщество и легко доступная поддержка в
случае любой проблемы.
53

54. Apache – недостатки

Недостатки:
Проблемы производительности на сайтах с большим
трафиком.
Слишком много параметров конфигруации могут
привести к уязвимостям в безопасности.
54
English     Русский Правила