Python для анализа данных
Алгоритмизация
Алгоритм
ГОСТ 19.701-90 «Схемы алгоритмов программ, данных и систем»
ГОСТ 19.701-90
ГОСТ 19.701-90
Линейный (следование)
Развилки
Циклы
Циклы
Пример
Программирование
Язык программирования
Задачи программирования
Рейтинг
Рейтинг
Основные понятия
Структуры данных. Массив
Структуры данных. Массив
Структуры данных. Динамический массив
Другие структуры данных
Python. Списки
Python. Кортежи
Python. Словари
Основные понятия
NumPy
NumPy
NumPy. Операции
pandas
pandas
pandas. Series и DataFrame
matplotlib
matplotlib
Нейронные сети (ML)
Нейронные сети (ML)
2.65M
Категория: ПрограммированиеПрограммирование

Python для анализа данных

1. Python для анализа данных

Кафедра менеджмента качества и инноваций
Макаров Георгий Валентинович

2. Алгоритмизация

3. Алгоритм

это определенным образом организованная
последовательность (порядок) действий, за конечное
число шагов приводящая к решению задачи

4. ГОСТ 19.701-90 «Схемы алгоритмов программ, данных и систем»

5. ГОСТ 19.701-90

ГОСТ 19.70190

6. ГОСТ 19.701-90

ГОСТ 19.70190

7. Линейный (следование)

8. Развилки

Полная развилка
Неполная развилка

9. Циклы

10. Циклы

С предусловием
С постусловием
С параметром

11. Пример

12. Программирование

Программирован
ие

13. Язык программирования

формальный язык, предназначенный для записи компьютерных программ

14. Задачи программирования

15. Рейтинг

16. Рейтинг

17.

18. Основные понятия

1. Имена (идентификаторы) — употребляются для обозначения объектов пpогpаммы (пеpеменных,
массивов, функций и дp.).
2. Опеpации. Типы операций:
аpифметические опеpации + , — , * , / и дp. ;
логические опеpации и , или , не ;
опеpации отношения < , > , <= , >= , = , <> ;
опеpация сцепки (иначе, «присоединения», «конкатенации») символьных значений дpуг с другом с
образованием одной длинной строки; изображается знаком "+".
3. Данные — величины, обpабатываемые пpогpаммой. Имеется тpи основных вида данных: константы,
пеpеменные и массивы.
Константы — это данные, которые зафиксированы в тексте программы и не изменяются в процессе ее
выполнения.
числовые 7.5 , 12 ;
логические да (истина), нет (ложь);
символьные (содержат ровно один символ) «А» , «+» ;
литерные (содержат произвольное количество символов) «a0», «Мир», «» (пустая строка).

19. Структуры данных. Массив

Для простоты восприятия можно считать, что массив — это таблица. Каждый его элемент имеет индекс —
«адрес», по которому этот элемент можно извлечь. В большинстве языков программирования индексы
начинаются с нуля. То есть первый элемент массива имеет индекс не [1], а [0]. Данные в массиве можно
просматривать, сортировать и изменять с помощью специальных операций.
Массивы бывают двух видов:
● Одномерные
У каждого элемента только один индекс. Можно представить это как строку с данными, где одного номера
достаточно, чтобы чётко определить положение каждой переменной.
● Многомерные
У каждого элемента два или больше индексов. По сути, это комбинация из нескольких одномерных
массивов, то есть вложенная структура.

20. Структуры данных. Массив

21. Структуры данных. Динамический массив

В классическом массиве размер задан заранее. А динамический массив — это тот, у которого размер может
изменяться.

22. Другие структуры данных


Связный список (Linked list)
Стек (Stack)
Очередь (Queue)
Множество (Set)
Карта (Map)
Двоичное дерево поиска (Binary search tree)
Префиксное дерево (Trie)
Граф (Graph)

23. Python. Списки

• Списки в Python — это изменяемые последовательности элементов, которые могут содержать элементы
различных типов, создаются с помощью [].
# Создание пустого списка
empty_list = []
# Создание списка с элементами
numbers = [1, 2, 3, 4, 5]
fruits = ["apple", "banana", "cherry"]

24. Python. Кортежи

• Кортежи в Python — это неизменяемые последовательности элементов, которые создаются с помощью
круглых скобок ().
# Создание пустого кортежа
empty_tuple = ()
# Создание кортежа с элементами
numbers_tuple = (1, 2, 3, 4, 5)
fruits_tuple = ("apple", "banana", "cherry")

25. Python. Словари

• Словари в Python — это коллекции, которые хранят пары «ключ-значение», создаются с помощью {}.
# Создание пустого словаря
empty_dict = {}
# Создание словаря с элементами
person = {"name": "Alice", "age": 25, "city": "New York"}

26. Основные понятия

Подключение библиотек с функциями
import math
import statistics
Константа (переменная) a = 2
массив/ список x = [8.0, 1, 2.5, 4, 28.0, 11.3, 12.5, 4, 1, 4]
Переменной mode присваивается результат mode = statistics.mode(x)
выполнения функции statistics.mode(x)
Вывод текста и значения массива x print("Исходный ряд: ", x)
После запуска программы пользователь введет значение b b = input()
Преобразование значения переменной b в тип int b = int(b)
Условие ЕСЛИ if b > a:
ОТСТУП. Всё, что внутри отступа – происходит ЕСЛИ ДА…
print("b is greater than a")
Иначе else:
ОТСТУП. Всё, что внутри отступа – происходит ИНАЧЕ…
print("a is greater than b")

27. NumPy

• NumPy — это открытая бесплатная Python-библиотека для работы с многомерными массивами
• NumPy чаще всего используют в анализе данных и обучении нейронных сетей — в каждой из этих областей
нужно проводить много вычислений с такими матрицами.
• Для NumPy существуют пакеты, расширяющие её функциональность, — например, библиотека SciPy или
Matplotlib.

28. NumPy

• Массивы в NumPy отличаются от обычных списков и кортежей в Python тем, что они должны состоять только
из элементов одного типа.
import numpy as np
a = np.array([1,2,3])
a2 = np.array([[1, 2, 3], [4, 5, 6]]) a3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

29. NumPy. Операции

a = np.array([1, 2, 3, 4])
print(a)
# [1 2 3 4]
print(a + 3)
# [4 5 6 7]

30. pandas

библиотека для обработки и анализа данных и представления их в табличном виде

31. pandas

• Анализ, исследование, сегментация, очистка, преобразование данных.
• Сортировка, группировка и агрегация данных.
• Индексация, фильтрация и выборка многомерных данных.
• Определение эффективности и рисков, прогнозирование событий, оптимизация.
• Работа с временными рядами.
• Формирование отчетов и визуализация данных. (+matplotlib / seaborn)

32. pandas. Series и DataFrame

Series — это объект, который похож на одномерный массив и может содержать любые типы данных.
DataFrame — основной тип данных в Pandas, его можно представить в виде обычной таблицы с любым
количеством столбцов и строк.

33. matplotlib

Визуализация данных

34. matplotlib

35. Нейронные сети (ML)

36. Нейронные сети (ML)

• NumPy
• Pandas
• Scikit-learn
• XGBoost / LightGBM / CatBoost
• PyTorch
• TensorFlow
• NLTK
• OpenCV
English     Русский Правила