План занятия
Повторяем numpy:
Вывод
Pandas
Теория: pandas cheatsheet
Итоги занятия
Дополнительная практика: анализ метрик
Дополнительные материалы:
Tag Yourself
3.81M

pandas_part1

1.

Библиотека
Pandas.
Часть I

2. План занятия

1. Повторение: задачка на numpy
2. Место pandas в наборе инструментов для работы с
данными
3. Теория: основные возможности pandas
4. Практика: анализ датасета оттока пользователей
5. Дополнительно: анализ метрик ml-системы
6. Заключение: дополнительные ресурсы, обратная связь

3. Повторяем numpy:

Пусть нам доступны данные последних 8 игр чемпионата по боулингу.
data = [
[1, 1, 5, 4, 1, 4, 2, 7, 7, 7, 1],
одна игра
[2, 2, 4, 5, 5, 7, 4, 3, 8, 8, 8],
[1, 10, 3, 7, 5, 4, 8, 8, 2, 4, 9],
[2, 5, 6, 10, 9, 4, 3, 5, 8, 8, 4],
[3, 4, 9, 4, 8, 1, 8, 5, 8, 5, 5],
[1, 4, 6, 7, 3, 2, 5, 4, 5, 2, 9],
[3, 3, 2, 5, 5, 8, 2, 2, 9, 1, 5],
[2, 10, 9, 2, 4, 8, 8, 7, 3, 5, 1],
]
очки за игру
id игрока
Задача:
● для каждой игры найти сумму очков за
игру – результат за игру
○ 10 очков (страйк) умножают очки
за следующий бросок на x2
● Для каждого игрока вывести среднее
его результатов по играм

4. Вывод


numpy годится для быстрых операций над численными массивами
для продвинутого анализа лучше использовать что-то другое

5. Pandas

Pandas – инструмент высокоуровнего анализа табличных данных в python.
● высокоуровневый: надстройка поверх numpy
● анализ: группировка, sql-подобные запросы, чистка и т.д.
● табличные данные: ключевой объект – датафрейм
Сценарии использования:
● Препроцессинг
● Анализ табличных данных: EDA, анализ метрик
● Feature Engineering

6. Теория: pandas cheatsheet

7.

8.

9. Итоги занятия


познакомились с pandas
научились загружать и чистить табличные данные
научились агрегировать данные и находить выбросы

10. Дополнительная практика: анализ метрик

● дано: результаты работы классификатора за несколько месяцев по
разным объектам
● задача: построить и проанализировать интегральные метрики, найти
выбросы и точки роста
pandas1_seminar_metrics.ipynb

11. Дополнительные материалы:


100 задач по pandas
RU Datasets

12. Tag Yourself

1
2
3
4
5
English     Русский Правила