Похожие презентации:
pandas_part1
1.
БиблиотекаPandas.
Часть I
2. План занятия
1. Повторение: задачка на numpy2. Место pandas в наборе инструментов для работы с
данными
3. Теория: основные возможности pandas
4. Практика: анализ датасета оттока пользователей
5. Дополнительно: анализ метрик ml-системы
6. Заключение: дополнительные ресурсы, обратная связь
3. Повторяем numpy:
Пусть нам доступны данные последних 8 игр чемпионата по боулингу.data = [
[1, 1, 5, 4, 1, 4, 2, 7, 7, 7, 1],
одна игра
[2, 2, 4, 5, 5, 7, 4, 3, 8, 8, 8],
[1, 10, 3, 7, 5, 4, 8, 8, 2, 4, 9],
[2, 5, 6, 10, 9, 4, 3, 5, 8, 8, 4],
[3, 4, 9, 4, 8, 1, 8, 5, 8, 5, 5],
[1, 4, 6, 7, 3, 2, 5, 4, 5, 2, 9],
[3, 3, 2, 5, 5, 8, 2, 2, 9, 1, 5],
[2, 10, 9, 2, 4, 8, 8, 7, 3, 5, 1],
]
очки за игру
id игрока
Задача:
● для каждой игры найти сумму очков за
игру – результат за игру
○ 10 очков (страйк) умножают очки
за следующий бросок на x2
● Для каждого игрока вывести среднее
его результатов по играм
4. Вывод
numpy годится для быстрых операций над численными массивами
для продвинутого анализа лучше использовать что-то другое
5. Pandas
Pandas – инструмент высокоуровнего анализа табличных данных в python.● высокоуровневый: надстройка поверх numpy
● анализ: группировка, sql-подобные запросы, чистка и т.д.
● табличные данные: ключевой объект – датафрейм
Сценарии использования:
● Препроцессинг
● Анализ табличных данных: EDA, анализ метрик
● Feature Engineering
6. Теория: pandas cheatsheet
7.
8.
9. Итоги занятия
познакомились с pandas
научились загружать и чистить табличные данные
научились агрегировать данные и находить выбросы
10. Дополнительная практика: анализ метрик
● дано: результаты работы классификатора за несколько месяцев поразным объектам
● задача: построить и проанализировать интегральные метрики, найти
выбросы и точки роста
pandas1_seminar_metrics.ipynb
11. Дополнительные материалы:
100 задач по pandas
RU Datasets
12. Tag Yourself
12
3
4
5