705.32K
Категория: ИнформатикаИнформатика

Обсуждение: Как извлечь из датасета скрытые данные? Модуль 3. Урок 3. Очистка данных. Feature engineering

1.

Модуль 3. Урок 3. Очистка данных. Feature engineering
Обсуждение:
Как извлечь из датасета
скрытые данные?

2.

Обсуждение
Рассмотрим DataFrame с данными для
продажи квартир конкретного дома.

3.

Этаж
Год
постройки
Длина в
метрах
Ширина в
метрах
Стоимость в
долларах
1
2010
13.2
3.1
26920
1
2008
10.6
4.9
37688
2
2015
18.3
2.2
25400
...
...
...
...
Обсуждение
DataFrame «Недвижимость»

4.

Можно ли это сделать с помощью
имеющихся данных?
Обсуждение
Необходимо исследовать DataFrame и
выявить факторы, которые влияют на
цену недвижимости.

5.

Что можно сделать с DataFrame, чтобы
работать с ним стало удобнее?
Обсуждение
Мы привыкли соотносить стоимость с
площадью недвижимости, а не с её
длиной и шириной.

6.

Добавим в DataFrame столбец
«Площадь в кв. м»
Этаж
Год
постройки
Длина в
метрах
Ширина в
метрах
Площадь в
кв. м
Стоимость в
долларах
1
2010
13.2
3.1
40.92
26920
1
2008
10.6
4.9
51.94
37688
2
2015
18.3
2.2
40.26
25400
...
...
...
...
...
Обсуждение
Этот столбец будет вычисляться на основании данных двух
других столбцов.

7.

Обсуждение
Такой подход называется генерацией
новых признаков или Feature
engineering.

8.

Модуль 3. Урок 3. Очистка данных. Feature engineering
Новая тема:
Feature engineering

9.

Как это сделать?
Feature engineering
Вычислим, сколько долларов
разработчики заработали на каждом
платном приложении.

10.

Создадим столбец Profit
df['Profit'] = df['Installs'] * df['Price']
Имя нового
столбца
Арифметическое действие
со столбцами
Feature engineering
Перемножим количество установок ('Installs') и цену
за одно приложение ('Price').

11.

App
Category
Rating
Reviews
Size
Installs
Type
Price
Content
Rating
Genres
Last
Updated
Current
Ver
Android
Ver
0
Photo
Editor &
Candy
Camera
& Grid &
ScrapBo
ok
ART_AND_
DESIGN
4.1
159
119M
10,000+
Free
0
Everyone
Art &
Design
January 7,
2018
1.0.0
4.0.3 and
up
1
Coloring
book
moana
ART_AND_
DESIGN
3.9
967
14M
500,000+
Free
0
Everyone
Art &
Design;
Pretend
Play
January
15, 2018
2.0.0
4.0.3 and
up
Feature engineering
Количество жанров для всех приложений
одинаковое?

12.

App
Category
Rating
Reviews
Size
Installs
Type
Price
Content
Rating
Genres
Last
Updated
Current
Ver
Android
Ver
0
Photo
Editor &
Candy
Camera
& Grid &
ScrapBo
ok
ART_AND_
DESIGN
4.1
159
119M
10,000+
Free
0
Everyone
Art &
Design
January 7,
2018
1.0.0
4.0.3 and
up
1
Coloring
book
moana
ART_AND_
DESIGN
3.9
967
14M
500,000+
Free
0
Everyone
Art &
Design;
Pretend
Play
January
15, 2018
2.0.0
4.0.3 and
up
Если жанров
несколько, то они
разделены ';'
Feature engineering
Количество жанров

13.

И какую гипотезу можно проверить на
основании новой категории?
Feature engineering
Какую новую категорию можно создать
на основании столбца с жанрами?

14.

Гипотеза: чем больше количество
жанров, тем популярнее приложение
(больше рейтинг и количество установок).
Feature engineering
Новая категория: количество жанров.

15.

Как посчитать количество жанров?
Значение — это
object (текст)
Feature engineering
Art & Design;Pretend Play

16.

Какую структуру мы будем
использовать?
Feature engineering
Необходимо сохранить все жанры
одного приложения в какую-то
структуру, а потом посчитать её длину.

17.

Список — это структура данных, которая
содержит упорядоченный набор
элементов.
Feature engineering
Количество жанров

18.

Feature engineering
При помощи какого метода можно
преобразовать строку в список?

19.

Метод split()
s = 'Art & Design;Pretend Play'
s = s.split()
Результат: ['Art', '&', 'Design;Pretend', 'Play']
Какой параметр необходимо указать, чтобы разделить
элементы по ';'?
Feature engineering
Если не задать значения параметров метода, строка будет
разделена по пробелам.

20.

Метод split()
s = s.split(';')
Результат: ['Art & Design', 'Pretend Play']
Feature engineering
s = 'Art & Design;Pretend Play'

21.

Feature engineering
При помощи какой функции можно
посчитать длину списка?

22.

len(['Art & Design', 'Pretend Play'])
2
Feature engineering
Функция len()

23.

Feature engineering
Составим план по созданию нового
столбца с количеством жанров.

24.

План по созданию нового столбца
2. Применить функцию для преобразования типа
к столбцу при помощи метода apply().
3. Создать новый столбец, в котором будет
храниться количество жанров при помощи
метода apply() и встроенной функции len().
Feature engineering
1. Написать функцию, которая преобразует жанры
строки в список.

25.

Модуль 3. Урок 3. Очистка данных. Feature engineering
VSC + Платформа. Feature
engineering

26.

Выполните практическое задание
«VSC + Платформа. Feature engineering»
Работа
в VS Code
mars.algoritmika.org

27.

Модуль 3. Урок 3. Очистка данных. Feature engineering
Завершение
урока

28.

Завершение
урока
➔ Чему вы сегодня научились?
➔ Что понравилось больше всего?
➔ Что для вас было легко, а что — сложно?
➔ Что было необычного в том, что мы прошли
сегодня?
➔ Как вы могли бы использовать то, что
узнали сегодня?
➔ Какие новые идеи у вас появились?
English     Русский Правила