Spaceship Titanic
Описание соревнования
Описание факторов
Изучение данных
Изучение данных
Изучение данных
Дубли в данных
Пропуски в данных
Гипотезы заполнения пропусков
Гипотезы заполнения пропусков
Гипотеза по заполнению пропусков
Гипотезы заполнения пропусков
Модели
Результаты среди моделей
Обучение модели и результат
Важность факторов
Эффективность действий в условиях разнообразных данных
Суровая реальность
Итоговый результат на Kaggle
Возможные помощники в погоне за победным скором
Метод лучших
Вопросы
19.52M

Spaceship titanic

1. Spaceship Titanic

ГРУППОВОЙ ПРОЕКТ №2
%ОМАНДА №1
АБДУЛГАЛИМОВ АНТОН
ВИКТОРОВА ВАЛЕРИЯ
ЖУРАВЛЕВ ИВАН
КОРШУНОВА ЕЛИЗАВЕТА

2. Описание соревнования

Космический корабль Титаник
попадает в пространственновременную аномалию и часть
пассажиров переносится в
альтернативную вселенную
Каждого пассажира описывает набор
факторов
Необходимо построить модельклассификатор для определения
перенесется ли заданный пассажир в
альтернативную вселенную и проверить
качество на тестовой выборке

3. Описание факторов

PassengerId - Уникальный идентификатор (вида gggg_pp) для каждого
пассажира
HomePlanet - Планета, с которой пассажир вылетел, обычно это планета его
постоянного проживания.
CryoSleep - Находится ли пассажир в криосне
Cabin - Номер каюты (вида deck/num/side), в которой находится пассажир
Destination - Планета, на которой пассажир будет высаживаться
Age - Возраст пассажира.
VIP - Оплатил ли пассажир специальное VIP-обслуживание во время рейса.
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Сумма, которую
пассажир оплатил в сервисах космического корабля "Титаник"
Name - Имя и фамилия пассажира.
Transported - Был ли пассажир перевезен в другое измерение. Это целевой
столбец, который пытаемся предсказать

4. Изучение данных

5. Изучение данных

6. Изучение данных

7. Дубли в данных

Полных дублей в данных нет
Есть несколько дублирующихся по
имени пассажиров, но, скорее
всего, это просто совпадение

8. Пропуски в данных

Пропуски есть почти в каждой
колонке в количестве примерно 2%
Максимальное кол-во пропусков в
строке:
три в 21 строке
два в 316 строках
один в 2746 строках
Суммарное число пропусков
достигает 24% от всего объема
данных

9. Гипотезы заполнения пропусков

10. Гипотезы заполнения пропусков

Мальчик, кошек нам
принеси, мы на TRAPPIST-1e
летим

11. Гипотеза по заполнению пропусков

Есть линейная
зависимость
номера группы и
номера каюты

12. Гипотезы заполнения пропусков

Люди имеющие одну и ту же фамилию
прибыли с одной планеты
Люди в криосне не могут тратить
средства
Возраст – медиана по группе «каютаразмер группы-родная планета-наличие
трат»
Траты – среднее по группе «возрастная
группа-путешествие в одиночку-родная
планета»
Для прочих факторов пробуем KNNInputer
я тебе на каждую твою идею
предложу сотню триллионов,
как всё делать

13. Модели

catboost
Logistic Regression
Random Forest
KNN
CatBoost
XGBoost
LightGBM
xgboost

14. Результаты среди моделей

Logistic Regression – самая
быстрая среди всех
(12 секунд)
LightGBM – самая быстрая из
ансамблевых моделей с ГБ
(38 секунд)
Catboost – самое высокое
значение метрики F1 на
валидации (0,82)
LightGBM
catboost
xgboost

15. Обучение модели и результат

Итоговая модель Catboost обучалась
на 10-фолдовой кросс-валидации
при параметрах модели
n_estimators=100, max_depth=4 и
learning_rate=0.15 (подбор
параметров осуществлялся с
помощью grid search)
Итоговый скор на паблик тесте –
0.80874

16. Важность факторов

17. Эффективность действий в условиях разнообразных данных

18. Суровая реальность

19. Итоговый результат на Kaggle

Скор на датасете, где пропуски
заменили ‘Unknown’: 0.79705
Скор на датасете, где просто
сбросили пропуски: 0.80360
Скор на обработанном датасете:
0.80874

20. Возможные помощники в погоне за победным скором

Подбор порога
классификации
Optuna – как инструмент
подбора гиперпараметров
TF-IDF на именах

21. Метод лучших

22. Вопросы

23.

Спасибо за внимание!
English     Русский Правила