Похожие презентации:
Spaceship titanic
1. Spaceship Titanic
ГРУППОВОЙ ПРОЕКТ №2%ОМАНДА №1
АБДУЛГАЛИМОВ АНТОН
ВИКТОРОВА ВАЛЕРИЯ
ЖУРАВЛЕВ ИВАН
КОРШУНОВА ЕЛИЗАВЕТА
2. Описание соревнования
Космический корабль Титаникпопадает в пространственновременную аномалию и часть
пассажиров переносится в
альтернативную вселенную
Каждого пассажира описывает набор
факторов
Необходимо построить модельклассификатор для определения
перенесется ли заданный пассажир в
альтернативную вселенную и проверить
качество на тестовой выборке
3. Описание факторов
PassengerId - Уникальный идентификатор (вида gggg_pp) для каждогопассажира
HomePlanet - Планета, с которой пассажир вылетел, обычно это планета его
постоянного проживания.
CryoSleep - Находится ли пассажир в криосне
Cabin - Номер каюты (вида deck/num/side), в которой находится пассажир
Destination - Планета, на которой пассажир будет высаживаться
Age - Возраст пассажира.
VIP - Оплатил ли пассажир специальное VIP-обслуживание во время рейса.
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Сумма, которую
пассажир оплатил в сервисах космического корабля "Титаник"
Name - Имя и фамилия пассажира.
Transported - Был ли пассажир перевезен в другое измерение. Это целевой
столбец, который пытаемся предсказать
4. Изучение данных
5. Изучение данных
6. Изучение данных
7. Дубли в данных
Полных дублей в данных нетЕсть несколько дублирующихся по
имени пассажиров, но, скорее
всего, это просто совпадение
8. Пропуски в данных
Пропуски есть почти в каждойколонке в количестве примерно 2%
Максимальное кол-во пропусков в
строке:
три в 21 строке
два в 316 строках
один в 2746 строках
Суммарное число пропусков
достигает 24% от всего объема
данных
9. Гипотезы заполнения пропусков
10. Гипотезы заполнения пропусков
Мальчик, кошек нампринеси, мы на TRAPPIST-1e
летим
11. Гипотеза по заполнению пропусков
Есть линейнаязависимость
номера группы и
номера каюты
12. Гипотезы заполнения пропусков
Люди имеющие одну и ту же фамилиюприбыли с одной планеты
Люди в криосне не могут тратить
средства
Возраст – медиана по группе «каютаразмер группы-родная планета-наличие
трат»
Траты – среднее по группе «возрастная
группа-путешествие в одиночку-родная
планета»
Для прочих факторов пробуем KNNInputer
я тебе на каждую твою идею
предложу сотню триллионов,
как всё делать
13. Модели
catboostLogistic Regression
Random Forest
KNN
CatBoost
XGBoost
LightGBM
xgboost
14. Результаты среди моделей
Logistic Regression – самаябыстрая среди всех
(12 секунд)
LightGBM – самая быстрая из
ансамблевых моделей с ГБ
(38 секунд)
Catboost – самое высокое
значение метрики F1 на
валидации (0,82)
LightGBM
catboost
xgboost
15. Обучение модели и результат
Итоговая модель Catboost обучаласьна 10-фолдовой кросс-валидации
при параметрах модели
n_estimators=100, max_depth=4 и
learning_rate=0.15 (подбор
параметров осуществлялся с
помощью grid search)
Итоговый скор на паблик тесте –
0.80874
16. Важность факторов
17. Эффективность действий в условиях разнообразных данных
18. Суровая реальность
19. Итоговый результат на Kaggle
Скор на датасете, где пропускизаменили ‘Unknown’: 0.79705
Скор на датасете, где просто
сбросили пропуски: 0.80360
Скор на обработанном датасете:
0.80874
20. Возможные помощники в погоне за победным скором
Подбор порогаклассификации
Optuna – как инструмент
подбора гиперпараметров
TF-IDF на именах