Увеличения точности прогнозирования событий на Титанике

Проверка заполнения столбца места отправления «Embarked»

Проверка зависимости места отправки от пола

Заполнение пустых ячеек в столбце Места отправки

Проверка заполнения столбца пассажирской оплаты «Fare»

Исключаем из фрейма данных столбцы которые не имеют информативности

Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в исследуемом исходном коде днанная

Производим выбор столбцов для обучения и тестирования системы

Проводим проверку метрики при помощи различных алгоритмов машинного обучения

Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом

680.34K

Категория:

Программирование

Похожие презентации:

Доступ к данным при помощи ADO.NET

Программа заполнения пропусков данных в двумерных массивах

ADO.NET. Технологии доступа к данным ADO.NET. (Лекция 20)

Основы работы в QlikView

Двумерный массив

SQLite менеджер. Создание БД и таблиц. DDL и DML запросы

Манипулирование данными в R

Алгоритм создания и развития интернет ресурса

Python как универсальный инструмент реализации количественных исследований

Устройство памяти в Python

Увеличения точности прогнозирования событий на Титанике

1. Увеличения точности прогнозирования событий на Титанике

За основной код был выбран:
https://www.kaggle.com/code/atulad7535/titanic-project/notebook
Автор:

2. Блок импорта библиотек

• В исследуемом коде были
• Данную часть кода оставляем
выбраны основные библиотеки
без изменений

3. Блок импорта данных

• В данном блоке импортируются файлы для обучения и
тестирования системы, а также эти данные объединяются в один
фрейм данных для удобной работы с отсутствующими данными.

4. Представление данных

Отобразим данные при помощи команды head(), и определим
количество заполненных ячеек в столбцах при помощи команды
info() и isna().sum().

5. Заполнение столбца AGE

При помощи команды fillna() в строке возраста заполняем пустые
строки (NaN) средневзвешенным значением:
Получаем заполненные ячейки средним значением между Полом и
Классом пассажира

6. Проверка заполнения столбца места отправления «Embarked»

7. Проверка зависимости места отправки от пола

• Наиболее распространённое место отправки для женщин и мужчин
является «S» Саутге́мптон

8. Заполнение пустых ячеек в столбце Места отправки

• Заполняем место отправки самым распространенным

9. Проверка заполнения столбца пассажирской оплаты «Fare»

• И заполняем средним значением по 3 Pclass’у для нашего пустого
значения

10. Проверка пустых ячеек

11. Исключаем из фрейма данных столбцы которые не имеют информативности

12. Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в исследуемом исходном коде днанная

процедура не выполнялась

13. Проведем корреляционный анализ

• Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male",
"Embarked_C", "Embarked_Q", "Embarked_S” имеют зависимость с
Survived

14. Производим выбор столбцов для обучения и тестирования системы

• В примере не был произведен
корреляционный анализ и
выраны лишь столбцы
"Pclass", "Age "
• После проведения корреляции
определены столбцы которые
добавлены в обучающую и
тестовые выборки

15. Проводим проверку метрики при помощи различных алгоритмов машинного обучения

• Разница в наилучшем результате более 7 процентов

16. Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом

• В примере был выбран алгоритм случайного леса в моем случае
выбрано дерево решений

17. Конечная метрика в Kaggle

English Русский Правила