5.76M
Категория: ОбразованиеОбразование

Программа профессиональной переподготовки

1.

Программа Профессиональной Переподготовки
Аналитик данных: с нуля до разработки прикладных решений для
бизнеса
Итоговый проект
Создание модели для прогнозирования
стоимости квартиры
Выполнил: Радюк Екатерина Викторовна
Номер потока: ДА-808
Преподаватель: Астапов Павел
Евгеньевич

2.

Постановка задачи:
Разработка алгоритма моделирования стоимости
квартиры на основе известных параметров с
помощью языка программирования Python.

3.

Исходные данные:
- Подключение необходимых
библиотек
- Чтение файла

4.

Предобработка данных
- Уменьшение размерности
данных
- Удаление полных
дубликатов
- Удаление строк с пустыми
значениями

5.

Одномерный анализ
Рис.1. Гистограмма по столбцу «Стоимость» (таргетный)

6.

Одномерный анализ
Рис.2. Гистограмма по столбцу «Общая площадь»

7.

Одномерный анализ
Рис.3. Гистограмма по столбцу «Количество комнат»

8.

Одномерный анализ
Рис.4. Гистограмма по столбцу «Расстояние до ближайшего парка»

9.

Двумерный анализ
Рис.5. Корреляционная матрица

10.

Двумерный анализ
Мультиколлинеарные признаки (по корреляционной матрице):
# общая площадь и жилая площадь, площадь кухни и количество комнат;
# расстояние до центра города и расстояние до ближайшего аэропорта;
# наличие балкона ,высота потолков, общее количество этажей, этаж и
отметка о том, что квартира является аппартаментами;
# расстояние до парков и число парков в радиусе 3км и др.

11.

Двумерный анализ
Создание тренировочной модели

12.

Двумерный анализ
• Получили коэффициенты зависимости «Стоимости» от каждого из
признаков;
• Коэффициент детерминации для тренировочных - 0,52
• Коэффициент детерминации для тестовых - 0,42
! Модель нуждается в усовершенствовании
• Так как модель требует усовершенствования, эти коэффициенты для
записи формулы на данном этапе не применимы.

13.

Двумерный анализ
• За счет перевода Стоимости в
логарифмы, увеличили точность
модели.
• Коэффициент детерминации для
тренировочных - 0,75
• Коэффициент детерминации для
тестовых - 0,6
Рис.6. Гистограмма по столбцу «Стоимость», нивелированная log

14.

Двумерный анализ
По значению p-value<0,005
не попадают в интервал следующие признаки:
floor,
kitchen_area,
parks_around3000,
ponds_nearest,
под сомнением airports_nearest

15.

Двумерный анализ
Усовершенствование модели, за счет удаления
мультиколлинеарных признаков
Каждый мультиколлинеарный признак удаляется постепенно:
до тех пор, пока снижается BIC и сохраняется точность
модели

16.

Коэффициенты для признаков

17.

Двумерный анализ
Ошибка не имеет
закономерностей модель эффективна.
Рис.7. Среднеквадратическая ошибка

18.

Двумерный анализ
Распределение ошибки
имеет нормальное
распределение – модель
эффективна
Рис.8. Гистограмма распределения ошибки

19.

Формула расчета стоимости

20.

Результаты и выводы:
+ Основными признаками, влияющими на увеличение ↑ стоимости
квартир являются:
# Увеличение общей площадь, увеличение количества комнат, наличие
балкона, увеличение числа водоёмов в радиусе 3 км, увеличение высоты
потолков, увеличение общей этажности здания.
- Основными признаками, влияющими на снижение ↓ стоимости квартир
являются:
# Наличие статуса квартиры - «аппартамены», увеличение жилой площади.

21.

Благодарю
за внимание!
English     Русский Правила