Похожие презентации:
Пример отчета о выполнении проекта
1.
Пример отчета овыполнении проекта
2.
Описание набора данныхДанные описывают экономические условия в 48 городах мира в 1991 году. Данные были собраны отделом экономических
исследований банка Union (Швейцария).
Описание данных
Признак
Описание
City
Название города
Work
Взвешенное среднее числа рабочих часов, рассчитанное по
12 профессиям
Price
Индекс цен 112 товаров и услуг, включая арендную плату за
жилье (значение для Цюриха взято за 100%)
Salary
Индекс заработной платы за час работы, посчитанный по 12
профессиям после взятия налогов и вычетов (значение для
Цюриха взято за 100%)
3.
Предварительная обработка данныхСоздадим проект, загрузим интересующий нас набор данных, импортируем
данные в проект и взглянем на них
4.
Предварительная обработка данныхВидно, что некоторые значения какие-то странные (сильно отличаются от
остальных, к тому же отрицательны)
5.
Предварительная обработка данныхБудем считать эти значения выбросами. Исключим их из набора данных
6.
Предварительная обработка данныхПроизведем линейную нормировку признаков Work, Price, Salary
7.
Предварительная обработка данныхПриглядимся к самим данным
8.
Предварительная обработка данныхМожно предположить некоторую линейную зависимость предикторов Price и
Salary. Построим матрицу корреляций. Коэффициент корреляции для этих
признаков больше 0.8 — действительно, эти предикторы в какой-то мере
линейно-зависимы.
9.
Постановка задачи и построение моделиНаша задача — выяснить, могут ли предложенные данные быть разбиты каким-то образом на группы (кластеризованы), и, в
случае утвердительного ответа, определить смысл полученных групп.
С учетом обнаруженного, можно попробовать предложить количество кластеров, основываясь на следующих двух графиках
Визуально на обоих графиках можно выделить от трех до пяти кластеров.
10.
Постановка задачи и построение моделиПроизведем по пять запусков для каждого варианта числа кластеров и доверим MS Azure подбор лучшего
варианта
11.
Постановка задачи и построение моделиMS Azure считает наиболее оптимальным использование пяти кластеров (наибольшее значение
параметра Cluster Metric), однако случаи трех и четырех кластеров тоже имеют право на жизнь
12.
Постановка задачи и построение моделиОтберем только нужные столбцы и вычислим средние значения признаков в рамках каждого кластера
13.
Оценка модели и результатовВся модель выглядит следующим образом
14.
Оценка модели и результатовПопробуем интерпретировать результаты
0 – Города с низким уровнем экономики и достаточно
высоким количеством рабочих часов
1 – Города с относительно неплохим уровнем экономики и
достаточно низким количеством рабочих часов
2 – Города, в которых рабочий день достаточно короток,
зарплаты на хорошем уровне, высокие цены
3 – Города, в которых количество рабочих часов очень
велико, уровень экономики — низкий
4 – Города, в которых среднее количество рабочих часов,
уровень экономики — высокий
Менеджмент