Похожие презентации:
Итоговый+проект_АнД-806_Ugriumova
1.
Федеральное государственное автономное образовательноеучреждение высшего образования
«Национальный исследовательский Томский государственный университет»
Дополнительная профессиональная программа профессиональной
переподготовки
Аналитик данных: с нуля до разработки прикладных решений для бизнеса
Итоговый проект
Анализ товарного
ассортимента магазина
Выполнил:
Угрюмова Наталья Игоревна
Номер потока: АнД-806
Преподаватель: Строев Сергей
Павлович
2.
Постановка задачи:➜
Провести анализ товарного ассортимента и
определить какие товары входят в основной и
дополнительный ассортимент.
3.
Исходные данные:Файл с данными, содержит
6737 строк.
- Пропусков нет.
- Дата в формате Unix. Это целое число, которое представляет
количество секунд, прошедших с полуночи 1 января 1970 года.
- Отрицательных и нулевых значений нет.
- Максимальное количество товаров в заказе
1000. Исследуем далее.
- Нужно
исследовать
аномалии по
признакам
quantity и price.
4.
Предобработка данных- Скорректировали заголовки.
- Преобразовали формат даты в удобный.
- В одном и том же заказе товар отображался в нескольких
строчках – удалили дубли.
- У 29 заказов больше чем 1 покупатель – удалили дубли.
Получили датафрейм с
корректными данными в
4807 строк.
5.
Предобработка данныхПровели поиск аномальных значений по двум
количественным признакам ‘количество товаров в
заказе’ и ‘цена товара’.
На данных графиках можно увидеть аномальные
значения больше 99-го перцентиля.
Имеется несколько заказов, где количество товаров больше
100, будем считать, что это допустимо:
Допускаем, что стоимость товаров может быть свыше 5000,
удалять не будем:
6.
Исследовательский анализ данных:Диаграмма количества покупок по дням:
На графике можно увидеть пики покупок: перед Новым
годом, в марте, в начале мая и в конце года.
Диаграмма суммы покупок по дням:
На дату 2019-06-18 сумма покупки равна 679944.0.
В этой покупке - Вантуз 1000шт.
Допустим, что это была оптовая закупка. Удалять
не будем.
7.
Исследовательский анализ данных:Рассмотрим гистограмму отображающую распределение
заказов по сумме.
Можно сделать вывод, что в
основном были заказы не
превышающие сумму 1000 р.
8.
Исследовательский анализ данных:Я разделила товары на 10
категорий основываясь на их
названии:
'Растения и рассада'
'Искусственные растения и муляж'
'Хозтовары'
'Сумки'
'Бытовая химия'
'Посуда'
'Мебель и фурнитура'
'Текстиль для дома'
'Техника'
'Строительство и ремонт'
В каждой категории распределила товары на основной и
дополнительный ассортимент.
- дополнительный товар - товар по каждой категории,
стоимость которого не превышает модальной стоимости
товара по категории.
- основной товар – оставшийся.
9.
Исследовательский анализ данных:В ходе исследовательского
анализа использовали
критерий Шапиро – Уилка для
проверки нормальности
случайной величины.
Для каждой выборки гипотеза H_0 о нормальном
распределении отвергается.
Распределение случайных величин по каждой из 10
категорий товаров отличны от нормальных.
10.
Исследовательский анализ данных:Если хотя бы одна исследуемая случайная
величина имеет распределение, отличное от
нормального, то с помощью критерия МаннаУитни проверяется гипотеза о равенстве
выборочных средних или медиан.
Имеющиеся 10 категорий товаров разбили по парам и
использовали критерий для оценки различий:
'Бытовая химия' и 'Хозтовары'
'Растения и рассада' и 'Техника’
'Искусственные растения и муляж' и 'Сумки'
'Посуда' и 'Текстиль для дома'
'Мебель и фурнитура' и 'Строительство и ремонт'
Критерий показал, что разница
в средних чеках выбранных категорий
статистически значима.
11.
Результаты и выводы:Анализ показал, что в выбранных категориях было продано много
товаров с широким диапазоном цен, что оказывает влияние на средний
чек.
В основном, клиенты делают покупки раз в год и сумма заказа не
превышает 1000.
Разделили товары на основной и дополнительный.
Дополнительным товаром стал товар, стоимость которого не
превышает модальной стоимости товара по категории.
12.
Спасибоза внимание!