Исследование Х5 и т.п.
Структура датасета
Отчистка от выбросов
## Переход к новому датасету (группируем по магазинам и считаем среднее основных числовых характеристик)
## Ввод нового понятия: выручка = средний чек*трафик (нужно так как отражает сразу два важных показателя)
Направление поиска
Зависимость выручки от пвз
Выводы из пред анализа
Распределение по группам
Иссл вопрос и гипотеза
Механизм
Мат модель
Проверка гипотезы( можно просто оставить то что тест значим и какие группы как отличаются, конкретные значения в приложении
Проверка механизма(тоже самое
Альтернативный механизм(тоже самое
Проверка на устойчивость
Тут либо карта, либо список самых больших регионов по численности
По кварталам
Выводы и интерпретация
Ограничения надо добавить
Рекомендация
Схожее исследование, подтверждающее наше
Команда
Спасибо за внимание
Приложение
Распределение по группам
Ещё распределение по группам
Трафик и чек от пвз
Матрица корреляций
Проверка дисперсий
Проверка нормальности
Тест Краскела уолисса и данна
Тест ...
Тест ..
1.21M

Presentation 5 (1)

1. Исследование Х5 и т.п.

2. Структура датасета

• данные по основным характерестикам магазинов
• количетсво строк в датасете 256723, столбцов 18
уникальных магазинов 21743
только один календарный год
• Пропусков нет

3. Отчистка от выбросов

• ## Очистка выбросов( не может быть населённых
пунктов с населением 0 и магазинов, с количеством
наблюдений больше 12, ведь всего 1 календарный год)
• Было 256723
• Стало 242727
• Изменение на 5%

4. ## Переход к новому датасету (группируем по магазинам и считаем среднее основных числовых характеристик)

• Нужно, так как нам интересено следить за магазинами и из
средними значениями и ….

5. ## Ввод нового понятия: выручка = средний чек*трафик (нужно так как отражает сразу два важных показателя)

Медиана 50824193
Среднее 59217274
Стд 31432852

6. Направление поиска

• #%% md
количество ПВЗ около магазина может влиять на
трафик или средний чек, вот ссылка на подтверждение
https://www.retail.ru/news/pvz-povyshayutprivlekatelnost-novostroek-dlya-pokupateley-istanovyatsya-yakorya-16-iyulya-2025-266861/ цитата "ПВЗ - как якорь". Если говорить про логику,
то чем больше ПВЗ, тем более проходное место тем
больше выручка

7. Зависимость выручки от пвз

Корреляция - 0.24, довольно много

8. Выводы из пред анализа

• ## Из всего предварительного анализа можно сделать
вывод, что скорей всего есть линейная зависимость
между кол-во ПВЗ и выручкой, что подтверждает
корреляция и график
• Разделим наши данные на 4 группы, руководствуясь
следующей логикой: 1) если ПВЗ нет совсем то это
как отдельный мир для нас, который мы хотим
сравнить с другим. 1 это самые популярные ПВЗ,
такие как OZON и wildberries, но они не показывают
весь эффект от количества. 2-6 это довольно много,
но всё ещё не слишком. 7+ Это большие ТЦ - видно
эффект

9. Распределение по группам

• Разделим наши данные на 4 группы, руководствуясь
следующей логикой: 1) если ПВЗ нет совсем то это
как отдельный мир для нас, который мы хотим
сравнить с другим. 1 это самые популярные ПВЗ,
такие как OZON и wildberries, но они не показывают
весь эффект от количества. 2-6 это довольно много,
но всё ещё не слишком. 7+ Это большие ТЦ - видно
эффект
Ещё выборки сопостовимы

10. Иссл вопрос и гипотеза

• ## Исл. вопрос: Что влияет на выручку магазина?
## Гипотеза: Чем больше ПВЗ поблизости магазина,
тем больше выручка

11. Механизм

• 1) Люди идут за заказами ПВЗ -> по пути заходят
что-нибудь купить -> увеличивается трафик ->
увеличивается выручка

12. Мат модель

• ## Мат. модель:
уровень значимости - 0.05
итоговый размер финальной выборки 20529. По подгруппам:
1) Нет ( 5217 51252656 45461540) 2) Мало ( 5813
56615578 49182950) 3) Средне (8759 63571143 54396315)
4) Много (740 84270675 73603240) Здесь (кол-во среднее
медиана). задача 1: обнаружить различия в группах
задача 2: понять какие именно группы различаются.
Особенности целевой переменной: дисперсии не равны,
наблюдения независимы, распределения не нормальные, но
схожи) Выбраные мат методы ( Краскел-Уоллис и тест
Данна)

13. Проверка гипотезы( можно просто оставить то что тест значим и какие группы как отличаются, конкретные значения в приложении

Краскела-Уоллиса: H = 896.03, p =
0.000000
================================
============================
ПОПАРНЫЕ СРАВНЕНИЯ (тест
Данна):
много
vs нет
: p = 0.0000 ✓
28141700
нет
vs средне
: p = 0.0000 ✓ 8934776
мало
vs много
: p = 0.0000 ✓ 24420290
много
vs средне
: p = 0.0000 ✓
19206925
мало
vs средне
: p = 0.0000 ✓ 5213365
мало
vs нет
: p = 0.0000 ✓
3721411

14. Проверка механизма(тоже самое

Краскела-Уоллиса: H =
1571.66, p = 0.000000
=======================
=======================
==============
ПОПАРНЫЕ СРАВНЕНИЯ
(тест Данна):
нет
vs средне
:p=
0.0000 ✓ -6157
много
vs нет
:p=
0.0000 ✓ 15541
мало
vs много
:p=
0.0000 ✓ -12596
мало
vs средне
:p=
0.0000 ✓ -3211
много
vs средне
:p=
0.0000 ✓ 9385
мало
vs нет
:p=
0.0000 ✓ 2946

15. Альтернативный механизм(тоже самое

• 2) Люди, которые часто покупают на маркетплейсах, более
склоны к импульсивным покупкам -> больше тратят в магазинах
-> средний чек растёт -> растёт выручка
• Проверка Краскела-Уоллиса: H = 427.95, p = 0.000000
• ========================================================
====
• ПОПАРНЫЕ СРАВНЕНИЯ (тест Данна):
• много
vs нет
: p = 0.0000 ✓ 230
• нет
vs средне
: p = 0.0000 ✓ -64
• мало
vs много
: p = 0.0000 ✓ -200
• много
vs средне
: p = 0.0000 ✓ 167
• мало
vs средне
: p = 0.0000 ✓ -34
• мало
vs нет
: p = 0.0000 ✓ 30

16. Проверка на устойчивость

• По регионам по кварталам

17. Тут либо карта, либо список самых больших регионов по численности

18. По кварталам

• квартал 1: p-value значим 2.2334135611861807e-241
• квартал 2: p-value значим 4.8990699879051773e-172
• квартал 3: p-value значим 6.995584831732028e-131
• квартал 4: p-value значим 1.1490733788239827e-216
• кол-во значимых отличий: 4, кол-во незначимых 0

19. Выводы и интерпретация

• ## Интерпретация: гипотеза подтвердилась, чем
больше кол-ва ПВЗ в группе чем больше выручка,
проверка на устойчивость по регионам и по кварталам
прошла
• ## Выводы: в половине регионах гипотеза
подтвердилась, в остальных мы не смогли отклонить
H0, по кварталам всё хорошо

20. Ограничения надо добавить

• # Ограничения:
не знаем издержек магазина, поэтому не можем найти
прибыль, а значит не знаем насколько магазин
эффективен

21. Рекомендация

• ## Рекомендации X5-group:
1) Открывать новые магазины, там где уже есть
большое количество ПВЗ
2) Развивать магазины, где меньше ПВЗ, чтобы
поднять их выручку или наоборот там где больше ПВЗ,
так как у них больше отдача (тут вопрос)
3) Проводить совместные акции с маркетплейсами,
для привлечения ещё большего количества клиентов
4) Увеличивать количество собственных постоматов
в магазинах (5Post сеть)

22. Схожее исследование, подтверждающее наше

• 70% покупателей не идёт за заказом специально, а
забирает
• заодно с другим делом. Большинство (42%) — на одном из
• регулярных маршрутов, например, по пути на работу или
• с работы, 15% — во время прогулки с детьми или собакой,
• 12% — в магазине или торговом центре, куда пришли за
• другими покупками или по делам.
• 29% выходят из дома целенаправленно, именно для того,
• чтобы забрать заказ. 1% затруднились с ответом.
• file:///C:/Users/Michael/Downloads/DI_Sellers_on_MP.pdf

23. Команда

24. Спасибо за внимание

25. Приложение

26. Распределение по группам

27. Ещё распределение по группам

28. Трафик и чек от пвз

29. Матрица корреляций

30. Проверка дисперсий

• Тест левена

31. Проверка нормальности

32. Тест Краскела уолисса и данна

• Для гипотезы

33. Тест ...

• Для механизма

34. Тест ..

• Для альт меха

35.

• Возможно ещё если что-то вспомним или придумаем
English     Русский Правила