Кластерний аналіз. Дискримінантний аналіз.
Кластерний аналіз
Методи кластеризації
Методи кластеризації
Методи кластеризації
Методи кластеризації
Методи кластеризації
Приклади кластерного аналізу
Львів: попередня оцінка
Львів: відбір кластерів
Приклад кластерних сайтів: Групи подібності по контенту
Дискримінантний аналіз
Приклад дискримінантного аналізу за допомогою MDA
Універсальна дискримінантна модель
Переваги та недоліки застосування кластерного аналізу
Переваги та недоліки застосування дискримінантного аналізу
1.28M

Кластерний аналіз. Дискримінантний аналіз

1. Кластерний аналіз. Дискримінантний аналіз.

Виконали ст.гр.ЕМЕм-12:
Николин А.
Подоляк В.
Приведа Р.
Прикладна економетрика

2. Кластерний аналіз

• Кластерний аналіз (англ. Data clustering) —
задача розбиття заданої вибірки об'єктів (ситуацій)
на підмножини, що називаються кластерами, так,
щоб кожен кластер складався з схожих об'єктів, а
об'єкти різних кластерів істотно відрізнялися.
Завдання кластеризації відноситься до статистичної
обробки,
а
також
до
широкого
класу
завдань навчання без вчителя.
• Це багатовимірна статистична процедура, яка
виконує збір даних, що містять інформацію
про вибірку об'єктів і потім упорядковує об'єкти в
порівняно однорідні групи — кластери.
Прикладна економетрика

3.

• Основна мета кластерного аналізу — знаходження
груп схожих об'єктів у вибірці. Спектр застосувань
кластерного
аналізу
дуже
широкий:
його
використовують в археології, антропології, медицині,
психології, хімії, біології, державному управлінні,
філології, маркетингу, соціології та інших дисциплінах.
Однак універсальність застосування привела до появи
великої кількості несумісних термінів, методів і підходів,
що
ускладнюють
однозначне
використання
і
несуперечливу інтерпретацію кластерного аналізу.
Кластерний аналіз виконує наступні основні завдання:
• Розробка типології або класифікації.
• Дослідження корисних концептуальних схем
групування об'єктів.
• Породження гіпотез на основі дослідження даних.
• Перевірка гіпотез або дослідження для визначення, чи
дійсно групи, виділені тим чи іншим способом,
присутні в наявних даних.
Прикладна економетрика

4.

Незалежно від конкретної сфери, застосування
кластерного аналізу передбачає наступні етапи:
• Відбір вибірки для кластеризації.
• Визначення множини характеристик, по яких
будуть оцінюватися об'єкти у вибірці.
• Обчислення
значень
тієї
чи
іншої
міри
схожості між об'єктами.
• Застосування одного з методів кластерного
аналізу для створення груп схожих об'єктів.
• Перевірка
достовірності
результатів
кластеризації.
• Якщо кластерному аналізу передує факторний
аналіз, то вибірка не потребує коректування —
викладені вимоги виконуються автоматично
самою процедурою факторного моделювання.
В іншому випадку вибірку потрібно коректувати.
Прикладна економетрика

5. Методи кластеризації

де d — метрика, — і-ий об'єкт даних, а
— центр кластера, якому на j-ій ітерації приписаний
елемент .
Маємо масив спостережень (об'єктів), кожен з яких має певні значення по ряду ознак. Відповідно до цих
значень об'єкт розташовується у багатовимірному просторі.
1. Дослідник визначає кількість кластерів, що необхідно утворити
2. Випадковим чином обирається k спостережень, які на цьому кроці вважаються центрами кластерів
3. Кожне спостереження «приписується» до одного з n кластерів — того, відстань до якого найкоротша
4. Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє
арифметичне ознак об'єктів, що входять у цей кластер
5. Відбувається така кількість ітерацій (повторюються кроки 3-4), поки кластерні центри стануть стійкими
(тобто при кожній ітерації в кожному кластері опинятимуться одні й ті самі об'єкти), дисперсія
всередині кластера буде мінімізована, а між кластерами — максимізована
Метод к-середніх
Прикладна економетрика

6. Методи кластеризації

Кластеризація методом к–середніх: Демонстрація
алгоритму
Прикладна економетрика

7. Методи кластеризації

Ієрархічна кластеризація (також «графові алгоритми
кластеризації»)
Прикладна економетрика

8. Методи кластеризації

де перше підсумовування ведеться за всіма кластерам вибірки, друге
підсумовування - по всіх об'єктах x, що належить поточному кластеру K_j, а
W_j - центр поточного кластера, p (x,y) - відстань між об'єктами.
FOREL (Формальний Елемент)
Прикладна економетрика

9. Методи кластеризації

Шар Кохонена складається з деякої кількості N паралельно діючих лінійних
елементів. Всі вони мають однакову кількість входів M і отримують на свої
входи один і той же вектор вхідних сигналів X = (x1,..xm). На виході j -го
лінійного елемента отримуємо сигнал.
Де w j0 — ваговий коефіціент j-го входу нейрона, wj0— пороговий
коефіцієнт.
Після проходження шару лінійних елементів сигнали посилаються на обробку за
правилом «переможець забирає все»: серед вихідних сигналів yj шукається
максимальний;
Нейронна мережа Кохонена
Прикладна економетрика

10. Приклади кластерного аналізу

8%
Кластерна карта економіки м. Львів
7%
Частка Льова у зайнятості України
6%
Одяг та взуття
7 335
Готелі і ресторани
4 172
5%
Приладобудування
7 323
4%
Гума і пластик
1 646
Транспорт і зв'язок
34 107
Бізнес-послуги
27 680
Торгівля
35 193
3%
Фінансові послуги
10 467
Дерево, папір і друк
3 661
2%
1%
0%
-8%
-6%
Прикладна економетрика
-4%
-2%
0%
5-річне середнє зростання
2%
4%
6%

11. Львів: попередня оцінка

Прикладна економетрика

12. Львів: відбір кластерів

Прикладна економетрика

13. Приклад кластерних сайтів: Групи подібності по контенту

Прикладна економетрика

14. Дискримінантний аналіз


Дискриміна́ нтний ана́ ліз — різновид багатовимірного аналізу,
призначеного для вирішення задач розпізнавання образів.
Використовується
для
прийняття
рішення
про
те,
які змінні розділюють (тобто «дискримінують») певні масиви даних
(так звані «групи»).
Весь
процес
проведення
дискримінантного
аналізу
розбивається на два етапи й кожен з них можна розглядати як
абсолютно самостійний метод.
Перший етап – виявлення і формальний опис відмінностей
між існуючими множинами (групами) спостережуваних
об’єктів.
Другий етап – безпосередня класифікація нових об’єктів,
тобто віднесення кожного об’єкта до одні з існуючих множин.
За допомогою дискримінантного аналізу на підставі деяких
ознак (незалежних змінних) об’єкт може бути зарахований до
однієї із заданих наперед груп. Вагомий внесок у розвиток
багатовимірної статистики зробили такі вчені, як П.Ч.
Махалонобіс, Р. Фішер,Г. Хотеллінг та ін.
Прикладна економетрика

15.

• Загальна модель дискримінантного аналізу для
кількісних змінних при відсутності інформації
щодо апріорної ймовірності віднесення до певної
групи та при рівності втрат має такий вигляд:
Прикладна економетрика

16.

• У світовій практиці одним з найважливіших інструментів
системи
раннього
запобігання
та
прогнозування
банкрутства підприємств є дискримінантний аналіз (аналіз
множинних дискримінант - Multiple-discriminant analysis,
MDA). Його зміст полягає в тому, що за допомогою
математично- статистичних методів будують функцію та
розраховують інтегральний показник, на підставі якого
можна з достатньою ймовірністю передбачити банкрутство
суб’єкта господарювання. Дискримінантний аналіз ґрунтується на емпірично-індуктивному дослідженні фінансових
показників великої кількості підприємств, одні з яких
збанкрутували, а решта - успішно функціонує в умовах
ринкового середовища.
• Пристосована до вітчизняних умов дискримінантна модель
була розроблена О. Терещенком. Вона існує у двох
варіантах: універсальна та спеціалізована за галузями
народного господарства. Ця модель враховує специфіку
діяльності саме українських підприємств. Але вагомим її
недоліком є широкий інтервал невизначеності, коли
неможливо
достовірно
визначити
приналежність
підприємства до фінансово стійких чи до потенційних
банкрутів.
Прикладна економетрика

17. Приклад дискримінантного аналізу за допомогою MDA

Прикладна економетрика

18. Універсальна дискримінантна модель

Z = 1,5 Х 1 + 0,08 Х 2 + 10 Х 3 + 5 Х 4 + 0,3 Х 5 + 0,1 Х 6
де Х 1 – Cash Flow / зобов’язання;
Х 2 – валюта балансу/ зобов’язання;
Х 3 – чистий прибуток/ баланс;
Х 4 – чистий прибуток/ виручка;
Х 5 – виробничі запаси/ виручка;
Х 6 – виручка/ обіговість основного капіталу.
Для обчислення коефіцієнта X1 використовується показник Cash Flow,
який характеризує величину чистих грошових потоків, які утворюються в
результаті операційної та інвестиційної діяльності й залишаються в
розпорядженні підприємства в певному періоді.
Отримані результати після обрахунків можна інтерпретувати так:
• Z>2 – підприємство вважається фінансово стійким і йому не
загрожує банкрутство;
• 1<Z<2 – фінансова рівновага порушена, але за умови переходу
підприємства на антикризове управління банкрутство йому не загрожує;
• 0<Z<1 – підприємству загрожує банкрутство, якщо воно не здійснить
санаційних заходів;
• Z<0 – підприємство є напівбанкрутом.
Прикладна економетрика

19. Переваги та недоліки застосування кластерного аналізу

• Низька чутливість до
розмірності вибірки
• Показник є найбільш
критичним в більшості
систем і методів, що
вирішують задачі
класифікації(
встановлює обмеження
у прогнозуванні)
• Метод кластерного
аналізу працює навіть
якщо не виконуються
вимоги нормальності
розподілів випадкових
величин
Прикладна економетрика
• Результат класифікації
сильно залежить від
випадкових початкових
позицій кластерних
центрів
• Алгоритм чутливий до
викидів, які можуть
викривлювати середнє
• Кількість кластерів
повинна бути
заздалегідь визначена
дослідником

20. Переваги та недоліки застосування дискримінантного аналізу

• простота у розрахунку;
• враховує галузеві
особливості підприєм
ства;
• вирішує проблему
визначення критичних
значень показників, які
є індикатором вірогідн
ості певного явища
в галузі.
Прикладна економетрика
широкий інтервал невиз
наченості. Дані такого
прогнозування є вельми
суб’єктивними і не
дають підстав для
практичних висновків.
знижує точність прогнозу

21.

Прикладна економетрика
English     Русский Правила