114.04K
Категория: Базы данныхБазы данных

Кластеризація в Data Mining. Базові алгоритми кластеризації. Ієрархічний алгоритм кластеризації

1.

КЛАСТЕРИЗАЦІЯ В DATA MINING.
БАЗОВІ АЛГОРИТМИ
КЛАСТЕРИЗАЦІЇ.
ІЄРАРХІЧНИЙ АЛГОРИТМ
КЛАСТЕРИЗАЦІЇ
Виконала студентка групи КН-306
Дикун Яна

2.

ЗМІСТ
• Data mining
• Базові задачі Data mining
• Кластеризація
• Методи кластеризації
• Умова задачі
• Дендограма
• Переваги та недоліки
• Висновки

3.

DATA MINING
Data Mining – це технологія, яка призначена для пошуку у
великих об'ємах даних неочевидних, об'єктивних і корисних на
практиці закономірностей.

4.

БАЗОВІ ЗАДАЧІ DATA MINING
• Побудова асоціативних правил
• Класифікація
• Кластеризація
• Регресія

5.

КЛАСТЕРИЗАЦІЯ
Кластерний аналіз (англ . Data clustering ) —
задача розбиття заданої вибірки об'єктів
(ситуацій) на підмножини, звані кластерами, так,
щоб кожен кластер складався із схожих об'єктів,
а об'єкти різних кластерів максимально
відрізнялися.

6.

МЕТОДИ КЛАСТЕРИЗАЦІЇ
• K-середніх (K-means );
• Графські алгоритми кластеризації;
• Статистичні алгоритми кластеризації;
• Алгоритми сімейства FOREL;
• Ієрархічна кластеризація або таксономія;
• Нейронна мережа Кохонена;
• Ансамбль кластеризатерів;
• Алгоритми сімейства Кrab;
• EM-алгоритм;
• Алгоритм, заснований на методі просіювання

7.

ЗАДАЧА
Об’єкт – людина, характеристики – кількість цукру(г/день) та індекс маси
тіла.

Ім’я
Кількість цукру
(г/день)
Індекс маси тіла
1
Олег
50
22,5
2
Андрій
30
21
3
Наталія
63
25,2
4
Ірина
41
23,1
5
Віталій
20
20,7
6
Оксана
70
27,8
7
Юрій
48
22,8
8
Людмила
55
26,4
9
Володимир
37
21,9
10
Тетяна
23
20,3

8.

P x1, x2 =
0,5
50 − 30 2 + 22,5 − 21 2
= 20,056
2 0,5
P x1, x3 =
50 − 63 2 + 22,5 − 25,2
P x1, x4 =
50 − 41 2 + 22,5 − 23,1 2
0,5
2 0,5
P x1, x5 =
50 − 20 2 + 22,5 − 20,7
P x1, x6 =
50 − 70 2 + 22,5 − 27,8 2
0,5
50 − 48 2 + 22,5 − 22,8
2 0,5
P x1, x8 =
50 − 55 2 + 22,5 − 26,4
2 0,5
P x1, x9 =
50 − 37 2 + 22,5 − 21,9 2
P x1, x7 =
P x1, x10 =
50 − 23 2 + 22,5 − 20,3
0,5
2 0,5
= 13,277
= 9,019
= 30,054
= 20,69
= 2,022
= 6,341
= 13,014
= 27,089
Володими Тетян
р
а
Олег
Андрій Наталя
Ірина
Віталій Оксана
Юрій
Людмила
20,056
13,277
9,019
30,054
20,69
2,022
6,341
13,014
27,089
0
33,266
11,199
10,005
40,574
18,089
25,577
7,058
7,035
Наталія
0
20,05
6
13,277
33,266
0
22,1
43,235
7,467
15,191
8,089
26,209
40,299
Ірина
9,019
11,199
22,1
0
21,137
29,378
7,006
14,383
4,176
18,216
Віталій
30,054
10,005
43,235
21,137
0
50,502
28,079
35,461
17,042
3,026
Оксана
20,69
40,574
7,467
29,378
50,502
0
22,561
15,065
33,523
47,594
Юрій
2,022
18,089
15,191
7,006
28,079
22,561
0
7,871
11,037
25,125
Людмила
6,341
25,577
8,089
14,383
35,461
15,065
7,871
0
18,553
32,576
Володимир 13,014
7,058
23,209
4,176
17,042
33,523
11,037
18,553
0
14,091
7,035
40,299
18,216
3,026
47,594
25,125
32,576
14,091
0
Олег
Андрій
Тетяна
27,089

9.

ОлегЮрій
Андрій
Наталя
Ірина
Віталій
Оксана
Людмила
Володими
р
Тетяна
ОлегЮрій
0
20,056
15,056
9,019
30,054
22,561
7,871
13,014
27,089
Андрій
20,056
0
33,266
11,199
10,005
40,574
25,577
7,058
7,035
Наталія
15,191
33,266
0
22,1
43,235
7,467
8,089
26,209
40,299
Ірина
9,019
11,199
22,1
0
21,137
29,378
14,383
4,176
18,216
Віталій
30,054
10,005
43,235
21,137
0
50,502
35,461
17,042
3,026
Оксана
22,561
40,574
7,467
29,378
50,502
0
15,065
33,523
47,594
Людмила
7,871
25,577
8,089
14,383
35,461
15,065
0
18,553
32,576
Володимир
13,014
7,058
26,209
4,176
17,042
33,523
18,037
0
14,091
Тетяна
27,089
7,035
40,299
18,216
3,026
47,594
32,576
14,091
0
ОлегЮрій
Андрій
Наталя
Ірина
ВіталійТетяна
Оксана
Людмила
Володимир
ОлегЮрій
0
20,056
15,056
9,019
30,054
22,561
7,871
13,014
Андрій
20,056
0
33,266
11,199
10,005
40,574
25,577
7,058
Наталія
15,191
33,266
0
22,1
43,235
7,467
8,089
26,209
Ірина
9,019
11,199
22,1
0
21,137
29,378
14,383
4,176
ВіталійТетяна
30,054
10,005
43,235
21,137
0
50,502
35,461
17,042
Оксана
22,561
40,574
7,467
29,378
50,502
0
15,065
33,523
Людмила
7,871
25,577
8,089
14,383
35,461
15,065
0
18,553
Володимир
13,014
7,058
26,209
4,176
17,042
33,523
18,037
0

10.

ОлегЮрійЛюдмила
АндрійВіталійТетяна
НаталяОксана
ІринаВолодимир
ОлегЮрійЛюдмила
0
35,461
22,561
14,383
АндрійВіталійТетяна
35,461
0
50,502
21,137
НаталяОксана
22,561
50,502
0
29,378
ІринаВолодимир
14,383
21,137
29,378
0
ОлегЮрійЛюдмилаІринаВол
одимир
АндрійВіталійТетя
на
НаталяОкса
на
ОлегЮрійЛюдмилаІринаВолодим
ир
0
35,461
29,378
АндрійВіталійТетяна
35,461
0
50,502
НаталяОксана
29,378
50,502
0
ОлегЮрійЛюдмилаІринаВолоди
мирНаталяОксана
АндрійВіталі
йТетяна
ОлегЮрійЛюдмилаІринаВолоди
мирНаталяОксана
0
50,502
АндрійВіталійТетяна
50,502
0

11.

ДЕНДОГРАМА

12.

ПЕРЕВАГИ ТА НЕДОЛІКИ
ПЕРЕВАГИ
НЕДОЛІКИ
• Метод дозволяє створювати ієрархічні
дерева кластерів (дендрограми)
• Метод може бути дуже обчислювально
витратним
• Метод найвіддаленішого сусіда може
добре виявляти аномалії або викиди у
даних
• Ієрархічна кластеризація може видатися
складною для інтерпретації
• Метод не потребує заздалегідь
встановленої кількості кластерів

13.

ВИСНОВОК
• Під час виконання лабораторної роботи, я здобула навички аналітичного
розв'язання завдання кластеризації об'єктів у вибірці та успішно
побудувала дендрограму як результат цього розв'язку.
English     Русский Правила