18.80M
Категория: МатематикаМатематика

Кластерный анализ. Часть 2

1.

Кластерный анализ
(классификация)
Классификация
– разбиение множества объектов на несколько
однородных подмножеств (классов) по наиболее
существенным признакам их сходства

2.

3.

Метод одиночной связи

4.

Метод одиночной связи

5.

Метод одиночной связи
7 4
3

6.

Метрики
n
d ( x j , x j 1 )
x
i, j
xi , j 1
i 1
2
Евклида
Т 1 = 10.0 оС S 1 = 34.5 о/oo
Т 2 = 20.0 оС S 2 = 35.5 о/oo
d2 = (Т1-Т2)2 + (S1-S2)2 = 100 + 1 =101
Стандартизация !
t i = (xi – xsr)/СКО
t(Т 1) = (10.0-15.0) оС/5 оС = -1.0
t(S 1) = (34.5-35.0) о/oo / 0.5 о/oo = -1.0
t(Т 2) = (20.0-15.0) оС/5 оС = 1.0
t(S 2) = (35.5-35.0) о/oo / 0.5 о/oo = 1.0
d2 = (t(Т1)-t(Т2))2 + (t(S1)-t(S2))2 = 4 + 4 = 8

7.

Матрица расстояний
т1
т1
т2
т3
т4
т5
т6
т7
0
1.2
1.5
2.3
2.6
2.8
3.6
т2
1.2
0
0.6
1.3
1.6
1.8
2.5
т3
1.5
0.6
0
0.3
0.8
1.3
1.1
т4
2.3
1.3
0.3
0
0.2
0.5
1.6
т5
2.6
1.6
0.8
0.2
0
0.7
2.1
т6
2.8
1.8
1.3
0.5
0.7
0
т7
3.6
2.5
1.1
1.6
2.1
0.9
0.9
0

8.

Метрики
d ( x j , x j 1 ) 1 R
R = 0.95
d = 0.05
R = 0.01
d = 0.99
R = - 0.95
d = 1.95

9.

Матрица корреляций
т1
т1
т2
т3
т4
т5
т6
т7
1.00
0.95
0.89
0.81
0.69
0.50
0.31
т2
0.95
т3
0.89
0.93
1.00
0.93
0.70
0.25
-0.01
-0.30
1.00
0.96
0.15
-0.56
-0.95
т4
0.81
0.70
0.96
1.00
0.84
0.50
0.32
т5
0.69
0.25
0.15
0.84
0.70
0.43
1.00
т7
0.31
-0.30
-0.95
0.32
0.43
0.90
0.90
1.00
1.00
т6
0.50
-0.01
-0.56
0.50
0.70
Матрица расстояний
т1
т2
т3
т4
т5
т6
т7
т1
т2
т3
т4
т5
т6
т7
0.00
0.05
0.11
0.19
0.31
0.50
0.69
0.05
0.00
0.07
0.30
0.75
1.01
1.30
0.11
0.07
0.00
0.04
0.85
1.56
1.95
0.19
0.30
0.04
0.00
0.16
0.50
0.68
0.31
0.75
0.85
0.16
0.00
0.30
0.57
0.50
1.01
1.56
0.50
0.30
0.00
0.10
0.69
1.30
1.95
0.68
0.57
0.10
0.00

10.

Метрики
Евклида - классификация по величине
(значения переменных в одном классе
больше или меньше, чем в другом классе?)
1-R - классификация по изменчивости
(одинаково или по-разному
ведут себя переменные в разных классах)

11.

Методы
Иерархические (одиночной связи, Уорда и др.)
Используют разные виды метрик
Итеративные (k – средних, поиска сгущений)
Используется только Евклидова метрика

12.

Иерархический метод Уорда
+ просто рассчитывается
+ дает компактные группы
+ любые метрики
- требует большого количества
памяти
- не определяется количество
классов
2 кл
3 кл
4 кл
5 кл
n
p
SS xi , j x j ,k
i 1 j 1
2
min

13.

Иерархический метод Уорда
Выбор количества классов?
1. Исходя из задач исследования
2. На основании сравнения классов
Метрика Евклида:
сравнение средних значений переменных
Метрика 1-R:
корреляция между классами

14.

Итеративный метод k-средних
- требует времени для расчета
- количество классов нужно задавать заранее
- только метрика Евклида
+ не требует памяти для матрицы
расстояний
+ рассчитываются функционалы качества
3 класса

15.

Итеративный метод k-средних
Функционалы качества
D MK – МежКлассовое расстояние
D ВК – ВнутриКлассовое расстояние
D1 ОПТ DMK DBK max
D2 ОПТ DMK DBK max

16.

Комментарии к выполнению работы
1
2
3
English     Русский Правила