Кластерный анализ
МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)
МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)
3.14M
Категория: МатематикаМатематика

Введение в методы статистического анализа многомерных объектов

1.

ВВЕДЕНИЕ В МЕТОДЫ СТАТИСТИЧЕСКОГО
АНАЛИЗА МНОГОМЕРНЫХ ОБЪЕКТОВ
ВСЕ, ЧЕГО НЕЛЬЗЯ ВЫРАЗИТЬ В ЦИФРАХ,
НЕ НАУКА, А ПРОСТО МНЕНИЕ
Роберт Хайнлайн
ЗАКОНЫ МАТЕМАТИКИ, ИМЕЮЩИЕ КАКОЕ-ЛИБО
ОТНОШЕНИЕ К РЕАЛЬНОМУ МИРУ, НЕНАДЕЖНЫ;
А НАДЕЖНЫЕ МАТЕМАТИЧЕСКИЕ ЗАКОНЫ
НЕ ИМЕЮТ ОТНОШЕНИЯ К РЕАЛЬНОМУ МИРУ
Альберт Эйнштейн
ГОРАЗДО ЛЕГЧЕ ЧТО-ТО ИЗМЕРИТЬ, ЧЕМ ПОНЯТЬ,
ЧТО ИМЕННО ВЫ ИЗМЕРЯЕТЕ
Дж. Салливен

2.

Индексы сходства
B
А
C

3.

Бабочки Стрекозы
1
0
1
0
1
0
0
1
1
0
1
0
1
1
1
1
0
1
1
1
0
1
0
1
0
1
1
0
1
1
0
1
1
1
1
1
1
1
1
1
1
1
Жуки
Клопы
0
1
0
0
0
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
Клещи
0
1
1
0
0
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0

4.

Б
С
Ж
Кп
Кщ
Б
1
0,95
0,49
0,63
0,10
С
Ж
Кп
Кщ
1
0,44
0,58
0,09
1
0,68
0,19
1
0,19
1

5. Кластерный анализ

6.

Бабочки
0,927
0,961
0,615
0,969
1,700
0,971
0,331
1,208
1,117
0,459
1,004
1,278
1,047
0,525
0,332
1,237
1,936
0,311
0,397
0,275
1,512
Жуки
2,734
3,514
1,004
2,486
0,961
4,065
0,578
0,961
4,622
3,620
3,850
3,636
2,241
0,413
5,102
2,276
0,077
0,390
0,049
1,120
0,038
Клопы
4,279
3,796
7,607
1,915
5,490
5,653
7,758
1,536
6,844
3,702
7,561
2,306
0,126
5,258
6,493
1,400
8,199
6,915
3,922
8,055
8,319
Стрекозы
0,298
1,156
1,379
0,045
0,545
2,045
0,420
0,361
0,782
1,816
1,320
1,785
0,720
2,354
0,975
0,254
1,910
2,129
2,325
2,011
1,876
Клещи
0,078
0,136
0,123
0,192
0,200
0,138
0,138
0,065
0,195
0,058
0,087
0,083
0,118
0,017
0,092
0,003
0,163
0,143
0,194
0,041
0,080

7.

8.

9.

ИНДЕКСЫ СХОДСТВА
ДЛЯ КОЛИЧЕСТВЕННЫХ ДАННЫХ
• БРЕЯ-КЁРТИСА (BRAY-CURTIS):
S B C
n
1
(n
1i
n2 i
1i
n2 i )
( min(
R
p1i ; p2 i ))
R
R
• ПИАНКИ (PIANKA)(ЧУВСТВИТЕЛЕН К
РАЗЛИЧИЯМ В ДОМИНАНТАХ)
S PI
n
n
n2 i
1i
2
1i
2
n2
i
• ЭВКЛИДОВО РАССТОЯНИЕ:
DEU
(n
1i
n2 i ) 2

10.

АНАЛИЗ СХОДСТВА
R ВИДОВ Q ПРОБ
R R ВИДОВ
Q Q ПРОБ

11.

12.

СПОСОБЫ ОБЪЕДИНЕНИЯ ГРУПП ОБЪЕКТОВ
МЕТОД
БЛИЖАЙШЕГО СОСЕДА
(SINGLE LINKAGE)
МЕТОД
ДАЛЬНЕГО СОСЕДА
(COMPLETE LINKAGE)
МЕТОД СРЕДНЕГО
ПРИСОЕДИНЕНИЯ
(GROUP AVERAGE)

13.

МЕТОД
БЛИЖАЙШЕГО
СОСЕДА
Hydrobia ulvae
Macoma baltica
Nereis pelagica
Mya arenaria
Tubifex spp.
Paranais littoralis
Littorina saxatilis
Littorina littorea
Cricotopus vitripenis
Pygospio elegans
Peloscolex benedeni
Scoloplos armiger
Arenicola marina
Mytilus edulis
Eteone longa
20
40
60
80
100

14.

МЕТОД
ДАЛЬНЕГО
СОСЕДА
Hydrobia ulvae
Macoma baltica
Mya arenaria
Nereis pelagica
Paranais littoralis
Littorina saxatilis
Littorina littorea
Mytilus edulis
Tubifex spp.
Arenicola marina
Eteone longa
Cricotopus vitripenis
Pygospio elegans
Peloscolex benedeni
Scoloplos armiger
0
20
40
60
80
100

15.

Внимание!
Далее будет по-настоящему многомерная статистика

16.

МЕТОД ГЛАВНЫХ КОМПОНЕНТ
(PRINCIPAL COMPONENT ANALYSIS, PCA)
ПРЕДПОЛАГАЕТСЯ, ЧТО
ПРИЗНАКИ СВЯЗАНЫ
МЕЖДУ СОБОЙ ЛИНЕЙНО
ТОГДА ОСИ - ЛИНЕЙНЫЕ
КОМБИНАЦИИ ПРИЗНАКОВ
Y1 = a1 XA+ b1 XB
Оби
лие
Вид
А
Y1
Вид B
Вид
A
Вид
B
Ось ординации

17.

18.

МЕТОД ГЛАВНЫХ КОМПОНЕНТ
(PRINCIPAL COMPONENT ANALYSIS)
ОСИ - ЛИНЕЙНЫЕ
КОМБИНАЦИИ ПРИЗНАКОВ
Вид
А
ПЕРВАЯ ОСЬ (КОМПОНЕНТА) НАПРАВЛЕНИЕ НАИБОЛЬШЕГО
РАЗБРОСА ТОЧЕК
Y1
Y2
Y1 = a1 XA+ b1 XB
Вид B

19. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)

Данные без структуры
0.6
0.6
X2
0.4
0.4
0.2
0.2
X1
0
-0.6
-0.4
Данные со скрытой структурой
-0.2
0
0.2
0.4
0.6
ГК1
X2
X
X 11
0
-0.6
-0.4
-0.2
0
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
0.2
0.4
0.4
0.6
0.6

20. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)

ГК 1
ВТОРАЯ ОСЬ НАПРАВЛЕНИЕ
НАИБОЛЬШЕГО
РАЗБРОСА ТОЧЕК,
ПЕРПЕНДИКУЛЯРНОЕ ПЕРВОЙ
ГК 2

21.

ПРИМЕР:
ОРДИНАЦИЯ СТАНЦИЙ ПО ФАКТОРАМ СРЕДЫ
2
B3
PCA2
1
C3
0
A6
C4
C2 C1
C5
C7
A3
A5
A4
B4
B5
C6
B2
A2 A7
B7
-1
B1
B6
-2
-3
-2
A1
-1
0
PCA1
1
2

22.

23.

24.

4
M ytilus_edulis
3
Littorina
2
C7
Littorina_saxatilis
Axis 2
1
0
-1
-2
C1
B2
Nereis_pelagica
M ya_arenaria
B6
B5
C4 Peloscolex_benedeni
Pygo
B
B1
7
C6
B3
C2
C3
B4
C5 A5
Scoloplos_armiger
M acoma_baltica
Fabricia_
A6
A4
A7
Hydrobia_ulvae
A2
A3
Paranais_littoralis
A1
Eteone_longa
-3
Arenicola_marina
Tubifex_spp.
-1
0
1
2
3
4
5

25.

МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ
(MULTIDIMENSIONAL SCALING)
ЗАДАЧИ:
• ВИЗУАЛИЗАЦИЯ ДАННЫХ О
СХОДСТВЕ
• УМЕНЬШЕНИЕ РАЗМЕРНОСТИ
РАСПОЛАГАЕТ ОБЪЕКТЫ ТАК, ЧТОБЫ
РАССТОЯНИЯ МЕЖДУ НИМИ
СООТВЕТСТВОВАЛИ ВЕЛИЧИНАМ
НЕСХОДСТВА

26.

ПРИМЕР МНОГОМЕРНОГО
ШКАЛИРОВАНИЯ:
Metab. на площ.
20х20 см
ОРДИНАЦИЯ СТАНЦИЙ ПО ОБИЛИЮ ВИДОВ
Stress: 0.
C7
C4
A7
C1
C3
A6
A4
A2
C2
A3
A5
B4
B2
C6B3
B7
B5 B1
C5
B6
A1

27.

ОРДИНАЦИЯ СТАНЦИЙ
ПО ОБИЛИЮ
Metab. на площ.
20х20 см ВИДОВ
(МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ)
Stress: 0.
C7
C4
A7
C1
C3
A6
A4
A2
C2
A3
A5
B4
B2
C6B3
B7
B5 B1
C5
B6
A1
English     Русский Правила