Введение в методы статистического анализа многомерных объектов
1.
ВВЕДЕНИЕ В МЕТОДЫ СТАТИСТИЧЕСКОГОАНАЛИЗА МНОГОМЕРНЫХ ОБЪЕКТОВ
ВСЕ, ЧЕГО НЕЛЬЗЯ ВЫРАЗИТЬ В ЦИФРАХ,
НЕ НАУКА, А ПРОСТО МНЕНИЕ
Роберт Хайнлайн
ЗАКОНЫ МАТЕМАТИКИ, ИМЕЮЩИЕ КАКОЕ-ЛИБО
ОТНОШЕНИЕ К РЕАЛЬНОМУ МИРУ, НЕНАДЕЖНЫ;
А НАДЕЖНЫЕ МАТЕМАТИЧЕСКИЕ ЗАКОНЫ
НЕ ИМЕЮТ ОТНОШЕНИЯ К РЕАЛЬНОМУ МИРУ
Альберт Эйнштейн
ГОРАЗДО ЛЕГЧЕ ЧТО-ТО ИЗМЕРИТЬ, ЧЕМ ПОНЯТЬ,
ЧТО ИМЕННО ВЫ ИЗМЕРЯЕТЕ
Дж. Салливен
2.
Индексы сходстваB
А
C
3.
Бабочки Стрекозы1
0
1
0
1
0
0
1
1
0
1
0
1
1
1
1
0
1
1
1
0
1
0
1
0
1
1
0
1
1
0
1
1
1
1
1
1
1
1
1
1
1
Жуки
Клопы
0
1
0
0
0
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
Клещи
0
1
1
0
0
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4.
БС
Ж
Кп
Кщ
Б
1
0,95
0,49
0,63
0,10
С
Ж
Кп
Кщ
1
0,44
0,58
0,09
1
0,68
0,19
1
0,19
1
5. Кластерный анализ
6.
Бабочки0,927
0,961
0,615
0,969
1,700
0,971
0,331
1,208
1,117
0,459
1,004
1,278
1,047
0,525
0,332
1,237
1,936
0,311
0,397
0,275
1,512
Жуки
2,734
3,514
1,004
2,486
0,961
4,065
0,578
0,961
4,622
3,620
3,850
3,636
2,241
0,413
5,102
2,276
0,077
0,390
0,049
1,120
0,038
Клопы
4,279
3,796
7,607
1,915
5,490
5,653
7,758
1,536
6,844
3,702
7,561
2,306
0,126
5,258
6,493
1,400
8,199
6,915
3,922
8,055
8,319
Стрекозы
0,298
1,156
1,379
0,045
0,545
2,045
0,420
0,361
0,782
1,816
1,320
1,785
0,720
2,354
0,975
0,254
1,910
2,129
2,325
2,011
1,876
Клещи
0,078
0,136
0,123
0,192
0,200
0,138
0,138
0,065
0,195
0,058
0,087
0,083
0,118
0,017
0,092
0,003
0,163
0,143
0,194
0,041
0,080
7.
8.
9.
ИНДЕКСЫ СХОДСТВАДЛЯ КОЛИЧЕСТВЕННЫХ ДАННЫХ
• БРЕЯ-КЁРТИСА (BRAY-CURTIS):
S B C
n
1
(n
1i
n2 i
1i
n2 i )
( min(
R
p1i ; p2 i ))
R
R
• ПИАНКИ (PIANKA)(ЧУВСТВИТЕЛЕН К
РАЗЛИЧИЯМ В ДОМИНАНТАХ)
S PI
n
n
n2 i
1i
2
1i
2
n2
i
• ЭВКЛИДОВО РАССТОЯНИЕ:
DEU
(n
1i
n2 i ) 2
10.
АНАЛИЗ СХОДСТВАR ВИДОВ Q ПРОБ
R R ВИДОВ
Q Q ПРОБ
11.
12.
СПОСОБЫ ОБЪЕДИНЕНИЯ ГРУПП ОБЪЕКТОВМЕТОД
БЛИЖАЙШЕГО СОСЕДА
(SINGLE LINKAGE)
МЕТОД
ДАЛЬНЕГО СОСЕДА
(COMPLETE LINKAGE)
МЕТОД СРЕДНЕГО
ПРИСОЕДИНЕНИЯ
(GROUP AVERAGE)
13.
МЕТОДБЛИЖАЙШЕГО
СОСЕДА
Hydrobia ulvae
Macoma baltica
Nereis pelagica
Mya arenaria
Tubifex spp.
Paranais littoralis
Littorina saxatilis
Littorina littorea
Cricotopus vitripenis
Pygospio elegans
Peloscolex benedeni
Scoloplos armiger
Arenicola marina
Mytilus edulis
Eteone longa
20
40
60
80
100
14.
МЕТОДДАЛЬНЕГО
СОСЕДА
Hydrobia ulvae
Macoma baltica
Mya arenaria
Nereis pelagica
Paranais littoralis
Littorina saxatilis
Littorina littorea
Mytilus edulis
Tubifex spp.
Arenicola marina
Eteone longa
Cricotopus vitripenis
Pygospio elegans
Peloscolex benedeni
Scoloplos armiger
0
20
40
60
80
100
15.
Внимание!Далее будет по-настоящему многомерная статистика
16.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ(PRINCIPAL COMPONENT ANALYSIS, PCA)
ПРЕДПОЛАГАЕТСЯ, ЧТО
ПРИЗНАКИ СВЯЗАНЫ
МЕЖДУ СОБОЙ ЛИНЕЙНО
ТОГДА ОСИ - ЛИНЕЙНЫЕ
КОМБИНАЦИИ ПРИЗНАКОВ
Y1 = a1 XA+ b1 XB
Оби
лие
Вид
А
Y1
Вид B
Вид
A
Вид
B
Ось ординации
17.
18.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ(PRINCIPAL COMPONENT ANALYSIS)
ОСИ - ЛИНЕЙНЫЕ
КОМБИНАЦИИ ПРИЗНАКОВ
Вид
А
ПЕРВАЯ ОСЬ (КОМПОНЕНТА) НАПРАВЛЕНИЕ НАИБОЛЬШЕГО
РАЗБРОСА ТОЧЕК
Y1
Y2
Y1 = a1 XA+ b1 XB
Вид B
19. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)
Данные без структуры0.6
0.6
X2
0.4
0.4
0.2
0.2
X1
0
-0.6
-0.4
Данные со скрытой структурой
-0.2
0
0.2
0.4
0.6
ГК1
X2
X
X 11
0
-0.6
-0.4
-0.2
0
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
0.2
0.4
0.4
0.6
0.6
20. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (PRINCIPAL COMPONENT ANALYSIS)
ГК 1ВТОРАЯ ОСЬ НАПРАВЛЕНИЕ
НАИБОЛЬШЕГО
РАЗБРОСА ТОЧЕК,
ПЕРПЕНДИКУЛЯРНОЕ ПЕРВОЙ
ГК 2
21.
ПРИМЕР:ОРДИНАЦИЯ СТАНЦИЙ ПО ФАКТОРАМ СРЕДЫ
2
B3
PCA2
1
C3
0
A6
C4
C2 C1
C5
C7
A3
A5
A4
B4
B5
C6
B2
A2 A7
B7
-1
B1
B6
-2
-3
-2
A1
-1
0
PCA1
1
2
22.
23.
24.
4M ytilus_edulis
3
Littorina
2
C7
Littorina_saxatilis
Axis 2
1
0
-1
-2
C1
B2
Nereis_pelagica
M ya_arenaria
B6
B5
C4 Peloscolex_benedeni
Pygo
B
B1
7
C6
B3
C2
C3
B4
C5 A5
Scoloplos_armiger
M acoma_baltica
Fabricia_
A6
A4
A7
Hydrobia_ulvae
A2
A3
Paranais_littoralis
A1
Eteone_longa
-3
Arenicola_marina
Tubifex_spp.
-1
0
1
2
3
4
5
25.
МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ(MULTIDIMENSIONAL SCALING)
ЗАДАЧИ:
• ВИЗУАЛИЗАЦИЯ ДАННЫХ О
СХОДСТВЕ
• УМЕНЬШЕНИЕ РАЗМЕРНОСТИ
РАСПОЛАГАЕТ ОБЪЕКТЫ ТАК, ЧТОБЫ
РАССТОЯНИЯ МЕЖДУ НИМИ
СООТВЕТСТВОВАЛИ ВЕЛИЧИНАМ
НЕСХОДСТВА
26.
ПРИМЕР МНОГОМЕРНОГОШКАЛИРОВАНИЯ:
Metab. на площ.
20х20 см
ОРДИНАЦИЯ СТАНЦИЙ ПО ОБИЛИЮ ВИДОВ
Stress: 0.
C7
C4
A7
C1
C3
A6
A4
A2
C2
A3
A5
B4
B2
C6B3
B7
B5 B1
C5
B6
A1
27.
ОРДИНАЦИЯ СТАНЦИЙПО ОБИЛИЮ
Metab. на площ.
20х20 см ВИДОВ
(МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ)
Stress: 0.
C7
C4
A7
C1
C3
A6
A4
A2
C2
A3
A5
B4
B2
C6B3
B7
B5 B1
C5
B6
A1