ЛЕКЦИЯ 12
12.1. Понятие о многомерной совокупности
Многомерная матрица данных размером n*m:
Двухмерная совокупность данных
Трехмерная совокупность данных:
Наиболее распространенные методы многомерного анализа:
Общий подход всех многомерных методов:
12.2. Кластерный анализ
Евклидова мера расстояния между объектами:
Евклидово расстояние (Euclidian distance):
Манхэттенское расстояние (=сити-блок метрика) (Manhattan distance = city-block distance):
Пример из гидробиологии:
Результаты обследования станций
Стандартизация матрицы:
Стандартизованные результаты обследования станций
Результат кластеризации (дендрограмма):
Пример дендрограммы:
Матрица сходства для данных по бентосу Loch-Linne:
Возможные способы объединения объектов в кластеры:
Рассчитываем новую матрицу:
Строим дендрограмму:
12.3. Дискриминантный анализ
Задача дискриминантного анализа:
Визуально самцы и самки у этого вида не различаются; многие морфологические признаки (длина крыла, хвоста, цевки) довольно
Трансгрессия значений длины крыла у самцов и самок весничек
Трансгрессия значений длины цевки у самцов и самок весничек
Уравнение дискриминантного анализа для двух признаков:
Интерпретация:
12.4. Анализ главных компонент
Измерение облака рассеяния объектов следует проводить в направлении наибольшего разброса
Сообщество с двумя видами:
Ординация станций в координатах численностей двух видов
Одномерная ординация тех же станций (выполнена путем проецирования точек на ось первого вида)
Построение осей первой и второй главных компонент (PC1 и PC2)
Расположение станций в координатах главных компонент
Сообщество с тремя видами:
Трехмерная ординация станций
Трехмерная ординация в алгебраическом виде
Важное свойство главных компонент:
Трехмерная ординация станций
459.00K
Категория: МатематикаМатематика

Введение в многомерную статистику. Лекция 12

1. ЛЕКЦИЯ 12

ВВЕДЕНИЕ В
МНОГОМЕРНУЮ
СТАТИСТИКУ

2. 12.1. Понятие о многомерной совокупности

3. Многомерная матрица данных размером n*m:

х1 х2 х3 … хn
у1 … … … … …
у2 … … … … …
у3

уm

4. Двухмерная совокупность данных

70
60
50
Y
40
30
20
10
0
5
10
15
20
25
30
X
35
40
45
50

5. Трехмерная совокупность данных:

6. Наиболее распространенные методы многомерного анализа:

• Кластерный анализ (Cluster
Analysis);
• Дискриминантный анализ
(Discriminant Analysis);
• Компонентный анализ (=анализ
главных компонент) (Principal
Components Analysis, РСА)

7. Общий подход всех многомерных методов:

d2
d1
d3

8. 12.2. Кластерный анализ

9. Евклидова мера расстояния между объектами:

d jk
(
x
x
)
ij ik
2
M
xij и xik – значения i-го признака у j-го и k-го
объектов, М – число учитываемых
признаков.

10. Евклидово расстояние (Euclidian distance):

S2
S1

11. Манхэттенское расстояние (=сити-блок метрика) (Manhattan distance = city-block distance):

S2
S1

12. Пример из гидробиологии:

ЗАВОД
ГОРОД
S1
S2
S3
S4
S5

13. Результаты обследования станций

Вид 1
Вид 2
Температура
HCO3
Кислород
Средние
Ст. отклон
Выше города Место сброса
145
20
120
31
20
21.1
19.3
19.2
18
6
64.46
19.46
62.7
8.9
Город
21
37
21
19.2
8
21.24
10.3
На выходе
69
75
20.5
19.5
10
38.8
30.7
Ниже города
120
80
21
20
18
51.8
46.2

14. Стандартизация матрицы:

xi x
x
s
x 0 s 1

15. Стандартизованные результаты обследования станций

Вид 1
Вид 2
Температура
HCO3
Кислород
Выше города Место сброса
1.28
0.06
0.89
1.30
-0.71
0.18
-0.72
-0.03
-0.74
-1.51
Город
На выходе Ниже города
-0.02
0.99
1.48
1.52
1.18
0.61
-0.02
-0.60
-0.67
-0.20
-0.63
-0.69
-1.28
-0.94
-0.73

16. Результат кластеризации (дендрограмма):

3.0
Евклидово расстояние
2.5
2.0
1.5
1.0
0.5
0.0
S4
S3
S2
S5
S1

17. Пример дендрограммы:

S
1
6
5 3 2
4
7
Станции

18. Матрица сходства для данных по бентосу Loch-Linne:

Проба
1
1
-
2
2
25
-
3
0
67.9
-
4
52.2
68.1
42
3
4
-

19. Возможные способы объединения объектов в кластеры:

• одиночное присоединение (single
linkage): выбирается максимальное из
исходных сходств;
• полное присоединение (complete linkage):
выбирается наименьшее из исходных
сходств;
• среднее присоединение (group-average
linkage): S(1, 2&4) = [S(1,4)+ + S(1,2)]/2 =
38.9%

20. Рассчитываем новую матрицу:

Проба
1
1
-
2&4
2&4
38.9
-
3
0
55.0
3
-

21. Строим дендрограмму:

S
26
55
68
2
4
3
1
Проба

22. 12.3. Дискриминантный анализ

23. Задача дискриминантного анализа:

Определить, к какой из двух
или более априорно
выделенных групп
принадлежит изучаемый
объект.

24. Визуально самцы и самки у этого вида не различаются; многие морфологические признаки (длина крыла, хвоста, цевки) довольно

сильно
перекрываются.
Phylloscopus trochilus

25. Трансгрессия значений длины крыла у самцов и самок весничек

20%

26. Трансгрессия значений длины цевки у самцов и самок весничек

90%

27. Уравнение дискриминантного анализа для двух признаков:

Z ax by H Z
• а и b - «вклад» каждого из признаков в
диагностические возможности функции;
• Н – величина, отражающая степень
трансгрессии распределений Z для самок
и самцов;
• ΔZ - поправка на разные объемы выборок

28. Интерпретация:

• Z < 0 - самка
• Z > 0 - самец

29. 12.4. Анализ главных компонент

30.

Ординация - картирование взаимного
расположения станций отбора проб в
особой двух- или трехмерной
системе координат, направленное на
выявление сходств биологических
сообществ на этих станциях.

31. Измерение облака рассеяния объектов следует проводить в направлении наибольшего разброса

70
С1
60
50
Y
40
С2
30
С3
20
10
0
5
10
15
20
25
30
X
35
40
45
50

32. Сообщество с двумя видами:

Станция (=проба)
Вид
1
2
3
4
5
6
7
8
9
Вид 1
6
0
5
7
11
10
15
18
14
Вид 2
2
0
8
6
6
10
8
14
14

33. Ординация станций в координатах численностей двух видов

Вид 2
8
9
6
3
4
5
7
1
2
Вид 1

34. Одномерная ординация тех же станций (выполнена путем проецирования точек на ось первого вида)

2
314
65
97
8
Вид 1

35. Построение осей первой и второй главных компонент (PC1 и PC2)

Вид 2
8
9
РС1
6
7
3
РС2
4
5
1
2
Вид 1

36. Расположение станций в координатах главных компонент

РС2
3
9
6
2
8
4
1
5
7
РС1

37. Сообщество с тремя видами:

Станция (=проба)
Вид
1
2
3
4
5
6
7
8
9
Вид 1
6
0
5
7
11
10
15
18
14
Вид 2
2
0
8
6
6
10
8
14
14
Вид 3
3
1
6
6
9
11
10
16
15

38. Трехмерная ординация станций

Вид 3
РС3
РС1
РС2
Вид 2
Вид 1

39. Трехмерная ординация в алгебраическом виде


РС1 = 0.62хВид 1 + 0.52хВид 2 +
0.58Вид 3
РС2 = -0.73хВид 1 + 0.65хВид 2 +
0.20Вид 3
РС3 = 0.28хВид 1 + 0.55хВид 2 0.79Вид 3

40. Важное свойство главных компонент:

var(
PC
)
var(
Вид
)
i
i

41. Трехмерная ординация станций

Вид 3
РС3 (1%)
РС1 (93%)
РС2 (6%)
Вид 2
Вид 1

42.

Можно считать, что если главные
компоненты в сумме объясняют
70-75% дисперсии, то их вполне
достаточно для описания всей
структуры данных.

43.

Результат компонентного анализа
Пример из гидробиологии:
П
1.0
р
и
м
е
р
и
з
г
и
д
р
о
б
и
о
л
о
г
и
ЗАВОД
ГОРОД
S5
S1
S1
0.5
S2
S3
Factor 1 : 71.4%
S4
S5
0.0
S2
S3
S4
-0.5
-1.0
-1.0
-0.5
0.0
Factor 2 : 24.6%
0.5
1.0
и
English     Русский Правила