Графическое суммирование данных
Описание данных
Значение
Графические методы
Исторически
Графические методы
Некоторые технические детали
Форматы
Графические методы для представления распределения данных
Эмпирическое распределение количественного показателя
Гистограмма
Гистограмма
Коробчатый график (box plot).
График "ствол с листьями" (stem-and-leaf).
«Стебель с листьями»
Точечный гафик
График ядерной плотности (kernel density)
График Каплана-Мейера
График Каплана-Мейера
График Каплана-Мейера
Методы представления связи
Количественная vs количественная
Диаграмма рассеяния
График двумерной ядерной плотности (контурная карта)
Линейный график
Качественные vs. количественные
Лесной график
Диаграмма-звезда
Качественные vs качественные
Новые типы графиков для качественных показателей
Четырехпольный график
Особые виды графиков
711.50K
Категория: ИнформатикаИнформатика

Графическое суммирование данных

1. Графическое суммирование данных

2. Описание данных

• Описание данных является одной из
важнейших задач статистики
– Причем статистики в целом, а не только
экспериментальной/ выборочной
статистики
– Описательная статистика – это то, что
обычно понимается под словом статистика
(в противоположность биометрии)
– Основные методы – графические и
численные

3. Значение

• Мощный инструмент передачи
информации о данных
• Представление простых изображений
• Обнаружение выбросов и тенденций
ДО ТОГО, как будет …
• Планирование анализа

4. Графические методы

• Суммарное изображение полученных
данных
• Научная графика
– Высокая плотность данных - суммирование
• Иллюстрации
– Невысокая плотность данных –
эстетическая функция

5. Исторически

• Столбиковые диаграммы
– Прерывистые переменные
• Линейные диаграммы
– Непрерывные переменные
Отдельно развивалось использование картограмм

6. Графические методы

• Изображение, как минимум, двумерно.
Графические методы всегда
анализируют связь показателей
• Этими показателями могут быть
– Различные переменные
• Графики звисимостей/ переменных
– Количество наблюдений в зависимости от
значения
• Графики распределения

7. Некоторые технические детали

• Изображения делаются, чаще всего на компьютере
• Два вида графики:
– Растровая (точечная) – фактически, аналог фотографии
– Векторная (описание линий и фигур) – фактически, специализированный
язык
• Проблемы
– Растровая – разрешение должно быть публикационным, занимают много
места
– Векторная – на другом компьютере может интерпретироваться не
правильно
• Цветовая палитра
– Надо помнить про конечный носитель
• Черно-белый: надо делать штриховку
• Цветной: как будет выполняться цветоделение

8. Форматы

• Растровые
– JPEG, TIFF, PNG, GIF
• Векторные
– WMF, CGM, EPS (?)

9. Графические методы для представления распределения данных

• Качественные/ количественные
– Распределение качественного показателя
лучше описывать таблицами
– Эмпирическое распределение
количественного показателя

10. Эмпирическое распределение количественного показателя


Гистограмма
Коробчатый график
Ствол-с-листьями
Точечный график
График ядерной плотности
График Каплана-Мейера

11. Гистограмма

12. Гистограмма

0.000
0.005
0.010
0.015
0.020
Доля наблюдений
0.025
0.030
Гистограмма
Гистограмма
20
30
40
50
60
Значения
70
80
90

13. Коробчатый график (box plot).

• Предложен Тьюки в рамках
исследовательского анализа данных
• В реальности комбинирует численные
и графические методы
• Базируется на оценке процентилей

14.

Скелетный коробчатый график

15.

Схематичный коробчатый график

16.

50
40
30
20
значения
60
70
80
Коробчатый график
группа 1
группа 2

17. График "ствол с листьями" (stem-and-leaf).

График "ствол с листьями"
(stem-and-leaf).
• Также предложен Тьюки
• Близкий родственник гистограммы
• Позволяет на график вынести все
имеющиеся данные, по этой причине
наиболее информационно-насыщенный
• Подходит для малых и средних групп

18. «Стебель с листьями»

• Стебель – основная часть значения элемента, часть
числа слева от десятичной точки
• Листья – упорядоченная последовательность цифр
(отброшенных, менее значимых)
• Отображаются все значения данных
• Используется для упорядочивания данных и выявления
диапазона данных
• Характеризует степень однородности данных
Пример. Если заданы возраста людей, страдающих определенным
заболеванием: 42, 44, 45, 45, 51, 53, 56, 59, 60, 61, 62, 63,
то их можно отобразить следующим образом:
4 2,4,5,5
5 1,3,6,9
6 0,1,2,3

19.

Ствол Лист
#
7 8
1
7 0
1
6 5557
4
6 00000111123
11
5 556677788999
12
5 0000111122233344
16
4 5555666677888999999999
22
4 000113333334
12
3 566777788888899
15
3 00334
5
2 6
1
----+----+----+----+-Multiply Stem.Leaf by 10**+1

20.

The
2
3
3
4
4
5
5
6
6
7
decimal point is 1 digit(s) to the right of the |
| 679
| 2223344
| 56777788899
| 001222223344
| 5566666777888999
| 0000011112222233444
| 5566667777778889
| 00011222334
| 566
| 03

21. Точечный гафик

• Самостоятельно используется не часто,
только если много наблюдений в классе
(в принципе много наблюдений/ мало
классов)
• Фактически аналог ствола с листьями в
случае, если шаг веток равен единице
измерения.

22.

количество наблюдений
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
20
30
40
50
переменная
60
70
80

23. График ядерной плотности (kernel density)

• Улучшенный вариант гистограммы
• Визуально позволяет лучше
обнаружить асимметрию
• Можно строить семейства графиков с
разной степенью сглаживания

24.

Плотность
0.040
0.038
0.036
0.034
0.032
0.030
0.028
0.026
0.024
0.022
0.020
0.018
0.016
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
20
30
40
50
Переменные
60
70
80

25.

0.02
0.01
0.00
Плотность
0.03
0.04
График ядерной плотности
20
30
40
50
переменная
60
70
80

26.

zfreq
1.0
1.5
2.0
2.5
8
6
0.5
0.0
2
4
6
0
x -- наблюдаемые значения
2
4
1.0
1.5
x -- наблюдаемые значения
0.0
0.5
zfreq
zfreq
4
2
0
0
0
2
4
x -- наблюдаемые значения
6
6

27.

0.03
0.02
0.01
0.00
Плотность
0.04
0.05
График ядерной плотности
20
30
40
50
60
переменная
70
80
90

28. График Каплана-Мейера

• Формально - вариант линейного
графика – ступенчатого графика
(представление дискретно меняющихся
значений при помощи линейного
графика)
• Используется для представления
оценки эмпирической кривой
выживаемости по Каплану-Мейеру

29. График Каплана-Мейера

0.0
0.2
0.4
0.6
0.8
1.0
График Каплана-Мейера
0
500
1000
1500
2000
2500
3000

30. График Каплана-Мейера

1.0
График Каплана-Мейера
0.0
0.2
0.4
0.6
0.8
time<-c(9 , 13, 13, 18, 23, 28, 31,
34, 45, 48, 161, 5, 5, 8, 8, 12,
16, 23, 27, 30, 33, 43, 45)
status<-c(1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0,
1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1)
group<-c(rep(1,11),rep(0,12))
0
50
100
150

31. Методы представления связи

• Две переменные, поэтому:
– Количественная vs количественная
– Количественная vs качественная
– Качественная vs качественная

32. Количественная vs количественная


Диаграмма рассеяния
Двумерный график ядерной плотности
Мешковидный график
Линейные графики

33.

34. Диаграмма рассеяния

140
120
100
y
160
180
Диаграмма рассеяния
120
140
160
x
180
200

35.

80
60
40
ДАД, мм рт. ст.
100
Мешковидный график
80
100
120
САД, мм рт.ст.
140
160

36. График двумерной ядерной плотности (контурная карта)

259
САД, мм рт.ст.
215
172
128
84
47.00
70.25
93.50
ДАД, мм рт.ст.
116.75
140.00

37.

График двумерной ядерной плотности (G3D)
Плотность
0.00126
0.00084
140
0.00042
109
78 ДАД, мм рт.ст.
0.00000
259
201
САД, мм рт.ст.
142
84
47

38. Линейный график

39. Качественные vs. количественные

• Столбиковые диаграммы средних
• Линейные диаграммы средних
• Лесной график (точнее, точечный
график средних, «лесным» он
становится в выборочной статистике)
• Диаграмма-звезда/ паутина

40.

100
Death Rates in Virginia
0
20
40
60
80
Rural Male
Rural Female
Urban Male
Urban Female
70-74
Mean 60.35
Столбиковая диаграмма
65-69
Mean 40.4
60-64
Mean 25.88
55-59
Mean 16.93
Faked 95 percent error bars
50-54
Mean 11.05

41.

3.5
2.0
2.5
3.0
Log Odds Ratio
4.0
4.5
5.0
Одышка и хрипы у шахтеров
25-29
30-34
35-39
40-44
45-49
50-54
Возрастные группы
Линейная диаграмма логарифма отношения шансов
55-59
60-64

42. Лесной график

43. Диаграмма-звезда

44. Качественные vs качественные

• Столбиковые диаграммы количества
– Аналог гистограмм
• Новые типы
– Четырехпольный график
– Диаграмма-сито
– Диаграмма-мозаика
– Триплот

45.

46.

47.

48.

20
10
0
Количество
30
40
Количество обследованных в группах
плацебо : ж
плацебо : м
препарат : ж
Группа
препарат : м

49. Новые типы графиков для качественных показателей

• Базируются на понятии независимости
строк и столбцов таблицы
• Отражают связь
• Легко расширяются для статистического
тестирования – фактически основой
построения графиков является
методология оценки хи2.

50. Четырехпольный график

51.

Мозаика

52.

Сито

53.

Улучшение на фоне терапии
значительное
80
60
Ж:препарат
40
М:препарат
20
Ж:плацебо
М:плацебо
нет
некоторое

54.

Улучшение на фоне терапии
выраженное
0.8
0.6
Ж:препарат
0.4
М:препарат
0.2
Ж:плацебо
М:плацебо
нет
некоторое

55. Особые виды графиков

• Картограммы
– Карты в комбинации с точечными, столбиковыми
диаграммами или кодирование цветом
• Психометрические графики
– Лица Чернова
– MDS
– Факторные нагрузки
• Диагностические графики
– ROC кривые

56.

ВИЧ в РФ, 2006 год

57.

1.0
0.8
0.6
True positive rate
0.4
0.2
0.0
0.0
0.2
0.4
0.6
False positive rate
0.8
1.0
English     Русский Правила