Лекция 1 Описательная статистика: основные понятия
Информационная пирамида
Методы анализа данных
Генеральная и выборочная совокупности
Основные понятия
Интервальный вариационный ряд
Пример
Построение интервального вариационного ряда
Гистограмма и полигон
Кумулятивная кривая
Центральная тенденция
Центральная тенденция
Центральная тенденция
Дисперсия
Асимметрия
Эксцесс
Доверительные интервалы
Распределение Стьюдента
Распределение χ2
2.38M
Категория: МатематикаМатематика

Описательная статистика: основные понятия. Лекция 1

1. Лекция 1 Описательная статистика: основные понятия

Основы обработки данных
Лекция 1
Описательная статистика: основные понятия
Лектор: Аникеева Александра Евгеньевна

2. Информационная пирамида

3. Методы анализа данных

Статистические:
Кибернетические:
Дескриптивный анализ.
Анализ природы данных
(проверка гипотез
стационарности,
нормальности, однородности,
оценка вида функции
распределения).
Анализ
связей (корреляционный и
регрессионный
анализ, факторный
анализ, дисперсионный
анализ).
Многомерный статистический
анализ .
Методы классификации.
Кластерный анализ.
Искусственные
нейронные
сети (распознавание,
прогноз).
Деревья решений.
Методы ближайшего
соседа и k-ближайшего
соседа
Системы обработки
экспертных знаний.

4. Генеральная и выборочная совокупности

Генеральная совокупность - вся
совокупность изучаемых объектов,
интересующая исследователя.
Выборка - часть генеральной
совокупности, определенным
способом отобранная с целью
исследования и получения
выводов о свойствах и
характеристиках генеральной
совокупности.

5.

1. Номинальная шкала
2. Порядковая шкала
3. Интервальная шкала
Виды шкал
5. Дихотомическая шкала
4. Относительная шкала

6. Основные понятия

Случайной величиной X называется величина, которая в результате
опыта (или испытания) принимает какое-либо значение
Пусть в результате независимых испытаний, проведенных в одинаковых
условиях, получены числовые значения признака X{x(1),x(2), …,x(n)}, где
n—объем выборки.
Статистикой называется некоторая произвольная функция от выборки.
Вариационным рядом (статистическим распределением) называется
ранжированный в порядке возрастания (или убывания) ряд вариант:x1, x2,
. . .,xn(x1≤x2≤ . . . ≤xn).
Варианты,xi
x1
x2
...
xk
Частоты,ni
n1
n2
...
nk

7. Интервальный вариационный ряд

1. Вычисляют размах R варьирования признака Х как разность между
наибольшим xmax и наименьшим xmin значениями признака:
R =xmax-xmin.
2. Размах R варьирования признака Х делится на k равных частей. Число k
выбирают, пользуясь одним из следующих правил:
k n
k 1 log 2 n 1 3,221 lg n
3. Длина h каждого частичного интервала определяется по формуле: h=R/k.
4. За начало x0 первого интервала рекомендуется[6] брать величину x0=xmin0,5h.
5. Конец xk последнего интервала находят по формуле xk=xmax+0,5h.
Вариантыинтервалы,
( xi-1 ;xi )
Частоты,ni
[x0 ; x1]
( x1 ;x2]
...
( xk-1; xk]
n1
n2
...
nk

8. Пример

0.79
0.88
0.95
0.90
0.84
0.78
0.97
0.82
0.86
0.81
0.88
0.85
0.88
0.85
0.79
0.90
0.90
0.88
0.82
0.96
0.89
0.94
0.84
0.98
0.85
0.86
0.90
0.89
0.91
0.80
0.81
0.87
0.98
0.86
0.87
0.99
0.91 0.80 0.87
0.91 0.78 0.86
0.91 0.90 0.82
0.85
(xi-1;xi]
[0.7950.825)
[0.8250.855)
[0.8550.885)
[0.8850.915)
[0.9150.945)
[0.9450.975)
[0.9751.005)
Интервальный вариационный ряд
[0.7650.795)
.90
.89
.91
.85
Исходные данные
ni
4
7
7
11
14
1
3
3
Дискретный вариационный ряд
xi 0.78
ni 4
0.81
7
0.84
7
0.87
11
0.9
14
0.93
1
0.96
3
0.99
3

9. Построение интервального вариационного ряда

1. Рассчитаем размах варьирования:
,
R xmax xmin 0.99 0.78 0.21
где xmin – наименьшая варианта данной выборочной совокупности;
.
xmax – наибольшая варианта данной выборочной совокупности.
2. Вычислим число равных частей, на которое нужно разделить размах
варьирования:
k n 50 7
3. Вычислим шаг h (длину интервалов):
R 0.21
h
0.03
k
7
4. Вычислим начальное значение первого интервала x0 и конечное значение
последнего интервала xk:
x0 xmin 0.5 h 0.78 0.5 0.03 0.765
xk xmax 0.5 h 0.99 0.5 0.03 1.005

10. Гистограмма и полигон

Гистограммой называется ступенчатая фигура, для построения которой по
оси абсцисс откладывают отрезки, изображающие частичные интервалы (xi1;xi) варьирования признака Х, и на этих отрезках, как на основаниях, строят
прямоугольники с высотами, равными частотам соответствующих
интервалов.
Полигоном называется ломанная соединяющая точки с координатами (xi;ni).
16
14
14
12
12
10
10
Частоты
Частоты
16
8
6
8
6
4
4
2
2
0
0,78
0,81
0,84
0,87
0,9
0,93
Варианты-интервалы
0,96
0,99
0
0,75
0,8
0,85
0,9
Варианты
0,95
1

11. Кумулятивная кривая

.
Варианты xi
x1
x2

xk
Относительные
частоты
wi= ni / n
w1= n1 / n
w2= n2/ n

wk= nk / n
Накопленные
относительные
частоты
Wi= Wi-1 + wi
W1= w1
(W0=0)
W2= W1 + w2

Wk=Wk-1 + wk
Эмпирическая функция
распределения
1
F ( x ) ni ,
n xi x
*
n

12. Центральная тенденция

Выборочная средняя
1 n
x xi ,
n i 1
k
1 k
x xi ni , n ni ,
n i 1
i 1
x 0.8724.
Свойства среднего
• При расчете среднего не допускаются пропущенные значения данных.
• Информативность среднего значения переменной высока, если известен
ее доверительный интервал.
• С увеличением размера выборки точность оценки среднего возрастает.
• С увеличением разброса значений выборки надежность среднего падает.
Примечание: При анализе данных средним не следует злоупотреблять, необходимо
учитывать его свойства и ограничения. Известны характеристики "средняя температура
по больнице" или "средняя высота дома", показывающие некорректность использования
этой меры центральной тенденции для некоторых случаев.

13. Центральная тенденция

S M e 1
Центральная тенденция
Медианой Me называют варианту которая делит вариационный ряд на две
равные по числу вариант части.
При нечетном объеме выборки n=2k+1
xk xk 1
Me
,
2
При четном объеме выборки n=2k
xi 0.78
ni 4
0.81
7
0.84
7
0.87
11
Me=xk+1
0.9
14
0.93
1
0.96
3
0.99
3
x25 x26
Me
0.87.
2
Примечание: Для определения медианы выборка должна быть обязательно
упорядочена.

14. Центральная тенденция

Модой Mo называют варианту, которая имеет наибольшую частоту.
xi 0.78
ni 4
0.81
7
0.84
7
0.87
11
0.9
14
0.93
1
0.96
3
0.99
3
M 0 = 0.9.
Коэффициент вариации - меры разброса признака относительно его среднего
значения.
S
V *100%.
x
V
S 0.054279
0.062218 .
0.8724
x
Примечание: Если коэффициент вариации превышает 33%, то это говорит о
неоднородности информации и необходимости исключения самых больших и
самых маленьких значений.

15. Дисперсия

Формула расчета дисперсии для несгруппированных данных
n
n
2
1
1
2
2
2
S ( xi x) xi x
n i 1
n i 1
Формула расчета дисперсии для сгруппированных данных
k
k
2
2
2
i
i
i i
i 1
i 1
2
1
1
S ( x x) n x n x .
n
n
Если объем выборки n>50, то рассчитывают исправленную дисперсию:
n
1
2
s
(
x
x
)
,
i
n 1 i 1
2
S 2 0.002946
k
1
2
s2
(
x
x
)
ni ,
i
n 1 i 1
s 2 0.003006
Выборочное среднеквадратическое отклонение
S S 2 0.002946 0.054279 ,
s s 2 0.003006 0.05483 .

16. Асимметрия

Асимметрия характеризует отклонение
относительного нормального распределения.
распределения
признака
k
As
m3
,
3
S
m3
ni ( xi x) 3
k
1
( xi x) 3 ni .
n i 1
m3 i 1
m3 - центральный момент третьего порядка
График функции плотности
распределения случайной величины с
правосторонней асимметрией
n
0.00223
0.0000446.
50
As 0.278894.
График функции плотности
распределения случайной величины с
левосторонней асимметрией

17. Эксцесс

Эксцесс – величина островершинности.
k
1
m4
m
( xi x) 4 ni .
E x 4 3,
4
n i 1
S
m4 - центральный момент четвертого
порядка
k
n ( x x)
m4 i 1
i
i
n
4
Ex 0.29274057.
0.001175
0.0000235.
50

18. Доверительные интервалы

Для математического ожидания
s
m x t
n
x t
s
n
где, t -γ-квантиль распределения Стьюдента с n-1 степенью свободы.
Примечание: Для поиска
=СТЬЮДРАСПОБР(1- , n-1).
t
можно
воспользоваться
функцией
Excel
Для дисперсии
(n 1) s 2
22
2
p1 P ( )
2
2
1
(n 1) s 2
2
0.045802 0.068326 .
12
12 0.95
2
, 50 1
ХИ2ОБР((1 - 0,95)/2;50 - 1) = 70.2241
12 0.95
ХИ2ОБР((1 + 0,95)/2;50 - 1) = 31.55492
p 2 P( ) 1 1 .
, 50 1
2
2
2
2
2
2

19. Распределение Стьюдента

k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,2
3,08
1,89
1,64
1,53
1,48
1,44
1,41
1,40
1,38
1,37
0,36
0,36
0,35
0,34
0,34
0,34
0,33
0,33
0,33
0,33
0,1
6,31
2,92
2,35
2,13
2,02
1,94
1,89
1,86
1,83
0,81
0,80
0,78
0,77
0,76
0,75
0,75
0,74
0,73
0,73
0,72
q
0,05
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,20
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
0,02
31,82
6,96
4,54
3,75
3,36
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
2,58
2,57
2,55
2,54
2,53
0,01
63,66
9,92
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,05
3,01
2,98
2,95
2,92
2,90
2,88
2,86
2,85
0,005
127,32
14,09
7,45
5,60
4,77
4,32
4,03
3,83
3,69
3,58
3,50
3,43
3,37
3,33
3,29
3,25
3,22
3,2
3,17
3,15
0,002
318,3
22,33
10,21
7,17
5,89
5,21
4,79
4,50
4,30
4,14
4,02
3,93
3,85
3,79
3,73
3,69
3,65
3,61
3,58
3,55
0,001
636,61
31,60
12,92
8,61
6,87
5,96
5,41
5,04
4,78
4,59
4,44
4,32
4,22
4,14
4,07
4,02
3,97
3,92
3,88
3,85

20. Распределение χ2

K
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
p
0,99
0,0002
0,02
0,12
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
0,95
0,004
0,1
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,1
10,9
11,6
12,3
0,90
0,02
0,21
0,58
1,06
1,61
2,20
2,83
3,49
4,17
4,87
5,58
6,3
7,04
7,79
8,55
9,31
10,1
10,9
11,7
12,4
13,2
14,0
0,50
0,46
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,3
11,3
12,3
13,3
14,3
15,3
16,3
17,3
18,3
19,3
20,3
21,3
0,25
1,32
2,77
4,11
5,39
6,63
7,84
9,04
10,2
11,4
12,5
13,7
14,8
16,0
17,1
18,2
19,4
20,5
21,6
22,7
23,8
24,9
26,0
0,10
2,71
4,61
6,25
7,78
9,24
10,6
12,0
13,4
14,7
16,0
17,3
18,5
19,8
21,1
22,3
23,5
24,8
26,0
27,2
28,4
29,6
30,8
0,05
3,84
5,99
7,81
9,49
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
0,025
5,02
7,38
9,35
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
0,01
6,63
9,21
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
0,005 0,001
7,88 10,8
10,6 13,8
12,8 16,3
14,9 18,5
16,7 20,5
18,5 22,5
20,3 24,3
22,0 26,1
23,6 27,9
25,2 29,6
26,8 31,3
28,3 32,9
29,8 34,5
31,3 36,1
32,8 37,7
34,3 39,3
35,7 40,8
37,2 42,3
38,6 43,8
40,0 45,3
41,4 46,8
42,8 48,3
English     Русский Правила