ЛЕКЦИЯ 2
2.1. Группировка данных
Обработку данных полезно начать с их группировки…
Группировка количественных данных :
Группировка количественных данных :
Группировка данных в классы, объединяющие несколько вариант:
Какую информацию дает вариационный ряд???
Полигон распределения: данные группируются по значениям вариант
Гистограмма: данные группируются по классам
2.2. Среднее значение и стандартное отклонение
Многие лекционные примеры будут заимствованы из книги C. Гланца Пользуйтесь электронной версией книги (PDF)
Распределение марсиан по росту
Распределение венерианцев по росту
Сходства и различия распределений марсиан и венерианцев по росту
ВЫБОРОЧНАЯ СРЕДНЯЯ (англ.: sample mean) (= средняя арифметическая, среднее значение)
ВЗВЕШЕННАЯ СРЕДНЯЯ (англ.: Weighted mean):
ГЕОМЕТРИЧЕСКАЯ СРЕДНЯЯ (англ.: Geometric mean):
Жители Венеры более однородны по росту, чем марсиане
Показатели вариабельности:
Находим расстояние, на котором находится каждая единица изучаемой выборки от среднего значения:
Усредняем вычисленные расстояния и получаем дисперсию (англ.: variance):
Извлекая корень из дисперсии, получаем стандартное отклонение (англ.: standard deviation; SD):
Несмещенные оценки дисперсии и стандартного отклонения (для малых n):
df = (n – 1): число степеней свободы (degree of freedom)
Параметры распределения марсиан и венерианцев по росту
2.3. Медиана и процентили
Распределение юпитериан по росту
Нормальное распределение с теми же параметрами, что у юпитериан:
Медиана распределения юпитериан по росту
25-й и 75-й процентили распределения юпитериан по росту
ВЫВОДЫ:
ВЫВОДЫ:
2.11M
Категория: МатематикаМатематика

Описательная статистика. Лекция 2

1. ЛЕКЦИЯ 2

ОПИСАТЕЛЬНАЯ
СТАТИСТИКА

2. 2.1. Группировка данных

3. Обработку данных полезно начать с их группировки…

Группировка - это систематизация
первичных данных, направленная
на извлечение заключенной в них
информации и выявление
закономерностей, которым
подчиняется изучаемое явление
или объект.

4. Группировка количественных данных :

по значениям
вариант
по классам

5. Группировка количественных данных :

Данные о плодовитости 10 самок кроликов:
4
5
3
4
4
2
4
5
3
4
РАНЖИРОВАНИЕ
Количество крольчат (хi): 2
Число вариант (fi):
1
3
2
4
5
5
2

6.

Частота варианты (fi) - число,
показывающее, сколько раз
варианта встречается в
совокупности.
Σfi=n

7.

При небольшом объеме выборки
и незначительной вариации
признака, количественные данные
достаточно сгруппировать
по значениям вариант

8. Группировка данных в классы, объединяющие несколько вариант:

Применяется при больших объемах
выборок и значительной вариации
признака.
Пример: измерена длина клеток у 50
инфузорий. Полученные значения
изменялись от 60 до 120 мкм.

9.

Логично выделить классы,
охватывающие несколько значений
вариант:
«60-69 мкм», «70-79 мкм», «80-89 мкм»
и т.д.
i – классовый промежуток (=интервал)
i = 10

10. Какую информацию дает вариационный ряд???

Границы изменчивости признака:
минимальное и максимальное
значение вариант, или лимиты.
(Разница между лимитами называется
размахом выборки).
Характер вариации признака:
исследователь может установить,
какой класс является модальным.
(мода – наиболее часто встречающееся
значение)

11.

Пример бимодального
распределения

12.

Вариационный ряд обычно
изображают графически
Графическое изображение
вариационного ряда называется
кривой распределения или
вариационной кривой

13. Полигон распределения: данные группируются по значениям вариант

Частота
встречаемости, fi
Распределение данных о плодовитости
крольчих
6
5
4
3
2
1
0
1
2
3
4
5
Количество крольчат в помете
6

14. Гистограмма: данные группируются по классам

Частота
встречаемости, %
Распределение данных о длине клеток
инфузории Conchophthirus acuminatus
25
20
15
10
5
0
50
60
70
80
90
100
L, мкм
110
120
130

15.

ПОКАЗАТЕЛИ
ОПИСАТЕЛНОЙ
СТАТИСТИКИ
Показатели,
характеризующие
центральную
тенденцию в
изучаемой
совокупности
Показатели,
характеризующие
степень
изменчивости
(=вариабельность)
изучаемого
признака

16. 2.2. Среднее значение и стандартное отклонение

17. Многие лекционные примеры будут заимствованы из книги C. Гланца Пользуйтесь электронной версией книги (PDF)

18. Распределение марсиан по росту

Гланц, 1999

19. Распределение венерианцев по росту

Гланц 1999

20. Сходства и различия распределений марсиан и венерианцев по росту

21.

Любое нормальное распределение
можно описать с помощью всего
двух параметров:
среднего значения (µ) и
стандартного отклонения (σ)

22. ВЫБОРОЧНАЯ СРЕДНЯЯ (англ.: sample mean) (= средняя арифметическая, среднее значение)

1
x xi
n

23. ВЗВЕШЕННАЯ СРЕДНЯЯ (англ.: Weighted mean):

x1n1 x2 n2 ... xk nk
x
nk

24. ГЕОМЕТРИЧЕСКАЯ СРЕДНЯЯ (англ.: Geometric mean):

xg n x1 x2 ... xn

25. Жители Венеры более однородны по росту, чем марсиане

26. Показатели вариабельности:

Размах (англ.: range) –
разница между
максимальным и
минимальным значениями
вариант (лимитами).

27. Находим расстояние, на котором находится каждая единица изучаемой выборки от среднего значения:

( xi x )
Избавляемся от
отрицательных значений
( xi x )
2

28. Усредняем вычисленные расстояния и получаем дисперсию (англ.: variance):

SS (sum of squares) –
сумма квадратов
(
x
x
)
i
2
s
n
2

29. Извлекая корень из дисперсии, получаем стандартное отклонение (англ.: standard deviation; SD):

(
x
x
)
i
s
n
2

30. Несмещенные оценки дисперсии и стандартного отклонения (для малых n):

( xi x )
( xi x )
s
;s
2
2
n 1
n 1
ЧИСЛО СТЕПЕНЕЙ СВОБОДЫ (df)
2

31. df = (n – 1): число степеней свободы (degree of freedom)

Допустим, A + B + C = 30
Первые две варианты могут иметь
любые значения (например, 10 и 15)
НО (!): третья варианта может быть
равна только разнице между 30 и
суммой двух первых вариант (т.е. 5)
=> df = (n-1) = 2

32. Параметры распределения марсиан и венерианцев по росту

Объем
совокупности,
N
Среднее
(см)
Стандартное
отклонение
(см)
Марсиане
200
40
5,0
Венерианцы
150
15
2,5

33. 2.3. Медиана и процентили

34. Распределение юпитериан по росту

35

35. Нормальное распределение с теми же параметрами, что у юпитериан:

36.

Медиана (Ме; англ.: Median) значение, которое делит
распределение ровно
пополам.

37. Медиана распределения юпитериан по росту

36

38. 25-й и 75-й процентили распределения юпитериан по росту

39. ВЫВОДЫ:

Если известно, что выборка скорее
всего принадлежит к совокупности
с нормальным распределением,
для ее описания лучше
использовать выборочное среднее
и выборочное стандартное
отклонение.

40. ВЫВОДЫ:

Если же известно, что
распределение в совокупности
отличается от нормального,
следует использовать медиану,
25-й и 75-й процентили.

41.

DID YOU HEAR ABOUT THE STATISTICIAN WHO HAD HIS
HEAD IN AN OVEN AND HIS FEET IN A BUCKET OF ICE?
WHEN ASKED HOW HE FELT, HE REPLIED,
"ON THE AVERAGE I FEEL JUST FINE."
English     Русский Правила