Экспериментально-статистическое исследование связей
0.97M
Категория: МатематикаМатематика

Экспериментально - статистическое исследование связей (занятие 5)

1. Экспериментально-статистическое исследование связей

Экспериментальностатистическое
исследование связей
Занятие 5

2.

Главная задача всякого научного исследования
заключается в изучении связей между явлениями,
параметрами и факторами.
Связи бывают функциональными и
вероятностными (статистическими).
При функциональной связи каждому значению
входной величины соответствует одно или несколько строго определенных значений выходной.
Статистические связи проявляются лишь при
многократном испытании. При этом данному
значению входной величины соответствует
множество значений выходной.
2

3.

1. Корреляционный анализ
Корреляционный анализ — метод оценки
статистических связей. Он отвечает на вопросы:
влияет ли данная входная величина на выходную
и какова степень (теснота) связи между
величинами?
Предположим, что в результате эксперимента, цель
которого — изучить влияние фактора x на пара-метр
y, получены данные в виде совокупностей значений
х и y, объемом n каждая, причем каждому значению
xі соответствует определенное значение yi
y
Каждую пару величин
можно представить точкой
на поле координат xОy.
Совокупность точек
образует диаграмму
3
рассеивания.
0
x

4.

По такой диаграмме можно судить о тесноте связи
между величинами, однако подобная оценка
субъективна
Числовой характеристикой тесноты связи служит
корреляция — математическое ожидание произведения отклонений x и y от их математических
ожиданий
K xy M x mx y m y
Оценка корреляции по опытным данным:
1 n
K xy xi x yi y
n i 1
Размерность полученной величины равна
произведению размерностей величин x и y, что
затрудняет анализ тесноты связи.
4

5.

Чаще используют безразмерный
коэффициент корреляции
k xy
K xy
x y
K xy
Dx D y
или для результатов опыта
n
1
xi x yi y
k xy
n S x S y i 1
Коэффициент корреляции является оценкой
степени связи между величинами и изменяется в
диапазоне [–1;+1]
Рассмотрим следующие варианты рассеяния:
5

6.

1) Точки рассеяны в некоторой области, симметричной относительно прямых с уравнениями
x x и y y
Эти прямые делят плоскость xОy на четыре
квадранта. Произведение xi x yi y
в I и III квадрантах будет иметь знак (+), а во II и IV
— знак (–).
Поскольку количество
точек в каждом квадранте
приблизительно одинаково,
сумма произведений будет
близка к нулю, и k xy 0
y
II
I
III
IV
y
Это говорит о том, что связь
между величинами x и y
отсутствует
0
x
6
x

7.

2) Между величинами x и y существует функциональная линейная зависимость вида y b0 bx
y y b x x
Тогда y b0 bx и
2
x
n
bS
b
2
Следовательно k xy
xi x
n S x S y i 1
SxS y
Поскольку Sy = |b| Sx, имеем k xy b b 1
Если b > 0 — kxy = 1
y
Если b < 0 — kxy = –1
Следовательно, если по
результатам опытов полуy
чено kxy = ±1, можем утверждать, что между величинами x и y существует
функциональная линейная
0
зависимость.
x
7
x

8.

3) Точки рассеяны в некоторой области, расположенной несимметрично относительно прямых с
уравнениями
x x и y y
Например, в I и III квадрантах точек значительно
больше, чем во II и IV.
Следовательно, в сумме будут преобладать положительные произведения и значение коэффициента
корреляции будет находиться в интервале
0 < kxy < 1
В обратном случае будем
иметь –1 < k < 0
xy
Оба эти случая свидетельствуют о наличии
статистической связи
между величинами x и y.
y
II
I
III
IV
y
0
x
8
x

9.

Возможны случаи, когда между величинами
существует статистическая или даже функциональная связь, но в некотором интервале значений этих
величин их коэффициент корреляции будет близок
к нулю.
Например, между величинами x и y на существует
явная функциональная связь, но k xy 0 , поскольку
область, в которой распределены точки, симметрична относительно x x y
Таким образом,
коэффициент корреляции
y
дает оценку не только
наличия связи между
величинами, но и степени ее
линейности
0
x
9
x

10.

2. Регрессионный анализ
Целью регрессионного анализа является
установление аналитической зависимости
между выходной и входными величинами по
данным экспериментальных исследований
Зависимость между величинами может быть
представлена таблично, графически и
аналитически.
Табличный способ позволяет определить
значение выходной величины для заданных
значений входных, но не дает представления о
характере зависимости.
Графический способ создает наглядность
представления зависимости, позволяет визуально
оценить ее характер.
10

11.

Аналитическая зависимость позволяет
исследовать функцию методами математического
анализа, т.е. определить значения максимума,
минимума, точек перегиба и т.д.
Получение аналитической зависимости
желательно при разработке расчетных методик, в
особенности при создании расчетных программ на
ЭВМ. Эта зависимость наиболее универсальна, из
нее просто получить табличную и графическую.
Аналитические зависимости, полученные по
данным эксперимента путем регрессионного
анализа называются эмпирическими или
аппроксимирующими.
Если теоретические формулы могут быть использованы при произвольных значениях аргументов,
то эмпирические являются приближенными и
могут применяться лишь в определенных условиях
11
и в ограниченных пределах аргументов

12.

В регрессионном анализе в отличие от корреляционного только выходные величины являются
случайными. Входные должны быть неслучайными и некоррелированными между собой
Задача получения аналитической зависимости
включает в себя три этапа
•выбор вида уравнения регрессии
•определение коэффициентов уравнения
•проверка адекватности установленной
зависимости данным эксперимента
12

13.

Первый этап является неформализованной
процедурой.
По данным эксперимента первоначально строят
графическую зависимость. Ее сравнивают с
различными кривыми, уравнения которых известны, и останавливаются на наиболее вероятной
При выборе формулы нет
необходимости
ориентироваться на
y
сложные зависимости.
Ценность формулы
определяется не
сложностью, а той
погрешностью, которая
допускается при ее
применении.
13
0
x

14.

Например, для аппроксимации данных может
быть использована как линейная (линия 1),
так и более сложная зависимость (линия 2).
Линия 2 более точно аппроксимирует данные
эксперимента, но ее практическое использование
может быть затруднено из-за громоздкости
формулы и сложности ее вычисления.
Поэтому предпочтение
следует отдавать
простым, в первую
очередь линейным
уравнениям, и только в
случае явно нелинейной
зависимости, выбирать
другие: квадратичные,
степенные и т.п
y
2
1
0
14
x

15.

Например, для аппроксимации данных может
быть использована как линейная (линия 1),
так и более сложная зависимость (линия 2).
Линия 2 более точно аппроксимирует данные
эксперимента, но ее практическое использование
может быть затруднено из-за громоздкости
формулы и сложности ее вычисления.
Поэтому предпочтение
следует отдавать
простым, в первую
очередь линейным
уравнениям, и только в
случае явно нелинейной
зависимости, выбирать
другие: квадратичные,
степенные и т.п
y
0
15
x

16.

Если в результате построений окажется, что
некоторые точки существенно отклоняются от
общей зависимости, то следует проверить
вычисления для них, а при необходимости
повторить эксперимент
Если до обработки экспериментальных данных
известна теория исследуемого процесса, в
основу эмпирической зависимости желательно
положить функциональную зависимость,
определяемую этой теорией.
Например, известно, что теоретическая напорная
характеристика турбомашины является прямой
линией, а потери напора в турбомашине
пропорциональны квадрату расхода.
Поэтому для описания экспериментальной
напорной характеристики наиболее целесообразна
ориентация на квадратичные зависимости
16

17.

После выбора вида зависимости определяют
коэффициенты, входящие в эту зависимость.
В общем виде задачу можно сформулировать
следующим образом
Исследуется зависимость параметра y от факторов
x1, x2, …, xk. Проведено n серий опытов при
различных сочетаниях уровней факторов; в каждой
серии для u-го сочетания уровней факторов получена выборка значений параметра y, определено
среднее выборочное yu и дисперсия Su2 .
Для поиска аппроксимационной зависимости
выбрана некоторая функция вида
y f x1 , x2 ,..., xk
которая содержит m неизвестных параметров
(коэффициентов, показателей степеней и др.):
b1, b2, …, bm
17

18.

Задача состоит в определении такого сочетания
этих величин, при котором значения y, рассчитанные по зависимости, будут наиболее близки к
экспериментальным данным yu .
В настоящее время выполнение такой задачи не
представляет трудности, поскольку существуют
программы для ЭВМ, предназначенные для поиска
аппроксимационых зависимостей и определения их
коэффициентов.
Наиболее распространенным методом поиска
коэффициентов уравнений регрессии является
метод наименьших квадратов.
Метод заключается в поиске минимума функции
n
2
Ф b1 ,b2 ,..., bm yu yu
u 1
yu — значение y, полученное расчетом по зависимости для u-го сочетания уровней факторов. 18

19.

Функция Ф характеризует степень расхождения
расчетных значений и опытных данных.
Наилучшим будет такое сочетание коэффициентов,
при котором это расхождение будет минимальным.
Задача сводится к поиску минимума функции Ф и
может быть решена методом математического
анализа
Рассмотрим случай поиска линейной
однофакторной зависимости вида y b0 b1 x
для некоторой совокупности экспериментальных
данных
Функция Ф в данном случае есть функция двух
переменных
n
Ф b0 ,b1 yu b0 b1 xu min
u 1
2
19

20.

Функция будет
n
Ф
иметь минимум,
если ее частные b 2 yu b0 b1 xu 0
u 1
0
производные по
n
всем переменным Ф
2 yu b0 b1 xu xu 0
будут равны
b1
нулю
u 1
Преобразовав выражения, получим систему двух
линейных уравнений
b0 n b1 xu
u 1
n
n
b0 xu b1 xu2
u 1
u 1
n
n
yu ;
u 1
n
yu xu .
u 1
Решив систему, найдем значения коэффициентов
20
уравнения регрессии

21.

В практике математической обработки опытных
данных широко используются нелинейные
формулы, достаточно просто преобразуемые к
линейному виду
К ним относятся параболические и степенные
зависимости
Распространенная в гидравлическом эксперименте
параболическая зависимость вида
y b0 b1 x
2
приводится к линейному виду подстановкой
z = x2
Коэффициенты полученного линейного уравнения
y b0 b1 z находятся по описанной методике.
21

22.

В практике математической обработки опытных
данных широко используются нелинейные
формулы, достаточно просто преобразуемые к
линейному виду
Степенные зависимости вида
b1
b2
bk
y Сx1 x2 ... xk
где C — коэффициент;
b1, b2, …, bk — показатели степени;
приводятся к полиномиальному виду путем
логарифмирования
Ln y Ln С b1 Ln x1 b2 Ln x2 ... bk Ln xk
Обозначив b0 = Ln C, и прологарифмировав значения
факторов и параметра, можем применить метод
наименьших квадратов для поиска значений b0, b1,
22
b2, …, bk.

23.

Проверка соответствия установленной зависимости
экспериментальному материалу (проверка
адекватности) включает в себя этапы
1. Ищется остаточная дисперсия, или дисперсия
адекватности
n
1
2
2
yu yu
S ад
f ад u 1
где fад = n – m — количество степеней свободы,
равное разности количества опытов n и количества
коэффициентов в уравнении регрессии m.
Дисперсия адекватности будет тем меньше, чем
лучше совпадают расчетные значения параметра
с экспериментальными данными
23

24.

2. Определяется дисперсия воспроизводимости,
показывающая точность определения параметра в
опыте
В случае, если для каждого сочетания уровней
факторов проводилось несколько параллельных
опытов, ищутся дисперсии Su2 для каждой группы
опытов, проверяется их однородность и затем
определяется средневзвешенная дисперсия Sсв2 ,
которая и принимается в качестве дисперсии
воспроизводимости Sв2.
Если параллельные опыты не проводятся, то в
качестве средневзвешенной дисперсии принимается
Yпред
2
S в
2
где ΔYпред — предельная
2
абсолютная погрешность определения выходной 24
величины, определяемая по классу прибора

25.

3. Проверяется однородность дисперсий
адекватности и воспроизводимости
2
F Sад
n
2
S в F
f ад , f в
— количество степеней

nп u 1
свободы дисперсии
воспроизводимости;
u 1
nп u — количество параллельных опытов для u-го
сочетания уровней факторов
Если расчетное значение критерия Фишера
окажется меньше табличного, то полученное
уравнение регрессии адекватно эксперименту с
уровнем значимости α
25
English     Русский Правила