51.22K
Категория: МатематикаМатематика

Регрессионный анализ

1.

Регрессионный анализ

2.

Для чего?
Анализ
Прогнозирование
• Анализ взаимосвязи
нескольких переменных в их
влияния на целевую
переменную.
• Выделение значимости
факторов в комплексе
взаимосвязанных свойств.
• Воспроизводство
установленного влияния одной
переменной на другую.
• т.е. на основе модели
(тестовых данных)
прогнозируется поведение по
неизвестной переменной.

3.

Требования для проведения анализа
• Необходимо четко зафиксировать зависимую и независимую
переменную;
• Переменные должны подчиняться закону распределения
случайной величины или должны быть приближены к
нормальному распределению;
• В идеале – метрические шкалы, но можно использовать
упорядоченные порядковые и бинарные (с рядом ограничений
по интерпретации, специальная регрессионная модель);
• Если исследуется группа влияющих переменных, то переменные
«влияния» (независимые переменные) не должны коррелировать
между собой;

4.

Примеры сложных комплексов влияния
• На доход (зависимая переменная) влияет целый конгломерат
переменных (независимых): уровень образования, стаж, уровень
квалификации и т.д.
• На успеваемость студента (зависимая) влияет уровень его
базовой подготовки, интерес к предмету, затраченное время на
обучение и т.д.
• Часть в теориях эти «влияющие» параметры выделяются в
качестве «факторов».

5.

Типы регрессий
• Логистическая – для выявления влияния (предсказания) на бинарную
шкалу (зависимая переменная бинарная), независимые могут быть
любыми, но чаще всего используются номинальные признаки (в
бинарном виде: есть или нет), упорядоченные порядковые шкалы.
• Пробит-модель или «пробит» регрессия - для выявления влияния
(предсказания) на бинарную шкалу (зависимая переменная бинарная)
метрических переменных или упорядоченных порядковых шкал.
• Линейные регрессии – выявление влияния (предсказания) на
метрическую шкалу, влияющие переменные метрические или
упорядоченные порядковые.
• Нелинейные регрессионные модели – сложные системы зависимости
для различных типов шкал.

6.

Математическое описание (линейная
регрессия)
y=b*x+a
- уравнение регрессии, где:
b – коэффициент регрессии;
a – смещение по оси ординат;
х – независимая переменная;
y – зависимая переменная;

7.

Значимые свойства или показатели
• Коэффициент при независимой переменной – чаще всего показывает
насколько ед. будет изменяться зависимая переменная при влиянии
независимой;
• R2 - объяснительная сила модели (часто совпадает с коф. корреляции)
– в каком % случаев мы получаем достоверный результат (или наша
модель работает);
• MSE – отклонение предсказанного от фактического (при сопоставлении
эффективности нескольких моделей)
• Модели в себя могут включать разное кол-во переменных, значимость
разных моделей можно сравнивать между собой, выбирая
подходящие (наиболее значимые).

8.

Предсказания поведения
• Любое предсказание строится на каких-то исходных данных;
• Исходные данные для построения модели называются
обучающими данными – они должны содержать параметры и
зависимой, и независимой переменной.
• После построения модели можем ее «проверять» или
тестировать на тестовых данных (обнаруживая ошибки или
расхождения).
• Всегда проблема времени и устаревания данных: данные в
модели всегда уже старые. А если поведение изменилось?

9.

ПО
• Регрессионный анализ есть в большинстве ПО;
• Для Excel необходимо доставить специальный модуль,
инструкция по ссылке:
• https://youtu.be/b1YcJhNABxw
English     Русский Правила