16.71M

Primenenie-polinomialnoj-approksimacii-i-analiz-tochnosti-modelej (2)

1.

Применение пол иномиал ь ной
аппроксимации и анал из
точности моделей
Методы, погрешности и логический аудит результатов.

2.

Что такое полиномиальная аппроксимация?
Полиномиальная аппроксимация — это способ найти полином P_n(x) = a_n x^n + ... + a_1 x + a_0,
который лучше всего описывает заданный набор данных. Например, если у нас есть пять точек
данных (1,2), (2,4), (3,7), (4,11), (5,16), полиномиальная аппроксимация поможет найти
математическую формулу (полином), которая наилучшим образом проходит через эти точки,
даже если они не лежат на идеальной кривой.
Это важно для анализа данных, поскольку позволяет создавать упрощенные математические
модели, выявлять скрытые тенденции и делать прогнозы на основе неидеальных данных.
Модель становится более понятной и предсказуемой.

3.

Практический пример: Аппроксимация данных
Задача: Даны экспериментальные данные:
x: 1, 2, 3, 4, 5
y: 2.1, 3.9, 6.2, 8.8, 16.1
Найти полином второй степени P₂(x) = ax² + bx + c, который лучше всего описывает эти данные.
Решение:
1.
2.
3.
4.
Используем метод наименьших квадратов
Составляем систему нормальных уравнений
Решаем систему и находим коэффициенты: a ≈
0.97, b ≈ 0.14, c ≈ 0.93
Получаем: P₂(x) = 0.97x² + 0.14x + 0.93
Проверка:
При x=1: P₂(1) = 2.04 (фактическое: 2.1) ✓
При x=3: P₂(3) = 6.18 (фактическое: 6.2) ✓
При x=5: P₂(5) = 16.08 (фактическое: 16.1) ✓
Вывод: Полином второй степени хорошо
аппроксимирует данные с малой ошибкой.

4.

Проблема выбора степени полинома
Недообучение (Underfitting)
Переобучение (Overfitting)
Недообучение происходит, когда выбранная степень
Переобучение возникает при использовании слишком
полинома слишком низка для адекватного описания
высокой степени полинома. Модель становится чрезмерно
сложности данных. Модель получается слишком простой, не
сложной, запоминая шумы и выбросы. Она отлично работает
улавливает основные закономерности и имеет высокую
на обучающих данных, но ее производительность резко
ошибку как на обучающих, так и на новых данных.
падает на новых, создавая нереалистичные флуктуации.

5.

Практические задачи
Задача 1: Выбор степени
пол инома
Задача 2: Анал из остатков
Задача 3: Интерпретация

Даны данные с шумом. Какую степень
Построены остатки аппроксимации.
Модель имеет R² = 0.92. Что это
полинома выбрать?
На графике видна дуга. О чём это
означает?
говорит?
Полином 1-й степени: MSE = 2.5
Полином 2-й степени: MSE = 0.8
Ответ: Модель недообучена, нужна
вариации данных. Это хороший
Полином 3-й степени: MSE = 0.75
полином более высокой степени.
результат.
Полином 4-й степени: MSE = 0.74
Ответ: Выбираем полином 2-й степени
(баланс между точностью и
простотой).
Ответ: Модель объясняет 92%

6.

Оценка погрешностей: MSE и RMSE
Среднеквадратичная ошибка (MSE)
MSE — это метрика, измеряющая среднюю
квадратичную разницу между фактическими (y_i) и
предсказанными (\hat{y}_i) значениями. Она
чувствительна к выбросам, так как большие ошибки
значительно влияют на ее значение. Низкое MSE
указывает на высокую точность модели.
Корень из MSE (RMSE)
RMSE — это квадратный корень из MSE. Ее основное
преимущество — выражение в тех же единицах
измерения, что и исходные данные, что упрощает
интерпретацию. RMSE позволяет напрямую
сравнивать ошибку с масштабом данных. Низкое
RMSE означает высокую точность модели.

7.

Коэффициент детерминации ( R^2)
Коэффициент детерминации, обозначаемый как
R^2, показывает, насколько хорошо модель
объясняет изменчивость зависимой переменной.
Он отвечает на вопрос: "Какую долю вариации в
данных объясняет модель?"
R^2 = 1: Модель объясняет 100% изменчивости
зависимой переменной (идеальное значение).
R^2 = 0: Модель не объясняет изменчивости
зависимой переменной (ее эффективность не
лучше среднего значения).
Значения R^2 находятся в диапазоне от 0 до 1. Чем
ближе R^2 к 1, тем лучше модель подходит для
данных. Важно помнить, что высокий R^2 не
всегда означает идеальную модель, особенно при
переобучении. R^2 следует использовать в
сочетании с другими метриками и визуальным
анализом.

8.

Анализ остатков (Residual Analysis)
Анализ остатков — фундаментальный шаг в оценке качества модели. Остатки — это
разница между фактическим наблюдаемым значением (y_i) и предсказанным
моделью значением (\hat{y}_i): e_i = y_i - \hat{y}_i. Они показывают, насколько модель
"ошибается" в каждой точке.
Остатки должны быть "белым шумом": случайными, без видимых закономерностей,
равномерно распределенными вокруг нуля и независимыми от предсказанных
значений. Структура на графике остатков указывает на проблемы:
Дуга/кривая: Модель систематически ошибается, возможно, недообучена или
выбрана неверная степень полинома.
Расширяющийся/сужающийся "веер" (гетероскедастичность): Ошибка модели
непостоянна, нарушены предположения о гомоскедастичности.
Выбросы: Указывают на аномальные данные, влияющие на параметры модели.
Анализ остатков — мощный инструмент для диагностики проблем в модели. Если
остатки ведут себя как случайный шум, модель хорошо улавливает основные
тенденции в данных.

9.

Логический анал из резул ьтата
Экс трапол яция
Здравый смысл
Экстраполяция за пределы диапазона данных крайне опасна
Математическая точность не гарантирует логической
для полиномов, особенно высоких степеней. Они могут
корректности. Всегда применяйте здравый смысл и знание
давать нереалистичные, резко возрастающие или падающие
предметной области к результатам аппроксимации. Модель
значения. Используйте экстраполяцию с осторожностью и
должна давать разумные и интерпретируемые результаты,
только для обоснованных, коротких предсказаний.
согласующиеся с основными принципами изучаемого
явления, даже если статистические метрики выглядят
хорошо.

10.

Заключение и выводы
Полиномы: Мощный инструмент, но
Проверка на новых данных: Истинная
Визуализация: Лучший способ
высокие степени часто ведут к
ценность модели — её способность к
первичной проверки. Графический
переобучению и нереалистичным
обобщению. Разделение данных на
анализ исходных данных,
результатам за пределами обучающих
обучающую и тестовую выборки (или
аппроксимирующей функции и
данных. Более простые модели могут
кросс-валидация) обязательно для
остатков позволяет быстро выявить
быть робастнее и надежнее для
выявления переобучения и оценки
проблемы, неочевидные при работе
практического применения.
работы модели с новыми данными.
только с числами, и интуитивно понять
поведение модели.

11.

Домашние задания
Задание 1: Метод наимень ших квадратов
Задание 2: Выбор оптимал ь ной с тепени
Даны точки: (0, 1), (1, 2.5), (2, 4), (3, 5.5), (4, 7)
Для набора данных построены модели разных степеней:
Найти полином первой степени P₁(x) = ax + b методом наименьших
квадратов.
Вычислить МНК и RMSE.
Степень 1: R² = 0.85, RMSE = 1.2
Степень 2: R² = 0.94, RMSE = 0.6
Степень 3: R² = 0.95, RMSE = 0.58
Степень 4: R² = 0.96, RMSE = 0.57
Какую степень выбрать и почему? Обоснуйте ответ.
Задание 3: Анал из остатков
Построить график остатков для полинома 2-й степени. Проверить, являются
ли остатки "белым шумом". Если нет, предложить улучшения модели.
Задание 4: Практичес кое применение
Собрать 10-15 точек данных из реальной жизни (например, температура в
течение дня, цена акции, рост растения).
Построить полиномиальную аппроксимацию, выбрать оптимальную
English     Русский Правила