Похожие презентации:
ml_metrics
1.
Метрики качествамоделей
Академия Аналитиков Авито
Логинов Роман, 2025
2.
ПЛАН ЛЕКЦИИМетрики качества регрессии
Метрики качества классификации
Перерыв
Примеры нестандартных метрик
Статистическое сравнение
Отбор признаков
3.
МЕТРИКА КАЧЕСТВАПусть обучили несколько моделей линейной регрессии
На исходных признаках
На признаках, возведённых в квадрат
На исходных признаках, но с другой функцией потерь
Вообще без признаков — предсказали константой
Чтобы понять, какая из моделей лучше, вычисляют метрику качества
Обычно считают на валидационной и тестовой выборке
4.
ХОРОШАЯ МЕТРИКА КАЧЕСТВАЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
5.
МЕТРИКИ КАЧЕСТВА РЕГРЕССИИЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
6.
MSEЧувствительная
Позволяет
увидеть
различия
между
качеством
разных
— выборка, признаки n
моделей
объектов
— ответы
для n
Интерпретируемая
Можно
показать заказчику «В среднем прогноз
объектов
отличается от
на 5%»модели
—факта
предсказания
для
n
объектов
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
7.
MSEЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Используется как функция потерь
отличается от факта на 5%»
Неустойчива к выбросам
Соотносится
с
бизнес-требованиями
к
решению
задачи
Понятна
Неинтерпретируема
ценность
для
продукта
«Заменив
одну
модель
на
другую
мы
вырастим
Обладает теоретическими свойствами
выручку
на 3%»
Оценивает
8.
MSE: BIAS-VARIANCE РАЗЛОЖЕНИЕMSE можно разложить на 2 компоненты: смещение (bias) и разброс (variance)
9.
RMSEЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
•
отличается
факта
наи 5%»
Имеет тот же от
масштаб,
что
ответ
Неустойчива к свыбросам
Соотносится
бизнес-требованиями к решению задачи Понятна
Обладаетдля
теоретическими
свойствами
ценность
продукта «Заменив
одну модель на другую мы вырастим
выручку на 3%»
10.
КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (R2)Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
•
Соотносится
с бизнес-требованиями
к решению
задачи Понятна
Чем больше диcперсия
таргета, тем больше
MSE
Показывает
долю
дисперсии,
которую
модель
смогла
ценность
для
продукта
«Заменив
одну
модель
на объяснить
другую мы вырастим
Знаменатель
—
MSE
при
константном
предсказании
выручку на 3%»
11.
АБСОЛЮТНАЯ ОШИБКА (MAE)Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Более устойчива
выбросам,
чем RMSE
отличается
от кфакта
на 5%»
Имеет тот же масштаб, что и таргет
Соотносится с бизнес-требованиями к решению задачи Понятна
Можно использовать, когда допустимы большие ошибки
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
12.
MAPEЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Более устойчива
выбросам,
чем RMSE
отличается
от кфакта
на 5%»
Хорошо интерпретируется
Соотносится с бизнес-требованиями к решению задачи Понятна
Учитывает, что одинаковая абсолютная ошибка по-разному критична
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
13.
КВАНТИЛЬНАЯ ОШИБКАЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
Более устойчива к выбросам, чем RMSE
выручку
Имеет тотнаже3%»
масштаб, что и таргет
Оптимальная константная оценка по такой метрике — квантиль
14.
МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
15.
ACCURACY•
Чувствительная
Позволяет
различия между
разных
Бинарная классификация:
ответувидеть
либо правильный,
либокачеством
нет
моделей
В общем случае невозможно измерить силу ошибки
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Просто вычислим долю правильных ответов
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Проблема — несбалансированные классы Если в датасете 90% единиц,
константная модель будет иметь хорошее качество
16.
CONFUSION MATRIX•
Чувствительная
Позволяет
увидетьPositive,
различия
между качеством разных
Разделим объекты по
предсказаниям:
Negative
моделей
Ошибка подразделяется на 2: False Positive, False Negative Похоже на ошибки
Интерпретируемая Можно показать заказчику «В среднем прогноз
1 и 2 рода в стат.критериях
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
17.
PRECISION/RECALL•
Чувствительная
увидеть
различия между
качеством разных
Precision НасколькоПозволяет
можно верить
положительным
предсказаниям
модели
Интерпретируемая Можно показать заказчику «В среднем прогноз
моделей
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
Recall
Какую
положительных
мы смогли
выявить
ценность
длячасть
продукта
«Заменивобъектов
одну модель
на другую
мы вырастим
выручку на 3%»
18.
АНАЛОГИЯ СО СТАТ.КРИТЕРИЯМИГипотеза
H0:
объект
принадлежит
классу
0
Чувствительная Позволяет увидеть различия между качеством разных
Критерий
S:
модель
предсказывает
класс
1
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
19.
ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?•
Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Пример 2: кредитный скоринг
20.
ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?•
Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
False Positive: врачу придётся проверить вручную False
Negative:
пациент
останется
без лечения
ценность
для
продукта
«Заменив
одну модель на другую мы вырастим
=> важнее метрика Recall
выручку на 3%»
Пример 2: кредитный скоринг
21.
ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?•
Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
False Positive: врачу придётся проверить вручную False
Negative:
пациент
останется
без лечения
ценность
для
продукта
«Заменив
одну модель на другую мы вырастим
=> важнее метрика Recall
выручку на 3%»
Пример 2: кредитный скоринг
False Positive: клиент не вернул деньги — потеря
прибыли False Negative: потеряем только проценты
=> важнее метрика Precision
22.
ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?Пример
3:
блокировка
мошенников
на
Авито
Чувствительная Позволяет увидеть различия между качеством разных
моделей
False Positive: заблокировали честного селлера —
жалобы False Negative:
пропустили
жалобы
Интерпретируемая
Можно
показатьмошенника
заказчику—«В
среднем прогноз
=> важнее метрика непонятно какая
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
F-мера Скомбинируем Precision и Recall через среднее гармоническое
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
23.
F-МЕРАЧувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Важнее recall
Важнее
precision
24.
ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
•
Аналитик
Отлично,
тогда оптимизирует recall
с ограничением
на precision
Соотносится
с бизнес-требованиями
к решению
задачи
Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
25.
ПОДБОР ПОРОГАТипичная
Чувствительная
Позволяет увидеть различия между качеством разных
ситуация:
моделей
Классификатор предсказывает вероятность
Интерпретируемая
заказчику «В среднем прогноз
Ответ получается наМожно
основе показать
порога
отличается
от факта
на 5%»
Выбираем порог
по F-мере
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Как без подбора порога понять качество модели?
26.
PR CURVEПри росте порога возрастает recall, но может падать
Чувствительная
Позволяет увидеть различия между качеством разных
precision
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC PR
27.
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ПЕРЕРЫВ
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
28.
ROC CURVEВ зависимости от порога считаем Recall (TPR) и FPR
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
29.
ROC CURVEВ зависимости от порога считаем Recall (TPR) и FPR
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Для случайного предсказатора AUC ROC
Интерпретируемая Можно показать заказчику
«В
среднем
прогноз
= 0.5
отличается от факта на 5%»
Cмысл: вероятность того, что случайно
объектзадачи
класса 1Понятна
имеет оценку
Соотносится с бизнес-требованиямивзятый
к решению
к классу
1 выше, чем
ценность для продукта «Заменив одну принадлежности
модель на другую
мы вырастим
выручку на 3%»
случайно взятый объект класса 0
Площадь под этой кривой — AUC ROC
30.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
Чувствительная
различия между качеством разных
Предположим,
есть поПозволяет
3 объекта увидеть
разных классов
моделей по убыванию предсказаний
Отсортируем
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
31.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
32.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
33.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
34.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
35.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
36.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
37.
ИНТЕРПРЕТАЦИЯ AUC ROCПредсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC
38.
ИНТЕРПРЕТАЦИЯ AUC ROCЧувствительная Позволяет увидеть различия между качеством разных
моделей
Доля правильно упорядоченных пар
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
Вероятность
того, что случайно взятый объект класса 1
выручку
на 3%»
имеет оценку принадлежности к классу 1 выше, чем
случайно взятый объект класса 0
39.
ПРИМЕР, КОГДА AUC ROC НЕИНФОРМАТИВЕНВ предположениях гауссовской линейной модели
можно получить доверительный интервал на MSE
Модель 1
Описание
AUC ROC
Оценка
выручки
Модель 2
Даёт класс 1 десяти Ставит релевантных
релевантным
на позиции 10, 20, …,
клиентам
100
1.00
0.999