Предсказание магнитных свойств наночастиц для биомедицинских применений. Деревья принятие решений. Ансамбли

1.

Предсказание магнитных
свойств наночастиц для
биомедицинских применений
Деревья принятия решений.
Ансамбли

Что такое дерево принятия решений?
Решающее дерево предсказывает значение целевой переменной с помощью применения последовательности
простых решающих правил (которые называются предикатами). Этот процесс очень схож с естественным для
человека процессом принятия решений.
• дерево решений не сможет экстраполировать зависимости за границы области значений обучающей
выборки
• дерево решений способно идеально приблизить обучающую выборку и ничего не выучить
2

3.

Зачем нам деревья принятия решений?
Решающие деревья часто используют как кирпичики для построения ансамблей — моделей, делающих
предсказания на основе агрегации предсказаний других моделей
Бэггинг (Bagging)
• Равновероятно выбираем n примеров с повторами
• На полученных n-данных строим дерево решений, однако в каждой вершине выбираем случайное
подпространство признаков, из которых уже ищем оптимальный
• Повторяем данную процедуру k раз, получаем k моделей
• Итоговые ответ – усреднение всех предсказаний
Поздравляем, вы получили Random Forest. У ExtraTrees признаки выбираются случайно
Важно понимать, сколько образцов в одном
листе и какая глубина деревьев
3

4.

Бустинг (Boosting)
Каждый следующий базовый алгоритм в бустинге обучается так, чтобы уменьшить общую ошибку всех
своих предшественников.
LightGBM, XGB и тд являются реализациями идеи градиентного
бустинга с деревьями решений в качестве базовых алгоритмов
LightGBM строит деревья
по принципу: «На каждом
шаге делим вершину с
наилучшим скором»
XGBoost строит деревья по
принципу: «Строим дерево
последовательно по
уровням до достижения
максимальной глубины»
Важные параметры моделей – глубина
деревьев и скорость обучения
4

5.

Гиперпараметры моделей МО
• параметры настраиваются в процессе обучения модели на данных. Например, структура решающего
дерева;
• гиперпараметры — это характеристики модели, которые фиксируются до начала обучения: глубина
решающего дерева, learning rate для градиентного бустинга
Качество модели очень сильно варьируется в зависимости от гиперпараметров
Очень важно настроить гиперпараметры модели. Для этого есть несколько способов:
• Grid search – последовательный перебор
• Random search – рандомный набор гиперпараметров
• Bayes search – использование вероятностных моделей
Занимает какое-то
большое время
5

6.

Интерпретируемость модели
Получили модель с хорошей предсказательной точностью – всё? НЕТ. Нужно понять, как
работает наша модель, интерпретировать её предсказания (очень важно там, где требуется
понимание процессов: наука/бизнес)
Знаем, как работает модель, значит можем понять зависимости, недоступные естественному
интеллекту + доверие к предсказываемому результату
SHAP – очень сильный инструмент
Сортировка по
важности
Значение SHAP для i-ого параметра
Рассчитывается
на всех
возможных
комбинациях
параметров
Предсказание с i-ым
параметром
Предсказание
без него
Цвет
отвечает за
значение
параметра
Чем дальше по горизонтали – тем важнее фича
(право – предсказание увеличивается, лево –
уменьшается)
6

7.

Практика
https://colab.research.google.com/drive/1p3Wcb1lCpvIPP53JpW5d1Mcc5PanfFEg?usp=sharing
7

English Русский Правила

Предсказание магнитных свойств наночастиц для биомедицинских применений. Деревья принятие решений. Ансамбли

1.

2.

3.

4.

5.

6.

7.