АЛГОРИТМ Q-LEARNING И ЕГО ПРИМЕНЕНИЕ
Q-LEARNING
Q-ТАБЛИЦА
ФОРМУЛА Q-ЗНАЧЕНИЯ
ПРИМЕР
СИСТЕМА ВОЗНАГРАЖДЕНИЙ
РЕЗУЛЬТАТЫ ОБУЧЕНИЯ
СПАСИБО ЗА ВНИМАНИЕ
820.41K

ALGORITM_Q-LEARNING_I_EGO_PRIMENENIE

1. АЛГОРИТМ Q-LEARNING И ЕГО ПРИМЕНЕНИЕ

АЛГОРИТМ QLEARNING И ЕГО
ПРИМЕНЕНИЕ
АНУФРИЕВ Н. А. АБ-220

2. Q-LEARNING

Это алгоритм обучения с подкреплением, который позволяет
агенту оптимизировать свою стратегию действий в динамичной
среде, стремясь максимизировать сумму будущих наград
Агент исследует среду, принимая решения, основанные на
предыдущем опыте, а не на предварительной модели мира

3. Q-ТАБЛИЦА

Допустим, есть простая среда с четырьмя возможными
состояниями S1, S2, S3, S4 и двумя возможными действиями A1,
A2 в каждом состоянии
Q-таблица для этой среды выглядела бы примерно так:

4. ФОРМУЛА Q-ЗНАЧЕНИЯ

5. ПРИМЕР

Вся прелесть алгоритма Q-learning в том, что он работает тогда,
когда агент даже и не знает КАК добиться желаемого результата
(«model-free»)

6. СИСТЕМА ВОЗНАГРАЖДЕНИЙ

За каждый ход агент получает
отрицательную награду (-1) —
стимулирует агента сокращать
число сделанных ходов, а за
достижение конечной точки —
положительную награду (+100)
— стимулирует агента перейти в
эту точку

7. РЕЗУЛЬТАТЫ ОБУЧЕНИЯ

После обучения в течение 99
эпизодов агент уверенно
находит оптимальный маршрут

8. СПАСИБО ЗА ВНИМАНИЕ

English     Русский Правила