Похожие презентации:
DynaQ_presentation
1.
Dyna-Q: объединениепланирования, исполнения и
обучения
Презентация по задаче обучения с
подкреплением
Магистерский уровень
2.
Введение• Рассматривается задача обучения агента в
лабиринте.
• Агент может двигаться в четырех
направлениях: вверх, вниз, влево, вправо.
• Цель — достичь целевого состояния,
избегая препятствий.
• За достижение цели выдается
положительное вознаграждение, за иные
действия — нулевое.
3.
Алгоритмы решения задачи• 1. Q-Learning — классическое обучение с
подкреплением, без моделирования среды.
• 2. SARSA — обучение на основе действий,
реально выполненных агентом.
• 3. Dyna-Q — объединяет обучение с
реальными взаимодействиями и
моделированием среды (планированием).
4.
Сравнение алгоритмов поэффективности
• • Q-Learning: высокая точность, но
медленное сходимость при большом
пространстве состояний.
• • SARSA: более безопасное обучение, но
схожая сложность с Q-Learning.
• • Dyna-Q: за счет моделирования среды
достигает более быстрой сходимости.
• Временная сложность:
5.
Алгоритм Dyna-Q: принципработы
• 1. Агент выполняет действие и получает
награду.
• 2. Обновляется Q-значение, как в QLearning.
• 3. Сохраняется переход (s, a, r, s').
• 4. Производятся несколько итераций
планирования — обучение на основе
модели среды.
• 5. Повтор до сходимости или достижения
цели.
6.
Псевдокод Dyna-Q• Инициализация Q(s, a)
• Пока не окончено обучение:
• Выбрать действие a в состоянии s (εжадная стратегия)
• Выполнить a, получить награду r и новое
состояние s'
• Q(s, a) ← Q(s, a) + α * [r + γ * max_a' Q(s',
a') − Q(s, a)]
• Сохранить переход (s, a, r, s') в модель
7.
Результаты экспериментов• • В экспериментах Dyna-Q агент достигал
цели быстрее, чем Q-Learning.
• • При увеличении числа планировочных
шагов улучшалось качество обучения.
• • Эффективность зависела от параметров: α
= 0.1, γ = 0.95, ε = 0.1.
8.
Выводы• • Dyna-Q объединяет обучение и
планирование, повышая скорость
сходимости.
• • Подходит для задач с известной или
частично моделируемой средой.
• • Эффективность повышается за счет
использования внутренней модели среды.
• • Является основой для современных
методов, таких как Dyna-Q+ и Dyna-2.