Policy Optimization
本文主要对基于策略优化定理的强化学习算法及相关变体进行一个梳理和总结。
Preliminaries
一个马尔可夫决策过程(Markov decision process, MDP)可以由五元组
表示状态空间,是由状态构成的集合 表示动作空间,是由动作构成的集合 表示奖励函数, 表示在状态 下执行动作 获得的奖励 表示状态转移概率函数, 表示在状态 下执行动作 到达状态 的概率 表示折扣因子 表示状态初始分布
Agent 的决策过程由一个随机策略
优势函数:
策略梯度定理:
Approximately Optimal Approximate Reinforcement Learning
Kakade, S. & Langford, J. Approximately Optimal Approximate Reinforcement Learning. in Proceedings of the Nineteenth International Conference on Machine Learning 267–274 (Morgan Kaufmann Publishers Inc., 2002).
本文提出了三个想要回答的问题:
- 是否存在性能度量可以保证每一步更新都有提升?
- 验证某个更新提升该性能度量有多么困难?
- 在一定合理的次数的策略更新后,策略性能能达到什么样的水平?
考虑如下保守策略更新规则:
to be continue......
TRPO
Schulman, J., Levine, S., Moritz, P., Jordan, M. & Abbeel, P. Trust region policy optimization. in Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37 1889–1897 (JMLR.org, 2015).
策略优势定理:
根据式
当
上述优化稳定的约束很难进行技术员,可以使用平均
PPO
Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal Policy Optimization Algorithms. Preprint at http://arxiv.org/abs/1707.06347 (2017).
TRPO的优化目标为:
IMPALA
Espeholt, L. et al. IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures. in Proceedings of the 35th International Conference on Machine Learning 1407–1416 (PMLR, 2018).
IMPALA 采用异步收集经验的方式来提高采样效率,使用 V-trace 解决采样策略和更新策略不一致的问题。
V-trace Target
其中,
V-trace 可以由如下递归形式计算:
Off-Policy TRPO
Meng, W., Zheng, Q., Shi, Y. & Pan, G. An Off-Policy Trust Region Policy Optimization Method With Monotonic Improvement Guarantee for Deep Reinforcement Learning. IEEE Transactions on Neural Networks and Learning Systems 33, 2223–2235 (2022).
策略优势定理为
Off-Policy PPO
Meng, W., Zheng, Q., Pan, G. & Yin, Y. Off-Policy Proximal Policy Optimization. Proceedings of the AAAI Conference on Artificial Intelligence 37, 9162–9170 (2023).
off-policy trpo 的 clip 近似形式,使用如下 clipped surrogate object:
Behavior PPO
Zhuang, Z., Lei, K., Liu, J., Wang, D. & Guo, Y. Behavior Proximal Policy Optimization. in Proceedings of the eleventh International Conference on Learning Representation (2023).
在线同策略算法天然可以解决离线强化学习问题
该工作的架构为 BC(行为克隆)+RL(强化学习),RL部分通过保守更新和
根据
提出其在 offline dataset
考虑在离线数据集
考虑状态从离线数据集
上述结论可写为:
预览: