DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)
- 原文题目:Policy Gradient Methods for Reinforcement Learning with Function Approximation
- 作者:Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour
- 发表时间:2000年
- 主要内容:强化学习中使用函数近似的策略梯度方法。得出了策略梯度的表达式,进一步推导了使用函数近似情况下的计算问题,最后证明这样的方法可以收敛到局部最优。
文章目录
- 0 基本的定义
- 1 策略梯度定理
- 2 函数近似条件下的策略梯度理论