Fork me on GitHub

Temporal-Difference Learning in Reinforcement Learning

如果说找一个RL中的关键和核心的算法,那毫无疑问就是TD(temporal-Difference Learning)算法。它结合了DP(Dynamic Programming)算法中使用部分数据对状态值函数进行估计的优点和MC(Monte Carlo)算法中不需要环境的动态信息的优点。本文从RL算法的两个通用问题出发来阐述TD算法。一个问题是在给定策略时如何估算状态值函数,这个问题被称为预测问题(prediction problem)。另一个问题是如何去找最优的策略,这个问题被称为控制问题(control problem)。其中DP,TD,MC算法的控制问题都是借助GPI(generalized policy iteration)来解决的,他们的差异主要体现在预测问题上。

No pain, No gain