当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习note2——value iteration和policy iteration的区别，MC和TD的区别

发布时间：2025/1/21 编程问答 45 豆豆

生活随笔收集整理的这篇文章主要介绍了强化学习note2——value iteration和policy iteration的区别，MC和TD的区别小编觉得挺不错的,现在分享给大家,帮大家做个参考.

value iteration和policy iteration的区别
value iteration: ①多次迭代Bellman最优等式和Bellman等式，等价值函数收敛后，②再用价值函数带入贝尔曼等式得到动作价值函数，策略就从最大的动作价值函数选取。（策略没有参与）

policyiteration：①随机选取一个策略policy，用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛，②再用价值函数求得动作价值函数，策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。
对①②③进行多次迭代直到策略收敛。（策略一直参与）

MC和TD的区别
MC：基本的MC算法是采集n条轨迹，假设计算s1状态的价值函数，先取某一条轨迹中的n个不同时刻s1状态的回报相加再除以n就得到这条轨迹上s1状态的价值函数，然后按此方法计算其他轨迹的s1状态的价值函数，这样就得到n个s1状态的价值函数，最后取平均值即可。

TD：增量型MC算法的变种，它相较于增量型MC算法，不需要agent与环境交互直到得到一条完整的轨迹，它只需要与环境进行一次交互得到一个 $R_{t+1}$ ，然后采用DP算法进行迭代计算。

value iteration，policy iteration和MC，TD的区别

value iteration，policy iteration：不仅可以用来对价值函数进行估值，但是需要知道model；还能得到相应的最优的策略

MC，TD：只是用来对价值函数进行估值，不需要知道model

以上是生活随笔为你收集整理的强化学习note2——value iteration和policy iteration的区别，MC和TD的区别的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。