当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（九）Deep Q-Learning进阶之Nature DQN

发布时间：2025/4/5 编程问答 32 豆豆

生活随笔收集整理的这篇文章主要介绍了强化学习（九）Deep Q-Learning进阶之Nature DQN 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

　　在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。

　　　　本章内容主要参考了ICML 2016的deep RL tutorial和Nature DQN的论文。

1. DQN(NIPS 2013)的问题

　　　　在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现，虽然它可以训练像CartPole这样的简单游戏，但是有很多问题。这里我们先讨论第一个问题。

　　　　注意到DQN(NIPS 2013)里面，我们使用的目标Q值的计算方式：

yj={RjRj+γmaxa′Q(ϕ(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(ϕ(Sj′),Aj′,w)is_endjisfalse

　　　　这里目标Q值的计算使用到了当前要训练的Q网络参数来计算Q(ϕ(S′j),A′j,w)Q(ϕ(Sj′),Aj′,w)，而实际上，我们又希望通过yjyj来后续更新Q网络参数。这样两者循环依赖，迭代起来两者的相关性就太强了。不利于算法的收敛。

　　　　因此，一个改进版的DQN: Nature DQ

《新程序员》：云原生和全面数字化实践50位技术专家共同创作，文字、视频、音频交互阅读

总结

以上是生活随笔为你收集整理的强化学习（九）Deep Q-Learning进阶之Nature DQN的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：强化学习（八）价值函数的近似表示与Dee
下一篇：强化学习（十）Double DQN (D