欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》

发布时间:2025/4/5 编程问答 36 豆豆
生活随笔 收集整理的这篇文章主要介绍了 #论文 《Towards Binary-Valued Gates for Robust LSTM Training》 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。

这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处:

  • 和设计遗忘门和记忆门的初衷更加符合,让记忆的就记住,遗忘的就忘掉。让这些门开就是开,关就是关,而不是所有门都模模糊糊的在中间值附近游荡。

  • 0-1化的模型参数,更容易压缩。

  • 泛化能力更强。

  • 作者验证了门的输出对于输入值不敏感,可以通过low-rank approximation and low-precision approximation对数据进行压缩,压缩后得到的模型的性能没有下降,反而更加鲁棒和更有泛化性。

    下面是直观的表示,是否二值化前后的门中的值的数据分布对比,可以看出,确实更加显著的向两端分化了。

     

     

    最主要要学习的思想,还是验证假设的思想。在LSTM中,对遗忘门和记忆门的假设,去真正看下门内的值的分布,从而去探究模型内部是否有问题,然后才想办法去纠正这个问题,查看是否会有提升。

     

     

    总结

    以上是生活随笔为你收集整理的#论文 《Towards Binary-Valued Gates for Robust LSTM Training》的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。