欢迎访问 如意编程网!

如意编程网

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 | Improving neural networks by preventing co-adaptation of feature detectors

发布时间:2024/5/15 编程问答 2 豆豆
如意编程网 收集整理的这篇文章主要介绍了 论文笔记 | Improving neural networks by preventing co-adaptation of feature detectors 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

Authors

G. E. Hinton , N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov

Hinton

Abstract

训练时随机忽略一半的feature detectors 能够防止因训练集太小带来的过拟合问题。这能够防止一些detectors联合在一起才起作用的情况,每个神经元预测一个特征有利于提高准确率,这种dropout的方法能提高很多benchmark的成绩。

Dropout每一个单元都以0.5的概率被忽略,所以使得神经元们不能相互依赖另外一个角度:模型平均(融合),相当于权重共享的模型的平均。

使用标准的随机梯度下降法,但是修改了loss的惩罚项,将L2设定为只有upper bound L2,只有当超过upper bound的时候才被惩罚,也就是约束代替了惩罚,使得可以以较大的learning rate,也就增大了搜索空间。

测试的时候使用了“mean network”结果取1/2,相当于很多很多的网络的平均,结果比用dropout之后再平均的结果要好。

一般来说提高训练效果的措施:
1. 使用transformed image
2. wiring knowledge about spatial transformations into a convnet
3. 使用预训练模型提取训练图片的特征
这里什么都没有用,再MNIST没有dropout时160个错误,50%的dropout得到130个错误,在输入加入20%的dropout得到110个错误。

在与训练模型上可以使用dropout只是需要减小lr,去掉weight约束,比如在deep belief net上微调之前118个错误,微调后92个错误。
才外在boltzmann机,阴马尔客服的语音识别上也有较好的应用:

其他放方面的应用也挺好,对于全链接层网络,把所有的隐含层都dropout,比单独dropout一层要好,对于输入也可以适当的dropout一点。
此外作者还与bayes/bagging/naive bayes/evolution等相比较,认为每次训练都可以看成基因的重组,bagging,naive bayes中的单独对特征的判断。
不得不佩服作者的推断与解说。
另外还有一片文章《Dropout: A Simple Way to Prevent Neural Networks from overfitting》分析的更详细,有兴趣的可以看看。
还有一副比较dropout前后特征的图:

总结

以上是如意编程网为你收集整理的论文笔记 | Improving neural networks by preventing co-adaptation of feature detectors的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得如意编程网网站内容还不错,欢迎将如意编程网推荐给好友。