【深度学习】这千层transformer让我目瞪口呆
作者:十方
见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to 1000 Layers>它来了。它提出了一个简单有效的方法来训练"极深"的transformer。这篇论文提出了一个新的标准化方程(DEEPNORM)去修改transformer中的残差链接。该论文有着非常深入的理论分析模型在训练过程中参数更新是非常稳定的,使得1000层的transformer诞生,并且在各项指标上吊打其他模型。
DEEPNORM
基于Post-LN的transfomer,该文实现了DEEPNORM(如下图伪代码所示)。与Post-LN相比,DEEPNORM在进行layer-norm之前会扩大残差连接。除此以外,在初始化过程中降低了参数的比例。需要注意的是,该方法只会扩大前馈网络的权值的规模,以及attention层的投影值。
DEEPNET基于transformer架构,不同的就是用了deepnorm替换每层的post-LN,如下式所示,Gl是第l层attention和feed-forward网络:
下图中我们发现对比Post-LN,DeepNet更新更加稳定。
实验
参考文献
DeepNet: Scaling Transformers to 1000 Layers
https://arxiv.org/pdf/2203.00555.pdf
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑 AI基础下载机器学习交流qq群955171419,加入微信群请扫码: 与50位技术专家面对面20年技术见证,附赠技术全景图总结
以上是生活随笔为你收集整理的【深度学习】这千层transformer让我目瞪口呆的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 用python画三维图、某区域的高程,p
- 下一篇: 【深度学习】研究揭秘:神经网络越大、表现