当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

rnn 梯度消失爆炸

发布时间：2024/10/8 编程问答 42 豆豆

生活随笔收集整理的这篇文章主要介绍了 rnn 梯度消失爆炸小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

- 梯度消失和爆炸原理
- - 求导知识
  - RNN推导

梯度消失和爆炸原理

求导知识

$y = x^2$

$dy\mathrm{d} {y}$ 导数

$dydx\Large \frac {\mathcal{d} {y}} {\mathcal{d}{x}}$ 偏导

RNN推导

正向传播：

$a_t=w_xx_t + w_hh_{t-1} + b_t$

$ht=σ(at)h_t = \sigma(a_t)$

$y^=softmax(wyht+by)\hat{y} =softmax(w_yh_t+b_y)$

定义loss：
用logloss，TODO：多分类的logloss为啥是下面的格式？为啥不是 $loss=∑[−ylog(y^)−(1−y)log(1−y^)]loss = \sum[-ylog(\hat{y})-(1-y)log(1-\hat{y})]$

$loss=L=∑i=1n−yilog(yi^)loss = \mathcal{L} = \displaystyle\sum_{i=1}^{n}-y_ilog(\hat{y_i})$

$dLdwt=dLdatdatdwt=dLdat\Large \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}w_t} = \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t} \frac{\mathrm{d}a_t} {\mathrm{d}w_t}= \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t}$

参考1
参考2
参考3

总结

以上是生活随笔为你收集整理的rnn 梯度消失爆炸的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

梯度
RNN