为什么GRU和LSTM能够缓解梯度消失或梯度爆炸问题?

1、什么是梯度消失(gradient vanishing)?

      参数更新过小,在每次更新时几乎不会移动,导致模型无法学习。

2、什么是梯度爆炸(gradient exploding)?

      参数更新过小大,破坏了模型的稳定收敛。

3、利用梯度截断来缓解梯度爆炸问题

\textbf{g}\leftarrow min\left ( 1,\frac{\theta }{\left \| \mathbf{g} \right \|} \right )\mathbf{g}

4、门控循环单元(GRU)与普通的循环神经网络之间的关键区别是:GRU支持隐状态门控。模型有专门的机制来确定应该何时来更新隐状态,以及何时重置隐状态。这些机制是可学习的。

5、长短期记忆网络(LSTM)引入记忆元,记忆元的设计目的是用于记录附加的信息。为了控制记忆元,需要许多门,输入门、遗忘门和输出门。

6、GRU和LSTM中的门控设计策略,能够有助于缓解梯度消失或梯度爆炸问题。主要是解决长序列梯度计算中幂指数大小的问题(长序列意味着高阶幂指数计算,容易导致梯度极大或极小),可以通过门控设计来直接减少幂指数大小(直接干掉大阶数,替换为合理数值),从而缓解梯度消失或梯度爆炸问题。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-20 08:42:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-20 08:42:02       101 阅读
  3. 在Django里面运行非项目文件

    2023-12-20 08:42:02       82 阅读
  4. Python语言-面向对象

    2023-12-20 08:42:02       91 阅读

热门阅读

  1. 前端技术基建过程

    2023-12-20 08:42:02       52 阅读
  2. 编写CI/CD自动化部署脚本

    2023-12-20 08:42:02       60 阅读
  3. 小爱音箱pro接入gpt和语音控制电脑

    2023-12-20 08:42:02       271 阅读
  4. cfa一级考生复习经验分享系列(六)

    2023-12-20 08:42:02       58 阅读
  5. 深入剖析NPM: Node包管理器的介绍和使用指南

    2023-12-20 08:42:02       62 阅读
  6. 华为HCIP-Routing & Switching 路由与交换专业认证

    2023-12-20 08:42:02       48 阅读