本科生学深度学习一残差网络,解决梯度消失和爆炸

看到订阅的激励还在继续,今天写下残差网络

1、梯度爆炸和梯度消失

梯度爆炸和梯度消失是两种常见的问题,由神经网络的结构和参数初始化方式引起。它们都与深度神经网络中的反向传播过程相关。

梯度爆炸:这是指在反向传播期间,梯度逐渐增大并最终超出了有效范围。这通常发生在深度神经网络中,因为梯度在每一层的权重更新中相乘。如果初始梯度较大,多次相乘会导致梯度值呈指数增长,最终导致梯度爆炸。这会使权重值变得非常大,使网络不稳定,难以训练。

举个例子:5 *5 *5在多次乘积之后数据指数级增长,在训练的时候参数调整很难快速到位。

梯度消失:这是指在反向传播期间,梯度逐渐减小并最终变得非常小,接近零。这通常发生在深度神经网络中,因为梯度在每一层的权重更新中相乘。如果初始梯度较小,多次相乘会导致梯度值逐渐趋近于零。这导致底层的权重几乎不更新,这些层几乎没有学习到有用的信息,从而限制了网络的深度。

举个例子:0.1 *0.1 *0.1 在多次乘积之后就非常小,在计算机中小数的表示是不精确的,相当于无限趋近于0

2、残差网络

ResNet引入了残差连接,允许信息在不同层之间直接跳跃传递。

这样,网络可以学习将输入映射到残差(差异),而不是直接映射到目标输出。这种残差学习的方式使得在训练过程中更容易传递梯度,因为网络可以轻松地学习将输入信息添加到输出中,而不需要学习复杂的非线性变换。

在一般的卷积神经网络中,网络的输出是输入数据的映射,即y=F(x),也就是输入数据进行卷积和激活函数后的输出,如下图。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-13 23:56:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-13 23:56:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-13 23:56:03       87 阅读
  4. Python语言-面向对象

    2024-04-13 23:56:03       96 阅读

热门阅读

  1. 网络安全工程师必知的100+文件类型

    2024-04-13 23:56:03       29 阅读
  2. jquery 实现倒计时

    2024-04-13 23:56:03       40 阅读
  3. 探索 IT 行业的广阔前景

    2024-04-13 23:56:03       37 阅读
  4. AI是什么?

    2024-04-13 23:56:03       39 阅读
  5. Human Motion Diffusion Model 安装

    2024-04-13 23:56:03       45 阅读
  6. 《程序员的选择逻辑与思考》

    2024-04-13 23:56:03       31 阅读
  7. 4月12日,每日信息差

    2024-04-13 23:56:03       31 阅读