【深度学习】【BN】batch normalization（批量归一化）详解

2024-01-31 06:26:04
开发
62

批量归一化（batch normalization）开山之作：# Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
时间：2015年

训练深层神经网络是十分困难的，特别是在较短的时间内使他们收敛更加棘手。批量归一化是一种流行且有效的技术，尤其是可以加速深层网络的收敛速度。

1、为什么使用批量归一化？

首先关注一个问题，当我们的网络层比较深的时候，从我们的输入到输出的距离比较远，数据在下层，损失函数在上层。forward从下到上（从数据到损失）计算，backwards从上到下计算。梯度越在上面越容易大，越在下面（越靠近数据）越容易小（因为是n个很小的数进行相乘）。所以，在每次更新的时候，上层的网络梯度比较大，容易不断更新；而下层的网络梯度比较小，更新幅度较小。所以，==上层的部分会很容易收敛，而下层的更新就很慢。==我们知道，网络下层的部分（靠近数据，底层）抽取数据的细节特征，上层在底层抽取的信息基础上，抽取抽象特征。这就带来一个问题：下层抽取的特征如果改变了，上层就要重新开始训练。（底层虽然不容易更新，但也在不断更新。同时，顶层虽然更新快，但也随着底层的改变不断重新学习特征）。最终导致网络整体收敛慢。如何避免顶层总是重新学习（从头更新）？这就是批量归一化要解决的问题。
请添加图片描述

2、批量归一化

2.1 核心思想

为什么上层那些数据（特征）总是会改变？因为它们在不同层之间的均质和方差不同，也就是数据分布特征不统一。

核心思想：如果我们让每一层的数据，无论是输出还是梯度，都符合相同的某种分布，数据就变得稳定。比如，把每一层的均值变成0，方差变成1，固定住，变成正态分布。某一层的数据相对特征可以细调，但总的来说，这一层是符合某种分布的。这样，数据更新的时候就不会进行大的改变，容易学习底层细微的变动。

2.2 归一化的实现

2.2.1 固定小批量里面的均值和方差

$B$ 代表mini-batch， $\mu_B$ 代表均值， $\sigma^2_{B}$ 代表方差， $\epsilon$ 是一个很小的数（用于调节方差不为0）。

$\mu_B=\frac{1}{\lvert B \rvert}\sum_{i\in B}x_i \space and \space \sigma^{2}_{B}=\frac{1}{\lvert B \rvert}\sum_{i\in B}(x_i-\mu_{B})^2+\epsilon$

2.2.2 再做调整

$x_i$ 是我们的小批量中的某个输入，减去均值再处以方差得到输出。 $\mu_B$ 和 $\sigma_B^2$ 是根据批量算出来的。这里的 $\gamma$ 和 $\beta$ 是机器可以学习的参数，如果某个分布特征不合适的话，可以用这两个参数进行调整。

$x’_{i}=\gamma\frac{x_i-\mu_B^2}{\sigma_B}+\beta$

3、批量归一化层

可习参数为 $\gamma$ 和 $\beta$ 。

存放（作用）位置：

1、全连接层和卷积层输出后，并且在激活函数之前；
2、全连接层和卷积层输入前。

对于1：为什么要在激活函数，如ReLu函数（ $f (x) = ma x (0, x)$ ）之前？我还没得到确切的原因，李沐也没有讲清楚。我看了一些关于BN（Batch Normalization）存放顺序的讨论，私以为可以看看这个：讨论BN和ReLu先后顺序。最终结论：大部分人认为BN放在ReLu之后更好，并且做了大量实验验证确实如此，这和李沐的观点相反。

对于2：对全连接层来说，是面向特征维的；对卷积层来说，是面向通道维的。具体可以看一下全连接层和卷积层的区别。

4、批量归一化在做什么？

最初思想是用它来减少内部协变量偏移。

后续有论文指出，它可能就是通过在每个小批量里面加入噪声来控制模型复杂度。在公式 $x’_{i}=\gamma\frac{x_i-\mu_B^2}{\sigma_B}+\beta=$ 中， $\mu^2_B$ （偏移）和 $\sigma_B$ （缩放）都是根据当前批量计算出来的数值，所以具有一定的随机性。说白了，就是我们也无法知道这个数值到底是多少，每一层都不一样，所以是某种噪声。 $\gamma$ 和 $\beta$ 可以学习，而且每次变化很细微，取决于learning rate。

所以，在做的事情就是：通过随机的偏移和缩放与不剧烈的、可学的参数来控制数据。

讨论：每个人的理解不同，有些人也许不这样认为批量归一化的工作机理，各说纷云。工程走在了理论的前面。

5、总结

批量归一化固定小批量中的均值和方差，后学习出适合的偏移和缩放
可以加速收敛速度，但一般不改变模型精度。所以，你可以通过加入BN来调高你的学习率。也许你之前的学习率是0.01，加入BN后你可以调整到0.1。原因：之前梯度太大，上层梯度爆炸；梯度太小，下层更新慢。加入之后，每层放在相似的分布，可以用一个较大的学习率。

原文地址:https://blog.csdn.net/kiong_/article/details/135924016 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1752458181042376704.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部