【论文共读】【翻译】ShuffleNet v1:一种用于移动设备的极其高效的卷积神经网络

[原文地址] https://arxiv.org/pdf/1707.01083
[翻译]

0. 摘要

我们介绍了一种计算效率极高的CNN架构,称为ShuffleNet,该架构专为计算能力非常有限的移动设备(例如,10-150 MFLOPs)而设计。新架构利用了两个新操作,即逐点组卷积和信道随机,在保持准确性的同时大大降低了计算成本。在ImageNet分类和MS COCO目标检测上的实验表明,在40 MFLOPs的计算预算下,ShuffleNet的性能优于其他结构,例如,在ImageNet分类任务上,top-1误差(绝对值为7.8%)低于最近的MobileNet [12]。在基于 ARM 的移动设备上,ShuffleNet 的实际加速比 AlexNet 高出 ∼13×,同时保持了相当的精度。

1. 简介:

构建更深入、更大规模的卷积神经网络(CNNs)是解决主要视觉识别任务的主要趋势[21,9,33,5,28,24]。最准确的 CNN 通常有数百层和数千个通道 [9, 34, 32, 40],因此需要以数十亿次 FLOP 进行计算。本报告探讨了相反的极端情况:在数十或数百MFLOPs的非常有限的计算预算中追求最佳精度,重点关注无人机、机器人和智能手机等常见移动平台。请注意,许多现有的工作 [16, 22, 43, 42, 38, 27] 侧重于剪枝、压缩或低比特,代表“基本”网络架构。在这里,我们的目标是探索一种高效的基本架构,专门为我们所需的计算范围而设计。

我们注意到,由于密集 1 × 1 卷积的成本高昂,Xception [3] 和 ResNeXt [40] 等最先进的基本架构在极小的网络中效率降低。我们建议使用逐点群卷积减少 1 × 1 卷积的计算复杂度。为了克服群卷积带来的副作用,我们提出了一种新颖的通道洗牌操作,以帮助信息在特征通道之间流动。基于这两种技术,我们构建了一种高效的架构,称为 ShuffleNet。与 [30, 9, 40] 等流行的结构相比,对于给定的计算复杂度预算,我们的 ShuffleNet 允许更多的特征图通道,这有助于编码更多信息,对于非常小的网络的性能尤其重要。

我们在具有挑战性的ImageNet分类[4,29]和MS COCO对象检测[23]任务中评估了我们的模型。一系列的对照实验表明,我们的设计原则是有效的,并且比其他结构具有更好的性能。与最先进的架构MobileNet[12]相比,ShuffleNet在40 MFLOPs的水平上实现了显著的卓越性能,例如,在40 MFLOPs的水平上,ImageNet top-1误差绝对降低了7.8%。

我们还研究了真实硬件(即现成的基于 ARM 的计算核心)上的加速。与AlexNet [21]相比,ShuffleNet模型实现了∼13×的实际加速(理论加速为18×),同时保持了相当的精度。

2. 相关工作

高效的模型设计
近年来,深度神经网络在计算机视觉任务中取得了成功[21,36,28],其中模型设计起着重要作用。在嵌入式设备上运行高质量深度神经网络的需求日益增长,这促进了对高效模型设计的研究[8]。例如,GoogLeNet [33]与简单地堆叠卷积层相比,以更低的复杂性增加了网络的深度。SqueezeNet [14] 在保持准确性的同时显著减少了参数和计算量。ResNet [9, 10] 利用高效的瓶颈结构实现了令人印象深刻的性能。SENet [13] 引入了一个架构单元,该单元以较小的计算成本提高了性能。与我们并行,一个非常临近的工作[46]采用强化学习和模型搜索来探索高效的模型设计。所提出的移动NASNet模型与我们的对应ShuffleNet模型具有相当的性能(26.0% @ 564 MFLOPs,而ImageNet分类误差为26.3% @ 524 MFLOPs)。但是[46]没有报告在极小的模型上的结果(例如,复杂度小于150 MFLOPs),也没有评估移动设备上的实际推理时间。

分组卷积
分组卷积的概念最初是在AlexNet[21]中引入的,用于在两个GPU上分布模型,在ResNeXt [40]中已经很好地证明了其有效性。Xception[3]中提出的深度可分离卷积概括了Inception系列[34,32]中可分离卷积的思想。最近,MobileNet [12] 利用深度可分离卷积,在轻量级模型中获得了最先进的结果。我们的工作以一种新的形式推广了分组卷积和深度可分离卷积。

信道随机操作
据我们所知,尽管CNN库cuda-convnet [20]支持“随机稀疏卷积”层,相当于随机通道洗牌后跟一组卷积层,但在以往关于高效模型设计的工作中,信道洗牌操作的思想很少被提及。这种“随机洗牌”操作的目的各不相同,后来很少被利用。最近,另一项并发工作[41]也采用了这种思想进行两阶段卷积。然而,[41]并未专门研究通道洗牌本身的有效性及其在微小模型设计中的应用。

模型加速:
这个方向旨在加速推理,同时保持预训练模型的准确性。修剪网络连接 [6, 7] 或通道 [38] 可减少预训练模型中的冗余连接,同时保持性能。文献中提出了量化[31, 27, 39, 45, 44]和因式分解[22, 16, 18, 37],以减少计算中的冗余,加快推理速度。在不修改参数的情况下,通过FFT [25, 35]和其他方法[2]实现的优化卷积算法在实践中减少了时间消耗。Distilling [11] 将知识从大模型转移到小模型,这使得训练小模型变得更容易。

Channel Shuffle with two stacked group convolution

3. 方法

3.1 基于分组卷积的信道随机操作
现代卷积神经网络[30, 33, 34, 32, 9, 10]通常由具有相同结构的重复构建块组成。其中,最先进的网络,如Xception [3]和ResNeXt [40],在构建块中引入了高效的深度可分离卷积或群卷积,以在表示能力和计算成本之间取得很好的权衡。然而,我们注意到,这两种设计都没有完全考虑 1 × 1 卷积(在 [12] 中也称为逐点卷积),这需要相当大的复杂性。例如,在 ResNeXt [40] 中,只有 3 × 3 层配备了群卷积。因此,对于 ResNeXt 中的每个残差单元,逐点卷积占据了 93.4% 的乘法加法(基数 = 32,如 [40] 中所示)。在微小网络中,昂贵的逐点卷积导致满足复杂性约束的通道数量有限,这可能会严重损害精度。

为了解决这个问题,一个简单的解决方案是Y 通道稀疏连接,例如分组卷积,也在 1 层× 1 层上。通过确保每个卷积仅在相应的输入通道组上运行,分组卷积可显著降低计算成本。但是,如果多个组卷积堆叠在一起,则有一个副作用:某个通道的输出仅来自一小部分输入通道。图1(a)说明了两个堆叠群卷积层的情况。很明显,某个组的输出只与该组内的输入相关。此属性会阻止通道组之间的信息流动,并削弱表示性。

如果我们允许组卷积从不同的组获取输入数据(如图1(b)所示),则输入和输出通道将完全相关。具体来说,对于从前一个组层生成的特征图,我们可以先将每个组中的通道划分为几个子组,然后为下一层的每个组提供不同的子组。这可以通过通道随机操作高效而优雅地实现(图 1 (c)):假设一个卷积层,其输出有 g 个组,其输出有 g 个× n 个通道;我们首先将输出通道维度重塑为 (g, n),转置然后将其展平作为下一层的输入。请注意,即使两个卷积具有不同数量的组,该操作仍会生效。此外,信道随机播放也是可微分的,这意味着它可以嵌入到网络结构中进行端到端训练。

通道随机操作使得构建具有多个组卷积层的更强大的结构成为可能。在下一小节中,我们将介绍一个具有通道随机和组卷积的高效网络单元。
ShuffleNet Units

3.2 ShuffleNet 单元
利用信道洗牌操作的优势,我们提出了一种专为小型网络设计的新型ShuffleNet单元。我们从图2(a)中瓶颈单元[9]的设计原理开始。它是一个残余块。在其残差分支中,对于 3 × 3 层,我们在瓶颈特征图上应用了计算经济的 3 × 3 深度卷积 [3]。然后,我们用逐点组卷积替换前 1 层× 1 层,然后进行通道洗牌操作,形成一个 ShuffleNet 单元,如图 2 (b) 所示。第二个逐点组卷积的目的是恢复通道维度以匹配快捷路径。为简单起见,我们不会在第二层逐点层之后应用额外的通道随机播放操作,因为它会产生可比的分数。批量归一化 (BN) [15] 和非线性的使用与 [9, 40] 类似,不同之处在于我们没有像 [3] 所建议的那样在深度卷积后使用 ReLU。至于大步应用 ShuffleNet 的情况,我们只需进行两个修改(见图 2 (c)):(i) 在快捷路径上添加 3 × 3 的平均池化;(ii)用信道串联代替元素加法,这使得扩大信道维度变得容易,而额外的计算成本很小。

由于具有通道随机播放的逐点组卷积,可以有效地计算 ShuffleNet 单元中的所有分量。与ResNet [9](瓶颈设计)和ResNeXt [40]相比,在相同设置下,我们的结构复杂度更低。例如,给定输入大小 c × h × w 和瓶颈通道 m,ResNet 单元需要 hw(2cm + 9m2 ) FLOPs,而 ResNeXt 有 hw(2cm + 9m2/g) FLOPs,而我们的 ShuffleNet 单元只需要 hw(2cm/g + 9m) FLOPs,其中 g 表示卷积的组数。换句话说,给定计算预算,ShuffleNet 可以使用更广泛的特征图。我们发现这对于小型网络至关重要,因为小型网络通常没有足够的通道来处理信息。此外,在 ShuffleNet 中,深度卷积仅在瓶颈特征图上执行。尽管深度卷积通常具有非常低的理论复杂度,但我们发现很难在低功耗移动设备上有效实现,这可能是由于与其他密集操作相比,计算/内存访问比率较差。[3]中也提到了这样的缺点,它有一个基于TensorFlow [1]的运行时库。在 ShuffleNet 单元中,我们故意仅在瓶颈上使用深度卷积,以尽可能防止开销。

3.3 网络架构
基于 ShuffleNet 单元构建,我们在表 1 中展示了整体的 ShuffleNet 架构。所提出的网络主要由一堆 ShuffleNet 单元组成,这些单元分为三个阶段。每个阶段中的第一个构建块以步幅 = 2 应用。一个阶段内的其他超参数保持不变,对于下一个阶段,输出通道将增加一倍。与 [9] 类似,我们将瓶颈通道数设置为每个 ShuffleNet 输出通道数的 1/4 单位。我们的目的是提供一个尽可能简单的参考设计,尽管我们发现进一步的超参数调优可能会产生更好的结果。

在 ShuffleNet 单元中,组号 g 控制逐点卷积的连接稀疏性。表 1 探讨了不同的组数,我们调整了输出通道,以确保总计算成本大致保持不变 (∼140 MFLOPs)。显然,在给定的复杂度约束下,较大的组数会导致更多的输出通道(因此需要更多的卷积滤波器),这有助于编码更多信息,尽管由于相应的输入通道有限,它也可能导致单个卷积滤波器的退化。在第 4.1.1 节中,我们将研究这个数字在不同计算约束下的影响。

为了将网络定制为所需的复杂性,我们可以简单地在通道数量上应用比例因子 s。例如,我们将表 1 中的网络表示为“ShuffleNet 1×”,则“ShuffleNet s×”表示将 ShuffleNet 1× 中的滤波器数量缩放 s 倍,因此总体复杂度大约是 ShuffleNet 1× 的 s 2 倍。

ShuffleNet architecture

4. 实验

我们主要在ImageNet 2012分类数据集[29,4]上评估我们的模型。我们遵循 [40] 中使用的大部分训练设置和超参数,但有两个例外:(i) 我们将权重衰减设置为 4e-5 代替1e-4 并使用线性衰减学习率策略(从 0.5 降低到 0);(ii) 我们使用稍微不那么激进的规模增强进行数据预处理。[12]中也引用了类似的修改,因为这种小型网络通常遭受欠拟合而不是过拟合。在 4 个 GPU 上训练模型进行 3×105 次迭代需要 1 到 2 天,其批处理大小设置为 1024。作为基准测试,我们比较了ImageNet验证集上的单次裁剪top-1性能,即从256×输入图像裁剪224×224个中心视图并评估分类精度。我们对所有模型使用完全相同的设置,以确保公平的比较。

4.1 消融研究
ShuffleNet的核心思想在于逐点组卷积和通道洗牌操作。在本小节中,我们将分别评估它们

4.1.1 逐点群卷积
为了评估逐点组卷积的重要性,我们比较了相同复杂度的 ShuffleNet 模型,其组数范围从 1 到 8。如果组数等于 1,则不涉及逐点组卷积,然后 ShuffleNet 单元变为“类似 Xception”[3] 结构。为了更好地理解,我们还将网络的宽度扩展到 3 种不同的复杂度,并分别比较它们的分类性能。结果如表2所示。

从结果中,我们看到具有群卷积 (g > 1) 的模型始终比没有逐点组卷积 (g = 1) 的模型表现更好。较小的模型往往从组中获益更多。例如,对于 ShuffleNet 1×最佳条目 (g = 8) 比对应条目高 1.2%,而对于 ShuffleNet 0.5× 和 0.25×差距分别变为 3.5% 和 4.4%。请注意,对于给定的复杂性约束,群卷积允许更多的特征图通道,因此我们假设性能增益来自更广泛的特征图,这有助于编码更多信息。此外,较小的网络涉及更薄的特征图,这意味着它从扩大的特征图中受益更多。

表2还显示,对于某些模型(例如ShuffleNet 0.5×),当组数变得相对增加时(例如 g = 8),分类分数饱和甚至下降。随着组数的增加(因此特征图更宽),每个卷积滤波器的输入通道变得更少,这可能会损害表示能力。有趣的是,我们还注意到,对于较小的模型(如 ShuffleNet 0.25×较大的组数往往能始终如一地获得更好的结果,这表明更广泛的特征图为较小的模型带来了更多好处。
在这里插入图片描述
ShuffleNet vs. MobileNet

4.1.2 频道随机播放与无随机播放
随机操作的目的是使能多个组卷积层的跨组信息流。表 3 比较了有/没有通道随机播放的 ShuffleNet 结构(例如,组数设置为 3 或 8)的性能。评估是在三种不同的复杂程度下进行的。很明显,频道随机播放会持续提升不同设置的分类分数。特别是当组数相对较大(例如g = 8)时,具有信道随机性的模型明显优于对应模型,这表明了跨组信息交换的重要性

4.2. 与其他结构单元的比较
VGG [30]、ResNet [9]、GoogleNet [33]、ResNeXt [40] 和 Xception [3] 中的最新领先卷积单元在大型模型(例如 ≥ 1GFLOPs)中追求最先进的结果,但没有充分探索低复杂度条件。在本节中,我们将调查各种构建块,并在相同的复杂性约束下与 ShuffleNet 进行比较。为了公平比较,我们使用表 1 中所示的整体网络架构。我们将第 2-4 阶段的 ShuffleNet 单元替换为其他结构,然后调整通道数量以确保复杂性保持不变。我们探索的结构包括:

  • 像VGG一样。遵循VGG网络[30]的设计原则,我们使用两层3×3卷积作为基本构建块。与 [30] 不同,我们在每次卷积后添加一个批量归一化层 [15],以使端到端训练更容易。
  • ResNet的。我们在实验中采用了“Bottleneck”设计,这在[9]中得到了更有效的证明。与 [9] 相同,瓶颈比率 1 也是 1
  • Xception 类似网络。[3]中提出的原始结构涉及到不同阶段的花哨设计或超参数,我们发现在小型模型上很难进行公平的比较。取而代之的是,我们从 ShuffleNet 中删除了逐点组卷积和通道洗牌操作(也等效于 g = 1 的 ShuffleNet)。派生的结构与[3]中的“深度可分离卷积”思想相同,在这里称为类似Xception的结构
  • ResNeXt。我们使用 [40] 中建议的基数 = 16 和bottleneck 比率 = 1 : 2 的设置。我们还探索了其他设置,例如 bottleneck 比率 = 1:4,并得到了类似的结果。

我们使用完全相同的设置来训练这些模型。结果如表4所示。我们的 ShuffleNet 模型在不同的复杂性下明显优于大多数其他模型。有趣的是,我们发现特征图通道与分类精度之间存在经验关系。例如,在38 MFLOPs复杂度下,类VGG、ResNet、ResNeXt、Xception、ShuffleNet模型的Stage 4(见表1)的输出通道分别为50、192、192、288、576,与准确性的提高。由于 ShuffleNet 的高效设计,我们可以在给定的计算预算下使用更多通道,因此通常会产生更好的性能.

请注意,上述比较不包括GoogleNet或Inception系列[33,34,32]。我们发现为小型网络生成这样的 Inception 结构并非易事,因为 Inception 模块的原始设计涉及太多的超参数。作为参考,第一个GoogleNet版本[33]具有31.3%的top-1误差,代价为1.5 GFLOPs(见表6)。更复杂的Inception版本[34,32]更准确,但是,复杂性显着增加。最近,Kim等人提出了一种名为PVANET[19]的轻量级网络结构,该结构采用Inception单元。我们重新实现的PVANET(输入大小为224×224)的分类误差为29.7%,计算复杂度为557 MFLOPs,而我们的ShuffleNet 2x模型(g = 3)在524 MFLOPs的计算复杂度为26.3%(见表6)。

4.3 与MobileNets和其他框架的比较
最近,Howard等人提出了MobileNets[12],主要关注移动设备的高效网络架构。MobileNet 从 [3] 中采用了深度可分离卷积的思想,并在小型模型上取得了最先进的结果

表 5 比较了各种复杂度级别的分类分数。很明显,我们的 ShuffleNet 模型在所有复杂性方面都优于 MobileNet。尽管我们的 ShuffleNet 网络是专门为小型模型(< 150 MFLOP)设计的,但我们发现它仍然比 MobileNet 更好.

4.4. 泛化能力
为了评估迁移学习的泛化能力,我们在 MS COCO 对象检测任务上测试了我们的 ShuffleNet 模型 [23]。我们采用 Faster-RCNN [28] 作为检测框架,并使用公开发布的 Caffe 代码 [28, 17] 进行训练,默认设置如下。与[12]类似,模型在COCO train+val数据集上训练,不包括5000张minival图像,并在minival集上进行测试。表 7 显示了在两种输入分辨率下训练和评估的结果的比较。比较 ShuffleNet 2× 与MobileNet, 其复杂度为(524 对 569 MFLOP),我们的 ShuffleNet 2× 在两种分辨率上都大大超过了 MobileNet;我们的 ShuffleNet 1× 在 600× 分辨率上也取得了与 MobileNet 相当的结果,但复杂度降低了 ∼4×。我们推测,这一显著的收益部分归功于 ShuffleNet 的简单架构设计,没有花里胡哨。

4.5. 实际加速评估
最后,我们评估了ShuffleNet模型在具有ARM平台的移动设备上的实际推理速度。尽管具有较大组数(例如 g = 4 或 g = 8)的 ShuffleNet 通常具有更好的性能,但我们发现它在当前的实现中效率较低。从经验上讲,g = 3 通常在精度和实际推理时间之间有适当的权衡。如表8所示,该测试利用了三种输入分辨率。由于内存访问和其他开销,我们发现理论复杂度每降低 4×通常会导致实现的实际加速 ∼2.6×。尽管如此,与AlexNet [21]相比,我们的ShuffleNet 0.5×模型在相当的分类精度下(理论加速比为18×)仍然实现了∼13×的实际加速,这比以前的AlexNet级别的模型或加速方法(如[14, 16, 22, 42, 43, 38])要快得多。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 10:00:01       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 10:00:01       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 10:00:01       45 阅读
  4. Python语言-面向对象

    2024-07-20 10:00:01       55 阅读

热门阅读

  1. 前端经验:使用sheetjs导出CSV文本为excel

    2024-07-20 10:00:01       16 阅读
  2. autohotkey自动化执行vim命令

    2024-07-20 10:00:01       20 阅读
  3. 开源虚拟加密盘VeraCrypt命令行使用方法

    2024-07-20 10:00:01       14 阅读
  4. DP 203 学习笔记

    2024-07-20 10:00:01       16 阅读
  5. python实现建立一个学生成绩管理系统

    2024-07-20 10:00:01       19 阅读
  6. redis是如何实现过期时间一到就删除key

    2024-07-20 10:00:01       20 阅读
  7. 从零开始!Jupyter Notebook的安装教程

    2024-07-20 10:00:01       16 阅读
  8. django命令

    2024-07-20 10:00:01       15 阅读