
PP-LCNet: A Lightweight CPU Convolutional Neural Network




1. Introduction|介绍

在近几年中,卷积神经网络(CNNs)成为了计算机视觉领域中众多应用的核心工具,涵盖了诸如图像分类[1, 2]、目标检测[3]、注意力预测[4]、目标跟踪[5]、动作识别[6]、语义分割[7, 8]、显著目标检测[9]以及边缘检测[10]等多个方面。

随着模型特征提取能力的提升以及模型参数和运算量(FLOPs)的增加,基于ARM架构的移动设备和基于x86架构的CPU设备上实现快速推理变得越来越具挑战性。在这种情况下,尽管已经提出了许多适用于移动设备的优秀网络模型,但由于MKLDNN框架的限制,这些网络在支持MKLDNN的Intel CPU上的运行速度并不理想。本文针对这一问题,重新审视了基于Intel CPU设计的轻量级模型的构建要素。特别关注以下三个基本问题:

  • 如何在保持低延迟的同时,增强网络学习强大特征表示的能力。
  • 哪些关键因素有助于提升CPU上轻量级模型的准确度。
  • 如何有效地融合不同的设计策略,以在CPU上构建高效的轻量级模型。


2. Related Works|相关工作


  • 人工设计架构方面
    • VGG[12]提出了一种简单而有效的构建深层网络的策略:堆叠相同维度的块。
    • GoogLeNet[13]则创新地设计了Inception块,包括四个并行操作:1×1卷积、3×3卷积、5×5卷积和最大池化,使得卷积神经网络更加轻量级。
    • MobileNetV1[14]通过深度可分卷积和逐点卷积替代了标准卷积,大幅降低了参数和运算量。
    • MobileNetV2[15]进一步提出了倒置块,减少了FLOPs的同时提升了性能。
    • ShuffleNetV1/V2[16,17]通过通道混洗减少网络结构的冗余。
    • GhostNet[18]则提出了一种新颖的Ghost模块,用更少的参数生成更多的特征图,从而提升模型的整体性能
  • 在神经架构搜索方面
    • 通过自适应地针对特定任务进行系统化搜索,取代了传统的手动设计网络架构。
    • 如**EfficientNet[19]、MobileNetV3[20]、FBNet[21]、DNANet[22]、OFANet[23]**等,都采用了与MobileNetV2[15]相似的搜索空间。
    • MixNet[24]则提出了一种创新方法,通过在一个层中混合不同核大小的深度可分卷积


3. Approach|方法

尽管许多轻量级网络在基于ARM架构的设备上能实现快速推理,但在启用MKLDNN等加速策略的Intel CPU上,这些网络的性能却很少被考虑。许多用于提升模型准确度的方法在ARM设备上可能不会显著增加推理时间,但在Intel CPU设备上则可能不同。我们总结了一些能够在几乎不增加推理时间的情况下提升模型性能的方法,这些方法将在下文中详细阐述。我们采用了MobileNetV1[14]中提出的深度可分卷积(DepthSepConv)作为基本模块。这个模块不包含如短路shortcut等操作,因此避免了额外的操作,如拼接concat或逐元素elementwise-add相加,这些操作不仅会降低模型的推理速度,而且在小型模型上也不会提高准确度。此外,这个模块已被Intel CPU加速库深度优化,其推理速度可以超过其他轻量级模块,如倒置块inverted或ShuffleNet块。我们将这些模块堆叠起来,形成了一个类似于MobileNetV1[14]的BaseNet。通过将BaseNet与现有的一些技术相结合,我们构建了一个更强大的网络,即PP-LCNet。

3.1 Better activation function|更好的激活函数


Swish 激活函数已经被证明是一种比 ReLU 更佳的激活函数,但是相比 ReLU,它的计 算更复杂,因为有 sigmoid 函数。为了能够在移动设备上应用 swish 并降低它的计算开销, 提出了 h-swish

  • swish激活函数

s w i s h ( x ) = x ∗ δ ( x ) swish(x) = x * \delta(x) swish(x)=xδ(x)

  • h-swish激活函数

h s w i s h ( x ) = x ∗ R e L U 6 ( x + 3 ) 6 hswish(x) = x* \frac {ReLU6(x+3)} {6} hswish(x)=x6ReLU6(x+3)

  • 图像

3.2 SE modules at appropriate positions|合适位置放置SE模块

自SE模块[26]提出以来,它已被广泛应用于众多网络中。这个模块帮助SENet[26]赢得了2017年ImageNet[27]分类竞赛。它在为网络通道赋予更好的特征方面表现出色,并且其速度改进版本也被许多轻量级网络,如MobileNetV3[20]所采用。然而,在Intel CPU上,SE模块[26]会增加推理时间,所以我们不能在整个网络中使用它。实际上,我们进行了大量实验并发现,当SE模块[26]位于网络的末端时,它的效果更好。因此,只在网络尾部的块中添加了SE模块[26]。这使得准确度与速度之间达到了更好的平衡。与MobileNetV3[20]类似,SE模块[26]的两层激活函数分别是ReLU和HSigmoid。

3.3 Larger convolution kernels|更大的卷积核


3.4 Larger dimensional 1 × 1 conv layer after GAP


通过这四种改进,我们的模型在ImageNet-1k[27]数据集上表现良好,表3列出了我们在Intel CPU上与其他轻量级模型的性能对比。


4. Experiment|实验

4.1 Implementation Details|实现细节

为了进行公平的比较,使用PaddlePaddle重新实现了MobileNetV1[14]、MobileNetV2[15]、MobileNetV3[20]、ShuffleNetV2[17]、PicoDet[29]和Deeplabv3+[8]。在4块V100 GPU上训练这些模型,CPU测试环境基于Intel Xeon Gold 6148处理器,批处理大小为1,并启用了MKLDNN加速。

4.2 Image Classification|图像分类

在图像分类任务中,在ImageNet-1k[27]数据集上对PP-LCNet进行了训练,该数据集包含128万张训练图像和5万张1000个类别的验证图像。使用了带有权重衰减设置为3e-5(大型模型为4e-5)的SGD优化器,动量设置为0.9,批处理大小为2048。学习率根据余弦调度进行调整,用于训练360个epoch,其中包含5个线性预热epoch。初始学习率设为0.8。 在训练阶段,每个图像被随机裁剪到224×224并随机水平翻转。在评估阶段,首先将图像沿短边缩放到256,然后应用中心裁剪到224×224。表2展示了不同规模下PP-LCNet的top-1和top-5验证准确度以及推理时间。此外,使用SSLD[28]蒸馏方法时,模型的准确度可以显著提高。表3展示了PP-LCNet与最先进模型的比较。与其他轻量级模型相比,PP-LCNet展现了强大的竞争力。

4.3 Object Detection|目标检测


4.4 Semantic Segmentation|语义分割

在语义分割任务中,还对PP-LCNet在Cityscapes数据集[31]上的性能进行了评估,该数据集包含5000张高质量标注的图像。我们采用了由PaddleSeg开发的DeeplabV3+[8]作为基准方法,并将输出步长设置为32。数据通过随机水平翻转、随机缩放和随机裁剪进行增强。随机缩放包括{0.5, 0.75, 1.0, 1.25, 1.5, 1.75, 2.0},裁剪分辨率设置为1024 × 512。我们使用初始学习率为0.01的SGD优化器,动量为0.9,权重衰减为4e-5。我们采用幂函数学习率计划,幂值为0.9。所有模型在4块V100 GPU上以32的批大小训练了80K次迭代。


4.5 Ablation Study|消融研究

  • SE模块[26]在不同位置的效果
    • SE模块[26]是一种通道间的注意力机制,能够提高模型的准确性。
    • 然而,如果随意增加SE模块[26]的数量,模型的推理速度将会下降,因此研究如何合理地在模型中添加SE模块[26]是值得的。
    • 通过实验,我们发现SE模块[26]对网络的尾部影响最大。
    • 表7展示了在网络不同位置添加仅两个SE模块[26]的结果。表格清楚地显示,在网络的最后两个块中添加SE模块[26]对于几乎相同的推理时间更为有利。
    • 因此,为了平衡推理速度,PP-LCNet只在网络的最后两个块中添加SE模块[26]。

  • 大核在不同位置的影响
    • 尽管大核可以提高准确度,但在网络的所有位置添加它并不是最佳选择。
    • 通过实验,已经展示了正确添加大核的一般规则。表8展示了5×5深度可分离卷积的位置。其中,1表示DepthSepConv中的深度可分离卷积核为5×5,0表示DepthSepConv中的深度可分离卷积核为3×3。
    • 从表中可以看出,与SE模块[26]添加的位置相似,将5×5卷积添加到网络的尾部也更具竞争力。PP-LCNet选择了表中第三行的配置。
  • 不同技术的影响。
    • 在PP-LCNet中,采用了4种不同的技术来提升模型的性能。
    • 表9展示了这些技术对PP-LCNet的累积提升,表6则列出了减少不同模块对PP-LCNet的影响。
    • 可以看出,H-Swish和大核能够在不增加太多推理时间的情况下提升模型性能
    • 增加少量SE模块[26]能进一步提升性能
    • GAP之后使用更大的全连接层也能显著提高准确度
    • 同时,由于涉及相对较大的矩阵,dropout策略的使用能够进一步提高模型的准确度


5. Conclusion and Future work

本研究总结了设计轻量级Intel CPU网络的一些方法,这些方法能够在保持推理时间不变的同时提高模型的准确性。尽管这些方法源自于以往的研究,但它们在准确性与速度之间的平衡尚未通过实验得到充分验证。通过广泛的实验和对这些方法的验证,我们提出了PP-LCNet,它在多个视觉任务上表现更加强大,并且实现了更好的准确性与速度平衡。此外,这项工作还减少了神经架构搜索(NAS)的搜索空间,并为NAS提供了更快获得轻量级模型的可能性。在未来,我们也将使用NAS来获得更快、更强大的模型。


任务:分类图片中是否有人还是无人,先git clone paddleclas项目,然后进入项目;


  • 安装paddlepaddle
# CPU only
python3 -m pip install paddlepaddle==2.5.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

# CUDA 10.2
python3 -m pip install paddlepaddle-gpu==2.5.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

# CUDA 11.2
python3 -m pip install paddlepaddle-gpu==2.5.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

# CUDA 11.6
python3 -m pip install paddlepaddle-gpu==2.5.2.post116 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

# CUDA 11.7
python3 -m pip install paddlepaddle-gpu==2.5.2.post117 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

# CUDA 12.0
python3 -m pip install paddlepaddle-gpu==2.5.2.post120 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
  • 安装paddleclas
pip install paddleclas


wget https://paddleclas.bj.bcebos.com/data/PULC/person_exists.tar

  • nobody:标签0
  • someone:标签1



python3 -m paddle.distributed.launch \
    --gpus="0,1" \
    tools/train.py \
        -c ./ppcls/configs/PULC/person_exists/PPLCNet_x1_0.yaml



python3 tools/eval.py \
    -c ./ppcls/configs/PULC/person_exists/PPLCNet_x1_0.yaml \
    -o Global.pretrained_model="output/PPLCNet_x1_0/best_model"


模型训练完成之后,可以加载训练得到的预训练模型,进行模型预测。在模型库的 tools/infer.py 中提供了完整的示例,只需执行下述命令即可完成模型预测:

python3 tools/infer.py \
    -c ./ppcls/configs/PULC/person_exists/PPLCNet_x1_0.yaml \
    -o Global.pretrained_model=output/PPLCNet_x1_0/best_model


[{'class_ids': [1], 'scores': [0.9999976], 'label_names': ['someone'], 'file_name': 'deploy/images/PULC/person_exists/objects365_02035329.jpg'}]
  • 这里-o Global.pretrained_model="output/PPLCNet_x1_0/best_model" 指定当前最佳权重所在的路径,如果指定其他权重,只需替换对应的路径即可。
  • 默认是对 deploy/images/PULC/person_exists/objects365_02035329.jpg 进行预测,此处也可以通过增加字段 -o Infer.infer_imgs=xxx 对其他图片预测。
  • 二分类默认的阈值为0.5, 如果需要指定阈值,可以重写 Infer.PostProcess.threshold ,如-o Infer.PostProcess.threshold=0.9794,该值需要根据实际场景来确定。



