YOLOv10改进 | 添加注意力篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)

一、本文介绍

本文给大家带来的改进机制是SENet（Squeeze-and-Excitation Networks）其是一种通过调整卷积网络中的通道关系来提升性能的网络结构。SENet并不是一个独立的网络模型，而是一个可以和现有的任何一个模型相结合的模块(可以看作是一种通道型的注意力机制)。在SENet中，所谓的挤压和激励（Squeeze-and-Excitation）操作是作为一个单元添加到传统的卷积网络结构中，如残差单元中(后面我会把修改好的残差单元给大家大家直接复制粘贴即可使用)。这样可以增强模型对通道间关系的捕获，提升整体的特征表达能力，而不需要从头开始设计一个全新的网络架构。因此，SENet可以看作是对现有网络模型的一种改进和增强(亲测大中小三中目标检测上都有一定程度的涨点效果)。

专栏回顾：YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备

一、本文介绍

二、SENetV1框架原理

三、SENetV1核心代码

四、手把手教你添加SENetV1模块

4.1 SENetV1添加步骤

4.1.1 步骤一

4.1.2 步骤二

4.1.3 步骤三

4.2 SENetV1的yaml文件和训练截图

4.2.1 SENetV1的yaml版本一(推荐)

4.2.2 SENetV1的yaml版本二

4.3 推荐SENetV1可添加的位置

4.4 SENetV1的训练过程截图

五、本文总结

二、SENetV1框架原理

论文地址：官方论文地址

代码地址：官方代码地址

SENet（Squeeze-and-Excitation Networks）的主要思想在于通过挤压-激励（SE）块强化了网络对通道间依赖性的建模。这一创新的核心在于自适应地重新校准每个通道的特征响应，显著提升了网络对特征的表示能力。SE块的叠加构成了SENet架构，有效提高了模型在不同数据集上的泛化性。SENet的创新点包括其独特的结构设计，它在增加极少计算成本的情况下，为现有CNN模型带来了显著的性能提升，并在国际图像识别竞赛ILSVRC 2017中取得了突破性的成果

上图展示了一个挤压-激励（Squeeze-and-Excitation, SE）块的结构。输入特征图 $X$ 经过一个变换 $F_{tr}$ 后产生特征图 $U$ 。然后，特征图 $U$ 被压缩成一个全局描述子，这是通过全局平均池化 $F_{sq}$ 实现的，产生一个通道描述子。这个描述子经过两个全连接层 $F_{ex}$ ，第一个是降维，第二个是升维，并通过激活函数如ReLU和Sigmoid激活。最后，原始特征图 $U$ 与学习到的通道权重 $F_{scale}$ 相乘，得到重新校准的特征图 $hat{X}$ 。这种结构有助于网络通过学习通道间的依赖性，自适应地强化或抑制某些特征通道。

上面的图片展示了两种神经网络模块的结构图：Inception模块和残差（ResNet）模块。每个模块都有其标准形式和一个修改形式，对比图融入了Squeeze-and-Excitation (SE)块来提升性能。

左面的部分是原始Inception模块（左）和SE-Inception模块（右）。SE-Inception模块通过全局平均池化和两个全连接层（第一个使用ReLU激活函数，第二个使用Sigmoid函数）来生成通道级权重，然后对输入特征图进行缩放。

右面的部分展示了原始残差模块（左）和SE-ResNet模块（右）。SE-ResNet模块在传统的残差连接之后添加了SE块，同样使用全局平均池化和全连接层来获得通道级权重，并对残差模块的输出进行缩放。

这两个修改版模块都旨在增强网络对特征的重要性评估能力，从而提升整体模型的性能。

三、SENetV1核心代码

下面的代码是MSDA的核心代码，我们将其复制导'ultralytics/nn/modules'目录下，在其中创建一个文件，我这里起名为Dilation然后粘贴进去，其余使用方式看章节四。

import torch
from torch import nn
from .conv import Conv

__all__ = ['C2f_SENetV1', 'SELayerV1']

class SELayerV1(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayerV1, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)


class Bottleneck(nn.Module):
    """Standard bottleneck."""

    def __init__(self, c1, c2, shortcut=True, g=1, k=(3, 3), e=0.5):
        """Initializes a bottleneck module with given input/output channels, shortcut option, group, kernels, and
        expansion.
        """
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, k[0], 1)
        self.cv2 = Conv(c_, c2, k[1], 1, g=g)
        self.SE = SELayerV1(c2)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        """'forward()' applies the YOLO FPN to input data."""
        return x + self.SE(self.cv2(self.cv1(x))) if self.add else self.SE(self.cv2(self.cv1(x)))


class C2f_SENetV1(nn.Module):
    """Faster Implementation of CSP Bottleneck with 2 convolutions."""

    def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):
        """Initialize CSP bottleneck layer with two convolutions with arguments ch_in, ch_out, number, shortcut, groups,
        expansion.
        """
        super().__init__()
        self.c = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, 2 * self.c, 1, 1)
        self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)
        self.m = nn.ModuleList(Bottleneck(self.c, self.c, shortcut, g, k=((3, 3), (3, 3)), e=1.0) for _ in range(n))

    def forward(self, x):
        """Forward pass through C2f layer."""
        y = list(self.cv1(x).chunk(2, 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))

    def forward_split(self, x):
        """Forward pass using split() instead of chunk()."""
        y = list(self.cv1(x).split((self.c, self.c), 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))

四、手把手教你添加SENetV1模块

4.1 SENetV1添加步骤

4.1.1 步骤一

首先我们找到如下的目录'ultralytics/nn/modules'，然后在这个目录下创建一个py文件，名字为你也可以根据你自己的习惯起即可，然后将核心代码复制进去。

4.1.2 步骤二

之后我们找到'ultralytics/nn/tasks.py'文件，在其中注册我们的模块。

首先我们需要在文件的开头导入我们的模块，如下图所示->

4.1.3 步骤三

我们找到parse_model这个方法，可以用搜索也可以自己手动找，大概在六百多行吧。我们找到如下的地方，然后将模块按照我的方法添加进去即可，模仿我添加即可，其中另外的模块，你没有删除即可，添加红框的内容即可。

到此我们就注册成功了，可以修改yaml文件使用我们添加的模块了。

4.2 SENetV1的yaml文件和训练截图

下面推荐几个版本的yaml文件给大家，大家可以复制进行训练，但是组合用很多具体那种最有效果都不一定，针对不同的数据集效果也不一样，我不可每一种都做实验，所以我下面推荐了几种我自己认为可能有效果的配合方式，你也可以自己进行组合。

4.2.1 SENetV1的yaml版本一(推荐)

此版本运行信息：YOLOv10n-C2f-SENetV1 summary: 449 layers, 2721302 parameters, 2721286 gradients, 8.4 GFLOPs

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov10n.yaml' will call yolov10.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
  - [-1, 3, C2f_SENetV1, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
  - [-1, 6, C2f_SENetV1, [256, True]]
  - [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16
  - [-1, 6, C2f_SENetV1, [512, True]]
  - [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f_SENetV1, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]] # 9
  - [-1, 1, PSA, [1024]] # 10

# YOLOv10.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 3, C2f_SENetV1, [512]] # 13

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 3, C2f_SENetV1, [256]] # 16 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 13], 1, Concat, [1]] # cat head P4
  - [-1, 3, C2f_SENetV1, [512]] # 19 (P4/16-medium)

  - [-1, 1, SCDown, [512, 3, 2]]
  - [[-1, 10], 1, Concat, [1]] # cat head P5
  - [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)

  - [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)

4.2.2 SENetV1的yaml版本二

此版本的运行信息：YOLOv10n-SENetV1 summary: 406 layers, 2727542 parameters, 2727526 gradients, 8.4 GFLOPs

下面的版本我在大中小三个检测层的输出部分添加了SENetV1(实验版本也是我根据这个yaml文件跑出来的)，大家可以根据自己的需求，减少SENetV1比如你做的小目标检测，那么可以把另外两个去去掉，但是别忘了修改检测通道数，要不然会报错。

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov10n.yaml' will call yolov10.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]] # 9
  - [-1, 1, PSA, [1024]] # 10

# YOLOv10.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 3, C2f, [512]] # 13

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 3, C2f, [256]] # 16 (P3/8-small)
  - [-1, 1, SELayerV1, []] # 17 (P3/8-small)  小目标检测层输出位置增加注意力机制

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 13], 1, Concat, [1]] # cat head P4
  - [-1, 3, C2f, [512]] # 20 (P4/16-medium)
  - [-1, 1, SELayerV1, []] # 21 (P4/16-medium) 中目标检测层输出位置增加注意力机制

  - [-1, 1, SCDown, [512, 3, 2]]
  - [[-1, 10], 1, Concat, [1]] # cat head P5
  - [-1, 3, C2fCIB, [1024, True, True]] # 24 (P5/32-large)
  - [-1, 1, SELayerV1, []] # 25 (P5/32-large) 大目标检测层输出位置增加注意力机制

  # 如果你自己配置注意力位置注意from[17, 21, 25]位置要对应上对应的检测层！
  - [[17, 21, 25], 1, v10Detect, [nc]] # Detect(P3, P4, P5)

4.3 SENetV1的训练过程截图

下面是添加了SENetV1的训练截图。

大家可以看下面的运行结果和添加的位置所以不存在我发的代码不全或者运行不了的问题大家有问题也可以在评论区评论我看到都会为大家解答(我知道的)。

4.4 训练代码

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO
 
if __name__ == '__main__':
    model = YOLO('ultralytics/cfg/models/v8/yolov8-C2f-FasterBlock.yaml')
    # model.load('yolov8n.pt') # loading pretrain weights
    model.train(data=r'替换数据集yaml文件地址',
                # 如果大家任务是其它的'ultralytics/cfg/default.yaml'找到这里修改task可以改成detect, segment, classify, pose
                cache=False,
                imgsz=640,
                epochs=150,
                single_cls=False,  # 是否是单类别检测
                batch=4,
                close_mosaic=10,
                workers=0,
                device='0',
                optimizer='SGD', # using SGD
                # resume='', # 如过想续训就设置last.pt的地址
                amp=False,  # 如果出现训练损失为Nan可以关闭amp
                project='runs/train',
                name='exp',
                )

五、本文总结

到此本文的正式分享内容就结束了，在这里给大家推荐我的YOLOv10改进有效涨点专栏，本专栏目前为新开的平均质量分98分，后期我会根据各种最新的前沿顶会进行论文复现，也会对一些老的改进机制进行补充，目前本专栏免费阅读(暂时，大家尽早关注不迷路~)，如果大家觉得本文帮助到你了，订阅本专栏，关注后续更多的更新~