COD综述论文学习笔记

第2.1节：图像级伪装目标检测的一般公式

问题定义

在图像级伪装目标检测（COD）中，主要目标是识别和分割那些设计成与环境融合的目标。由于伪装目标的图案、颜色和纹理与背景非常相似，使得它们很难被检测到，这项任务具有很大的挑战性。

数学公式

问题可以定义如下：

给定一个输入图像 $\in \mathbb{R}^{H \times W \times 3}$ ，其中 $H$ 和 $W$ 分别表示图像的高度和宽度，任务是将该图像 $I$ 映射到一个伪装图 $C$ 。

伪装图 $C$ 的公式可以表示为： $\theta) \in [0, 1]^{H \times W}$ 其中：

$\in \mathbb{R}^{H \times W \times 1}$ 是表示伪装目标存在的预测图。
$F$ 代表具有可训练参数 $\theta$ 的深度学习模型。

监督学习在COD中的应用

在强监督设置中，模型 $F$ 使用一组训练样本进行训练。每个训练样本包括一个输入图像及其对应的真实标签。

优化目标可以表示为： $\theta^* = \arg\min_\theta \ell(C, G)$ 其中：

$\ell(\cdot)$ 是损失函数，例如交叉熵或均方误差，用于测量预测的伪装图 $C$ 与真实标签 $G$ 之间的误差。
$\in \mathbb{R}^{H \times W \times 1}$ 表示真实标签。

真实标签

真实标签 $G$ 可以通过各种方法获得，包括手动标注的像素级掩码。这些标签对于训练和评估深度学习模型在COD中的性能至关重要。

在这里插入图片描述

第2.3节：图像级伪装目标检测的网络架构 - (1) 多流网络

多流网络

多流网络通常由多个子网络流组成（见图3(a)）。一些现有的深度COD模型结构显式地从多源输入中学习多尺度判别特征。例如，MirrorNet包含两个输入，即原始图像和水平翻转图像；ZoomNet使用不同缩放比例的图像作为输入。此外，一些模型通过两个分支分别学习边界和语义信息，并融合多流输出以形成最终预测。具体例子包括：

MirrorNet：包含两个输入，即原始图像和水平翻转图像。
ZoomNet：使用不同缩放比例的图像作为输入。
UR-COD：首先通过两个生成器分别生成伪图和伪边界，然后通过不确定性感知图细化模块细化伪图标签。
BgNet：由两个分支组成，一个分支聚合骨干网络的多层特征以粗略预测潜在伪装目标位置，另一个分支基于初步预测细化特征以获得最终伪装图。
PopNet：探索深度线索对伪装目标分割的贡献。首先使用冻结权重的深度网络推断输入图像的伪深度图，然后将深度图和原始图像输入到对象弹出网络和分割网络以获得伪装图。

多流网络通过多个并行的子网络流来处理不同尺度和来源的特征，并最终融合这些特征以提高伪装目标检测的准确性和鲁棒性。

第2.3节：图像级伪装目标检测的网络架构 - (2) 侧融合网络

侧融合网络 (Side-fusion)

侧融合网络利用了卷积神经网络（CNN）层次结构中固有的多尺度特征（见图3(b)）。侧输出结构通常采用深度监督策略，这种策略使用下采样的真实标签来监督多个中间特征图。在语义分割和显著性检测中，侧融合结构经常被使用。例如，DSS是一个典型的用于显著性物体检测（SOD）的侧输出融合模型。受到相关任务解决方案的启发，有许多图像级伪装目标检测（COD）模型也采用了侧输出融合结构。

C2FNet：使用一种结合感受野扩展和注意机制的融合方法，将从主干网络提取的高级特征融合起来，最终得到伪装预测结果。作为扩展版本，C2FNet不仅在高级主干网络中执行相同的跨层特征融合以获得粗略预测，还使用粗略预测作为注意力图来细化低级特征，以获得最终预测结果。
HitNet：基于 Transfromer 特征提取，设计了一种新颖的递归操作，通过跨尺度反馈机制来细化低分辨率特征。相应的迭代反馈损失被设计用来惩罚每次迭代的输出。
FSPNet：基于ViT作为编码器设计了一种金字塔收缩解码策略，可以逐层恢复目标信息，以渐进的方式生成最终的伪装目标分割结果。

侧融合网络通过结合多尺度特征和深度监督策略，提高了伪装目标检测的准确性和鲁棒性。

第2.3节：图像级伪装目标检测的网络架构 - (3) 自底向上/自顶向下网络

自底向上/自顶向下网络

自底向上/自顶向下网络是语义分割、医学图像分割和显著性目标检测中最常用的结构。U-Net 是一个标准的自底向上/自顶向下网络，其U形结构启发了许多后续算法。在显著性目标检测（SOD）领域，许多算法对U形结构进行了修改。

ICTB-Net：Wang等人提出的ICTB-Net在网络层中配备了递归机制，以在自底向上/自顶向下过程中进行渐进优化。
PAGE-Net：在自底向上/自顶向下结构的基础上配备了金字塔注意模块和显著边缘检测模块。

在伪装目标检测（COD）中，许多方法采用了编码器-解码器结构，如图 3c 所示。

PFNet：使用ResNet-50作为骨干网络提取多尺度特征，然后在高级特征上定位潜在目标。在自底向上的过程中，重点是发现和去除干扰，逐步细化分割结果。
TANet：该网络结构首先由特征提取器生成各种分辨率的特征图。然后，通过精炼和增强每一层的特征，获得最终的预测图。
FEMNet：逐步将频域增强信息与编码器生成的多尺度特征集成，以获得粗略预测图。然后，通过高级关系模块选择高级空间增强特征，并使用另一个解码器生成最终结果。

这些自底向上/自顶向下网络通过编码器-解码器结构和递归机制，提高了伪装目标检测的精度和鲁棒性。

第2.3节：图像级伪装目标检测的网络架构 - (4) 基于Transformer的网络

基于Transformer的网络

近年来，Transformer在计算机视觉中成为一种范式，基于Transformer的模型已经成为最新的技术趋势。例如，DETR将Transformer应用于目标检测，而SETR将纯Transformer应用于语义分割。Swin Transformer（简称SwinT）将Transformer应用于计算机视觉领域的各种任务，使其成为骨干网络。VST是一个基于Transformer的RGB和RGB-D显著性目标检测的统一模型，它利用Transformer在图像块之间传播全局信息。SwinNet是一个用于RGB-D和RGB-T显著性目标检测的跨模态融合模型，它使用双流SwinT作为特征提取器，然后通过空间对齐和通道重新校准模块优化特征。DMT将自注意力的概念应用于挖掘共显性和背景信息，有效地建模它们的区别。Zhang等人提出了一个基于Transformer的模型，该模型使用类别标记来捕捉隐含的类别知识，从而实现准确的RGB-D共显著目标检测。

由于Transformer的巨大潜力，研究人员也将其应用于图像级伪装目标检测。在研究初期，仅在特征编码阶段使用Transformer块作为骨干网。例如，Park等人研究了Transformer在伪装目标检测中的应用，使用SwinT作为骨干网。随后，研究人员探索了CNN和Transformer在特征提取和融合中的互补性，并在模型设计过程中集成了自注意力的理念。

具体应用

UGTR：结合了CNN和Transformer，并在Transformer框架内显式利用概率表示模型来学习伪装目标的不确定性。
CamoFormer：一个受多头自注意力启发的伪装目标检测算法，不仅使用SwinT作为骨干网，还使用多头自注意力的掩码策略进行特征聚合。

虽然基于Transformer的模型数量相对较少，但这表明在这一领域仍有广阔的研究空间。

第2.3节：图像级伪装目标检测的网络架构 - (5) 基于扩散的网络

基于扩散的网络

为了增强模型的鲁棒性，扩散模型被引入到了伪装目标检测（COD）领域。目前，在图像级伪装目标检测任务中对扩散模型的研究相对较少。例如，Chen等人提出了一个名为diffCOD的基于扩散的伪装目标检测框架，该框架将COD任务视为从噪声掩码到目标掩码的去噪扩散过程。

具体应用

diffCOD：该框架将COD任务视为从噪声掩码到目标掩码的去噪扩散过程。
CamDiff：该框架生成显著目标，同时保留原始COD标签，使模型能够区分伪装目标和显著目标，并实现鲁棒的特征表示。
CamoDiffusion：Chen等人提出的CamoDiffusion算法将COD视为使用扩散模型的条件掩码生成任务。它利用扩散模型的去噪过程迭代地减少掩码噪声，并使用设计的网络结构和学习策略生成更准确和泛化的伪装目标分割结果。

目前，深度生成模型在COD领域的潜力尚未完全挖掘，仍有很大的改进空间。例如，为了减少算法偏差，可以通过生成模型增加数据的多样性和规模；为了获得难度较大的伪装样本，可以通过生成模型合成可用的数据集，从而实现特定场景的伪装分割。

第2.3节：图像级伪装目标检测的网络架构 - (6) 基于胶囊的网络

基于胶囊的网络

胶囊的概念最早由Hinton等人于2011年提出。在2017年，提出了胶囊之间的动态路由算法，并构建了一个简单的胶囊网络，称为CapsNet 。CapsNet能够编码空间信息并计算对象存在的概率。它已成功应用于脑肿瘤分类、乳腺癌检测和高光谱图像分类等任务。

在图像级伪装目标检测任务中，目前只有一项受胶囊启发的工作。受此启发，Liu等人研究了部件-对象关系在伪装目标检测中的作用，并提出了一个名为POCINet的网络。该网络包括两个阶段：搜索和识别，并使用CapsNet捕捉部件-对象关系线索。

虽然胶囊的潜力尚未完全挖掘，但研究人员可以借鉴动态路由的理念，为未来在特征提取和融合方面提供新的见解。

第2.4节：学习范式

从学习范式的角度来看，深度模型可以简单地分为两类：单任务学习和多任务学习。

(1) 基于单任务学习的方法

传统的机器学习方法主要基于单任务学习模式，即每次学习一个任务。目前，大多数现有的深度伪装目标检测（COD）方法都属于单任务学习的范畴。例如，SINet、C2FNet、PFNet、SINet-v2、SegMaR和TANet。它们都是设计新颖的模型，以端到端的方式直接生成所需的伪装图，而不依赖其他相关任务的辅助。

(2) 基于多任务学习的方法

多任务学习范式受到人类学习过程的启发，旨在同时学习多个相关任务，以提高当前任务的性能。ASNet使用眼动图从上层学习特征以定位显著目标，并逐步从下层推测细粒度的目标级显著性。同样，在COD任务中，研究人员也采用额外的相关任务来辅助精确的伪装目标分割。例如，ANet采用双流结构，通过同时使用图像分类和语义分割来检测伪装目标。基于CNN的分类流用于感知图像中是否存在伪装目标，基于完全卷积网络（FCN）的分割流用于提供图像中的像素级语义信息。MGL将图像解耦为两个任务特定的特征图，一个用于大致定位目标，另一个用于准确捕捉目标的边界细节。Ren等人使用显著性目标检测（SOD）任务协作实现COD的去伪装，并提出了一个名为CMNet的多任务学习框架。JCNet是一个基于联合显著目标的联合对比学习网络。此外，边缘信息在COD建模中也被探索。例如，在ERRNet中，选择性边缘聚合模块被设计用于生成边缘先验，以缓解弱边界模糊问题。BSANet包括边界引导器，以增强模型理解边界的能力。BGNet使用边缘感知模块，并在边缘引导特征模块中自上而下嵌入边缘线索。

这些内容总结了学习范式在图像级伪装目标检测中的应用，并解释了单任务学习和多任务学习方法的区别。

第2.5节：目标/实例级伪装目标检测

根据是否可以识别出不同的伪装目标实例，现有的深度伪装目标检测（COD）算法可以分为目标级和实例级方法。

(1) 目标级方法

几乎所有现有的深度COD模型都是目标级方法。换句话说，研究人员设计了不同的组件和模块来检测属于伪装目标的像素，而不需要知道单个目标实例。如表5所示，现有的伪装检测深度模型主要关注目标级检测，一些例子包括ANet、C2FNet、ZoomNet、SegMaR、HitNet和FSPNet

(2) 实例级方法

据我们所知，目前只有少数研究探索了伪装实例分割。Le等人开发了一个交互式用户界面，以展示和可视化当前最先进方法在伪装实例分割中的性能。他们首先利用诸如Mask R-CNN、SOLO、CenterMask等已建立的方法提取每个实例目标的边界框，然后在每个边界框内进行二进制分割。Pei等人提出了第一个一阶段框架，名为OSFormer，用于伪装实例分割。该方法考虑了CNN和Transformer的优缺点，并通过粗到细的融合模块有效结合了编码器获得的特征。Le等人首先基于CAMO数据集构建了一个新的大规模数据集，称为CAMO++，并提出了一个伪装实例分割基准和伪装融合学习框架。Luo等人提出了一个去伪装网络（DCNet），以实现伪装实例的准确分割。该网络利用傅里叶变换提取伪装特征，并采用差异注意机制消除伪装特征。此外，引入了一种相似性测量方法，以减轻背景噪声的影响

5.模型实验对比

表8，2023年以前发表的SOTA模型结果对比

在这里插入图片描述
在表8中，segar[42]和ZoomNet[40]表现更好，BGNet 也很有竞争力。其中，segar 利用给定的ground-truth和通过高斯运算展开的边缘标注，生成包含边缘线索的判别掩码，重点关注与伪装相关的边缘信息。此外，设计了目标放大和多阶段训练的迭代细化策略。

ZoomNet 更注重使用置信度感知学习策略检测不确定像素。此外，该模型的性能优势还得益于通过放大策略获取多尺度信息。

BGNet 达到了与ZoomNet[40]竞争的性能，特别是在NC4K数据集上。

表9，2023年发表的11个SOTA模型的结果数据

可以看到当前最好的两个模型分别是 PUENet_V 和 HitNet，_V代表使用混合架构(CNN-Transformer)来作为 backbone (例如SMT)
在这里插入图片描述
在表9中，综合所有结果，PUENet[85]和HitNet[74]在四个伪装数据集上的性能排名前两位，这些数据集代表了COD文件中当前的高级性能。HitNet使用基于Transformer 的主干进行多尺度特征提取，并使用高分辨率迭代反馈机制来避免细节退化。同样，PUENet使用ViT[117]作为主干，引入不确定性估计技术来优化存在于对象边界周围的偏差。OAFormer 在CAMO和COD10K数据集上表现良好，这要归功于它使用 Transformer block 和邻域搜索来捕获特征长距离依赖关系和局部像素细节。然而，在伪装类型少、数据量小的数据集上，如 CHAMELEON，它的检测性能并不突出。

在几乎所有的数据集中，HitNet[74]和PUENet[85]始终优于其他算法。这可能是由于这两种方法都优先考虑了细节优化，以有效地探索候选对象和背景环境之间的隐藏线索。

模型效率分析

如图15所示。式中(a)为参数数量和 metric 在COD10K上的散点图。网点越大，参数数量越多。(b)为推理速度与最大 f-measure 的散点图。点越大，推理越快。可以看出，ZoomNet[40]、segar[42]和CamoFormer[108]模型在精度和参数之间有较好的平衡。DGNet[106]采用了21M参数的轻型骨干网，是所有方法中最轻的模型。ERRNet[17]是比较方法中速度最快的推理模型，运行速度约为58 FPS。此外，由于联合SOD任务，UJSC[25]中的参数数量最多，是DGNet[106]的10倍。因此，它是计算密集型的，限制了推理的速度。结合COD的应用场景，我们认为未来需要一个参数更少、速度更快、精度更高的轻量级解决方案。

在这里插入图片描述
通过上述性能比较和分析，我们可以得出结论，不同的方法在深度学习领域表现出不同的性能差异。对于非专门为COD设计的算法，如SOD模型和医学图像分割模型，它们的研究历史都比COD长，并且从不同的范式提出了各种方法。同时，它们与COD有许多共同的基本思想，如选择有用的深度描述符[2,127]，降低目标边界预测的不确定性[166,169]，以及对原始图像进行解耦以学习目标模式[170,177,178]，可以为COD模型的设计提供有用的启发和参考。此外，针对COD提出的模型，如基于transformer的模型、利用多任务学习策略的模型、基于置信度感知学习策略的模型，对于实现伪装目标的准确分割都具有不同的研究意义。因此，在未来，可以权衡不同策略的优缺点，设计出性能更好、结构更轻量化的COD模型

第6.1节：伪装目标检测中的挑战

相比传统的目标检测和相对成熟的显著目标检测（SOD），伪装目标检测（COD）面临更多的挑战。在本节中，我们从多个角度分析COD的挑战。

1. 伪装定义的困难

尽管伪装问题早已被研究人员提出，例如Gerald等人和Hugh等人在伪装动物研究中的工作，但很少有工作直接将COD作为一个任务来处理。在大多数情况下，研究人员仅仅将伪装视为某些任务中的一个独特过渡状态，随后采用各种技术来减轻或消除其影响。2019年提出了一种基于深度学习的COD方法，并在随后的几年中取得了显著发展。但一个根本问题仍然存在：我们究竟如何定义一个目标是否为伪装目标。具体来说，社区通常将那些与周围环境融合的目标的检测和分割称为“伪装目标检测”。这是因为这些目标通常具有与背景相似的模式。然而，“伪装”的精确定义使我们能够定量评估数据集的多样性和泛化能力，也有助于我们更好地理解当前算法在具有不同伪装级别的数据集上的表现，从而为社区提供新的见解【17:1†source】【17:2†source】。

2. 样本不足

样本不足的问题主要体现在以下几个方面。首先，现有数据集的数量有限。目前，包含伪装目标的图像数量仅略多于5000张。其次，与易获取的一般或显著目标相比，伪装样本较少。第三，准确标注伪装目标的成本较高，高质量的数据集通常需要专业人员进行标注【17:2†source】【17:3†source】。

3. 低可见性

与其他基础计算机视觉任务相比，COD中前景与背景的对比不明显，获取目标的边缘具有挑战性。此外，现有COD数据集的图像背景复杂，存在各种干扰。这种伪装策略可以有效欺骗观察者的视觉感知系统。此外，前述基准分析显示，现有模型生成的伪装图通常存在一些常见缺陷，包括错误分割和模糊边界【17:2†source】【17:12†source】。

4. 多样性

在数据集中，伪装目标的种类繁多。此外，相同的伪装目标在形状、大小、颜色和其他特征上表现出多样性。此外，伪装目标的数量是随机的，场景中的伪装目标在位置、姿态等方面也不相同。这对算法的能力提出了新的挑战【17:2†source】【17:12†source】。

5. 高精度

COD需要一种高精度的方法来检测难以用肉眼观察到的细微区域。它不仅需要尽量减少漏检和误检，还需要高精度的分割区域。然而，由于伪装目标通常具有更复杂的边界和欺骗性的纹理，算法的性能并不令人满意【17:2†source】【17:12†source】。

6. 低开销

随着成像技术的进步，高分辨率图像现在可以为视觉系统提供。在部署算法时，应考虑计算时间和存储资源的成本。例如，模型可能部署在计算能力有限的环境中，例如嵌入式系统。为了与实际应用场景（如现场救援和伪装识别）保持一致，高速实时方法成为研究挑战之一【17:2†source】【17:12†source】。

这些挑战展示了伪装目标检测领域面临的一些关键问题和难点。

第6.2节：未来期望

下一代COD数据集的收集

目前可用的RGB数据集在规模上是有限的。目前，训练中常用的数据集是CAMO和COD10K训练集的组合，总共包含4040张图像，这很难促进深度网络的训练。COD的RGB数据集比其他通用目标检测（例如，PASCAL VOC 2007/2012和Microsoft COCO）或基于RGB的显著性目标检测（例如，DUTS-TR，包含10,553张图像）的数据集要小得多。显然，需要构建新的大规模数据集来促进和推动数据驱动模型的发展。

此外，与快速发展的显著性目标检测（SOD）任务相比，在RGB-D SOD、RGB-T SOD和光场SOD上进行了大量研究。而在COD领域，只有基于RGB的数据集，没有基于RGB-D、RGB-T和光场的COD数据集。因此，这些大规模数据集的未来开发肯定会促进和推动该领域的其他研究。

更重要的是，COD在各种领域如医学图像处理、农业、军事和艺术中展示了巨大的应用潜力。由于视觉外观和语义成分的差异，这些应用场景的伪装机制与传统的自然或人工伪装有很大不同，并且更难以获取。因此，基于扩散模型的深度生成模型可以合成相关数据以解决数据稀缺的问题。

模型能力

从第2节对现有COD模型和结构的分析可以看出，这些网络架构都是基于手工设计的，可能不是最优的。为了找到一种有效的网络拓扑，可以使用自动机器学习算法（如神经架构搜索（NAS））自动搜索具有最佳性能的COD网络拓扑。伪装特征比显著特征更难识别，提取边界细节也更困难。这些困难导致模型的性能不令人满意。因此，模型必须具备强大的特征提取和融合能力。先验信息可以为模型提供有价值的知识，允许它使用传统的图像分解和嵌入的深度神经网络进行分析。这些探索途径在推动SOTA（最新技术）方面具有潜力，并值得进一步研究。

简洁和轻量化的架构

为了增强特征学习能力和模型性能，当前的SOTA COD网络被设计得既深且复杂。然而，由于计算限制，这些网络无法直接在智能设备（如智能手机）上实现。为了满足移动和嵌入式应用（如机器人和自动驾驶）的需求，需要更简洁和轻量化的架构。可以利用模型压缩、知识蒸馏和迁移学习等技术开发具有竞争性能的紧凑快速的COD模型。