TRS: Transformers for Remote Sensing Scene Classification

由于缺乏归纳偏差[25,26],遥感场景数据集中的图像数量不足以让Transformer在没有ImageNet1K预训练模型的情况下取得良好的效果。 因此,我们需要将 CNN 与 Transformer 结合起来。 现有的“卷积+Transformer”模型重塑了CNN主干的输出,并将它们与Transformer连接起来。 我们认为现有模型忽略了图像三维表示中包含的信息。 因此,我们的目标是设计一个能够处理三维矩阵的 Transformer,作为 CNN 和标准 Transformer 之间的过渡模块。 我们惊讶地发现标准瓶颈结构和 Transformer 架构之间的独特关系(详细信息请参见第 3.4 节)。 因此,我们提出 MHSA-Bottleneck。
在本文中,我们开发了一种基于ResNet50和Transformer架构的遥感Transformer(TRS),它显着提升了遥感场景分类性能并减少了模型对卷积运算的依赖。 我们提出了一种新颖的“纯 CNN → 卷积 + Transformer → 纯 Transformers”结构。 与传统的“卷积+Transformer”方法不同,我们不是简单地将CNN和Transformer连接起来,而是将Transformers集成到CNN中。 我们用多个 Transformer 编码器替换 ResNet50 的最后三个瓶颈,并设计 MHSA-Bottleneck。 我们将瓶颈中的 3 × 3 空间卷积替换为位置编码的多头自注意力机制,而不是使用注意力机制作为卷积模块的辅助模块。 我们的贡献不仅是将 Transformers 成功应用于遥感分类任务,而且提供了一种理解瓶颈结构的特殊方法。
(1)
我们将 Transformer 应用于遥感场景分类,并提出了一种新颖的“纯 CNN → CNN + Transformer → 纯 Transformer”结构,称为 TRS。 TRS 可以很好地将 Transformer 与 CNN 结合起来,以实现更好的分类精度。
(2)
我们提出 MHSA 瓶颈。 MHSA-Bottleneck 使用多头自注意力而不是 3 × 3 空间卷积。 MHSA-Bottleneck比标准瓶颈和注意力机制改进的其他瓶颈参数更少,效果更好。
(3)
我们还提供了一种理解瓶颈结构的新颖方法。 我们演示了 MHSA-Bottleneck 和 Transformer 之间的联系,并将 MHSA-Bottleneck 视为 3D Transformer。
(4)
我们完成了四个公共数据集 NWPU-RESISC45、UC-Merced、AID 和 OPTIMAL-31 的训练。 实验结果证明 TRS 超越了现有最先进的 CNN 方法。

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-22 03:06:04       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-22 03:06:04       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-22 03:06:04       87 阅读
  4. Python语言-面向对象

    2024-04-22 03:06:04       96 阅读

热门阅读

  1. 【面经】4月9日 腾讯/csig/腾讯云/一面/1h30m

    2024-04-22 03:06:04       33 阅读
  2. LeetCode 3.无重复字符发最长字串

    2024-04-22 03:06:04       39 阅读
  3. 提高写作效率:ChatGPT写作攻略

    2024-04-22 03:06:04       40 阅读
  4. 修改Ubuntu的镜像源为清华镜像源

    2024-04-22 03:06:04       34 阅读
  5. lv_table

    2024-04-22 03:06:04       31 阅读
  6. 关于UAC标准音频数据传输端点的最大包长问题

    2024-04-22 03:06:04       36 阅读
  7. 算法:堆(优先队列)

    2024-04-22 03:06:04       40 阅读