【CVPR2024】PEM: Prototype-based Efficient MaskFormer for Image Segmentation

在这里插入图片描述研究挑战:基于Transformer的架构在图像分割领域取得了显著的成果,但这些架构通常需要大量的计算资源,特别是在边缘设备上。

为了解决这个问题,作者提出了 PEM(prototype-based efficient MaskFormer),可以理解为是 MaskFormer方法的改进,主要包括两个创新点:

  • 设计了基于原型的交叉注意力机制,利用视觉特征的冗余性来限制计算量,提高效率,同时保持性能。
  • 设计了高效的多尺度FPN(特征金字塔网络),通过结合可变形卷积和基于上下文的自调节,以高效的方式提取具有高语义内容的特征。

论文总体架构如下图所示,和MaskFormer等方法类似,不同的地方在于 pixel decoder 和 Transformer decoder。Pixel decoder里的蓝色的CSM(上下文调制) 是通道注意力,紫色的Def Conv是 Deformable conv。这个高效的 pixel decoder 被做为副创新点了。

在这里插入图片描述
论文的主要创新点是下面这个 Prototype-based Masked Cross-Attention (PEM-CA)。作者也说,是受了SwiftFormer的启发,只保留Q和K计算注意力。中间三次的特征交互。需要注意的是,有一个 argmax 操作,正常会有不能反向传播的问题,不清楚实现的细节是如何的。

在这里插入图片描述

相关推荐

  1. CVPR2024论文解读大盘点

    2024-03-25 10:18:02       29 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-25 10:18:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-25 10:18:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-25 10:18:02       87 阅读
  4. Python语言-面向对象

    2024-03-25 10:18:02       96 阅读

热门阅读

  1. Android 14.0 SystemUI下拉状态栏增加响铃功能

    2024-03-25 10:18:02       32 阅读
  2. springboot多线程的原理剖析

    2024-03-25 10:18:02       89 阅读
  3. 统计文件夹下所有文件的字数

    2024-03-25 10:18:02       42 阅读
  4. 手机IP地址如何更换

    2024-03-25 10:18:02       44 阅读
  5. 想注册滴滴司机驾龄不够怎么办?

    2024-03-25 10:18:02       34 阅读
  6. 测试缺陷定位的基本方法

    2024-03-25 10:18:02       37 阅读
  7. Spark—GraphX实战 ID Mapping

    2024-03-25 10:18:02       32 阅读
  8. 想注册滴滴司机驾龄不够怎么办?

    2024-03-25 10:18:02       40 阅读
  9. 10种常用排序算法简介

    2024-03-25 10:18:02       39 阅读
  10. 想注册滴滴司机驾龄不够怎么办?

    2024-03-25 10:18:02       38 阅读