TransXNet:使用双动态令牌混合器学习全局和局部动态以实现视觉识别

摘要

https://arxiv.org/pdf/2310.19380.pdf
最近的研究将卷积与transformer相结合,以引入归纳偏置并提高泛化性能。然而,常规卷积的静态性质使其无法动态适应输入的变化,导致卷积和自注意力之间的表示差异,因为自注意力动态计算注意力矩阵。此外,当堆叠由卷积和自注意力组成的token mixer以形成深层网络时,卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建网络的表示能力次优。为了找到解决方案,我们提出了一种轻量级的双动态令牌混合器(D-Mixer),它以输入依赖的方式聚合全局信息和局部细节。D-Mixer通过对均匀分割的特征段分别应用高效的全局注意力模块和输入依赖的深度可分离卷积来工作,赋予网络强大的归纳偏置和扩大的有效感受野。我们使用D-Mixer作为基本构建块来设计TransXNet,这是一种新颖的混合CNN-Transformer视觉骨干网络,具有引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在top-1准确率上超过了Swin-T 0.3%,而计算成本不到其一半。此外,TransXNet-S和TransXNet-B表现出出色的模型可扩展性,分别以合理的计算成本达到了83.8%和84.6%的top-1准确率。此外,我们提出的网络架构在各种密集预测任务中表现出强大的泛化能力,在性能上优于其他最先进的网络,同时具有较低的计算成本。我们的代码将在https://github.com/LMMMEng/TransXNet上提供。
在这里插入图片描述

索引术语-视觉识别,视觉转换,双动态令牌混合

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-12 13:32:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-12 13:32:04       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-12 13:32:04       82 阅读
  4. Python语言-面向对象

    2023-12-12 13:32:04       91 阅读

热门阅读

  1. C++大型项目经验

    2023-12-12 13:32:04       58 阅读
  2. Windows使用virtualenv创建python环境

    2023-12-12 13:32:04       65 阅读
  3. 使用CloudCompare计算点云曲率 - 编程指南

    2023-12-12 13:32:04       68 阅读
  4. C++相关闲碎记录(7)

    2023-12-12 13:32:04       43 阅读
  5. UGUI - 动态赋值后刷新不及时问题

    2023-12-12 13:32:04       63 阅读
  6. VTK:使用AlignFrames进行帧对齐的用法

    2023-12-12 13:32:04       63 阅读
  7. 基于协同过滤算法的旅游推荐系统设计与实现

    2023-12-12 13:32:04       55 阅读