TransXNet:使用双动态令牌混合器学习全局和局部动态以实现视觉识别

摘要

https://arxiv.org/pdf/2310.19380.pdf
最近的研究将卷积与transformer相结合,以引入归纳偏置并提高泛化性能。然而,常规卷积的静态性质使其无法动态适应输入的变化,导致卷积和自注意力之间的表示差异,因为自注意力动态计算注意力矩阵。此外,当堆叠由卷积和自注意力组成的token mixer以形成深层网络时,卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建网络的表示能力次优。为了找到解决方案,我们提出了一种轻量级的双动态令牌混合器(D-Mixer),它以输入依赖的方式聚合全局信息和局部细节。D-Mixer通过对均匀分割的特征段分别应用高效的全局注意力模块和输入依赖的深度可分离卷积来工作,赋予网络强大的归纳偏置和扩大的有效感受野。我们使用D-Mixer作为基本构建块来设计TransXNet,这是一种新颖的混合CNN-Transformer视觉骨干网络,具有引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-18 08:32:06       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-18 08:32:06       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-18 08:32:06       82 阅读
  4. Python语言-面向对象

    2023-12-18 08:32:06       91 阅读

热门阅读

  1. 计算机网络1

    2023-12-18 08:32:06       49 阅读
  2. t2017030921字母矩阵

    2023-12-18 08:32:06       54 阅读
  3. HTML选择题试题——附答案

    2023-12-18 08:32:06       59 阅读
  4. GB/T 19536-2015 集装箱底板用胶合板检测

    2023-12-18 08:32:06       49 阅读
  5. 记录一次 Linux/Android 读取大文件失败

    2023-12-18 08:32:06       69 阅读