TransXNet：使用双动态令牌混合器学习全局和局部动态以实现视觉识别

2023-12-12 13:32:04
开发
57

摘要

https://arxiv.org/pdf/2310.19380.pdf
最近的研究将卷积与transformer相结合，以引入归纳偏置并提高泛化性能。然而，常规卷积的静态性质使其无法动态适应输入的变化，导致卷积和自注意力之间的表示差异，因为自注意力动态计算注意力矩阵。此外，当堆叠由卷积和自注意力组成的token mixer以形成深层网络时，卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建网络的表示能力次优。为了找到解决方案，我们提出了一种轻量级的双动态令牌混合器（D-Mixer），它以输入依赖的方式聚合全局信息和局部细节。D-Mixer通过对均匀分割的特征段分别应用高效的全局注意力模块和输入依赖的深度可分离卷积来工作，赋予网络强大的归纳偏置和扩大的有效感受野。我们使用D-Mixer作为基本构建块来设计TransXNet，这是一种新颖的混合CNN-Transformer视觉骨干网络，具有引人注目的性能。在ImageNet-1K图像分类任务中，TransXNet-T在top-1准确率上超过了Swin-T 0.3%，而计算成本不到其一半。此外，TransXNet-S和TransXNet-B表现出出色的模型可扩展性，分别以合理的计算成本达到了83.8%和84.6%的top-1准确率。此外，我们提出的网络架构在各种密集预测任务中表现出强大的泛化能力，在性能上优于其他最先进的网络，同时具有较低的计算成本。我们的代码将在https://github.com/LMMMEng/TransXNet上提供。
在这里插入图片描述

索引术语-视觉识别，视觉转换，双动态令牌混合

原文地址:https://blog.csdn.net/m0_47867638/article/details/134931455 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1734445995288301568.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2023-12-12 13:32:04 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2023-12-12 13:32:04 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2023-12-12 13:32:04 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2023-12-12 13:32:04 100 阅读
NoSQL之Redis非关系型数据库

2023-12-12 13:32:04 101 阅读
2024.7.22 作业

2023-12-12 13:32:04 97 阅读
GDB调试正在运行的程序

2023-12-12 13:32:04 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2023-12-12 13:32:04 85 阅读
在Django里面运行非项目文件

2023-12-12 13:32:04 82 阅读
SSD基本架构与工作原理

2023-12-12 13:32:04 87 阅读
在誉天学习完HCIE就业吗？

2023-12-12 13:32:04 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2023-12-12 13:32:04 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2023-12-12 13:32:04 85 阅读
go 协程池的实现

2023-12-12 13:32:04 88 阅读
Shell脚本循环语句与函数

2023-12-12 13:32:04 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2023-12-12 13:32:04 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2023-12-12 13:32:04 85 阅读
四大引用——强软弱虚

2023-12-12 13:32:04 86 阅读
Python语言-面向对象

2023-12-12 13:32:04 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2023-12-12 13:32:04 85 阅读
网站安全-CDN篇

2023-12-12 13:32:04 88 阅读

热门阅读

I2C 应用编程

2023-12-12 13:32:04 66 阅读
量化交易与人工智能：Python库的应用与效用

2023-12-12 13:32:04 55 阅读
高效利用内存资源之动态内存管理详解

2023-12-12 13:32:04 47 阅读
Gemini：AI领域的璀璨明星

2023-12-12 13:32:04 56 阅读
C++大型项目经验

2023-12-12 13:32:04 58 阅读
C++ 指针常量和常量指针的区别

2023-12-12 13:32:04 60 阅读
精通C语言函数，轻松入门！通过实例掌握技巧

2023-12-12 13:32:04 50 阅读
互联网公司，哪个部门才是鄙视链最顶端？

2023-12-12 13:32:04 53 阅读
可学习超图拉普拉斯算子代码

2023-12-12 13:32:04 59 阅读
贝锐花生壳3大安全能力，保障网络服务安全远程连接

2023-12-12 13:32:04 53 阅读
2023年团体程序设计天梯赛——总决赛题

2023-12-12 13:32:04 39 阅读
爬虫工作量由小到大的思维转变---＜第三章搞多大的盘＞

2023-12-12 13:32:04 58 阅读
ELK（五）—集群搭建

2023-12-12 13:32:04 46 阅读
Windows使用virtualenv创建python环境

2023-12-12 13:32:04 65 阅读
使用CloudCompare计算点云曲率 - 编程指南

2023-12-12 13:32:04 68 阅读
【HDFS Client】DFSPacket对象什么情况下是lastPacketInBlock？

2023-12-12 13:32:04 64 阅读
ELK（六）—Filebeat安装部署

2023-12-12 13:32:04 57 阅读
奥比中光 Femto Bolt相机ROS配置

2023-12-12 13:32:04 67 阅读
Ajax跨域请求

2023-12-12 13:32:04 64 阅读
【Spring】手写一个简易starter

2023-12-12 13:32:04 63 阅读
AI 绘画 | Stable Diffusion 真实人物动漫二次元化

2023-12-12 13:32:04 72 阅读
Linux学习第46天：Linux音频驱动试验:能不能？不行也得行。

2023-12-12 13:32:04 45 阅读
基于Pytorch框架深度学的垃圾分类智能识别系统

2023-12-12 13:32:04 59 阅读
C++相关闲碎记录(7)

2023-12-12 13:32:04 43 阅读
UGUI - 动态赋值后刷新不及时问题

2023-12-12 13:32:04 63 阅读
day01、什么是数据库系统？

2023-12-12 13:32:04 59 阅读
快应用实现横向滚动列表（前端）

2023-12-12 13:32:04 58 阅读
红队攻防实战之Weblogic-RCE集锦

2023-12-12 13:32:04 52 阅读
VTK：使用AlignFrames进行帧对齐的用法

2023-12-12 13:32:04 63 阅读
基于协同过滤算法的旅游推荐系统设计与实现

2023-12-12 13:32:04 55 阅读