YoloV7改进策略:双动态令牌混合器(D-Mixer)的TransXNet,实现YoloV7的有效涨点

摘要

双动态令牌混合器(D-Mixer),一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积,使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet,这是一种新型的混合CNN-Transformer视觉主干网络,可提供引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在计算成本不到Swin-T的一半的情况下,Top-1准确率提高了0.3%。此外,TransXNet-S和TransXNet-B表现出优秀的模型可扩展性,分别实现了83.8%和84.6%的Top-1准确率,同时计算成本合理。

该模型具有以下优点:

  1. 动态特征聚合权重:通过OSRA和IDConv,该模型考虑了全局和本地信息,实现了动态特征聚合,从而为模型提供了强大的表示学习能力。
  2. 输入依赖的深度卷积:为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合,该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
  3. 双动态令牌混合器(D-Mixer):D-Mixer是该模型的基本构建块,它通过结合自注意力和卷积,为Transformer模型提供了强大的泛化能力。通过堆叠多个D-Mixer,可以进一步增强模型的性能。
  4. 高效性能:在ImageNet-1K图像分类任务中,与Swin-T相比,TransXNet-T在top-1准确率上提高了0.3%,同时计算成本不到Swin-T的一半。这表明该模型在实现高性能的同时保持了良好的计算效率。

最近更新

  1. TCP协议是安全的吗?

    2023-12-18 13:24:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-18 13:24:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-18 13:24:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-18 13:24:02       18 阅读

热门阅读

  1. 18.Oracle中的substr()函数字符截取

    2023-12-18 13:24:02       40 阅读
  2. 华为技面三轮面试题

    2023-12-18 13:24:02       41 阅读
  3. ukui-kwin-x11占用cpu 100%

    2023-12-18 13:24:02       34 阅读
  4. vue + element 实现鼠标左右滑动效果

    2023-12-18 13:24:02       36 阅读
  5. 05 Rust 结构体

    2023-12-18 13:24:02       37 阅读
  6. 06 Rust 枚举类

    2023-12-18 13:24:02       35 阅读
  7. 【微服务】服务间调用

    2023-12-18 13:24:02       33 阅读
  8. 逻辑回归正则化

    2023-12-18 13:24:02       29 阅读
  9. tomcat如何进行安全加固

    2023-12-18 13:24:02       43 阅读
  10. VSCode 常用的快捷键和技巧系列(1)

    2023-12-18 13:24:02       36 阅读