焦点调制网络

2024-03-13 11:18:01
开发
42

摘要

https://arxiv.org/pdf/2203.11926.pdf
我们提出了焦点调制网络（简称FocalNets），其中自注意力（SA）被焦点调制模块完全取代，用于在视觉中建模令牌交互。焦点调制包含三个组件：（i）焦点上下文化，通过堆叠深度卷积层实现，以从短到长范围编码视觉上下文；（ii）门控聚合，用于选择性地收集上下文信息到每个查询令牌的调制器中；（iii）元素级仿射变换，将调制器注入查询中。大量实验表明，FocalNets表现出非凡的可解释性（如图1所示），并在图像分类、目标检测和分割等任务上，以类似的计算成本超越了SoTA SA对应项（例如Swin和Focal Transformers）。具体来说，具有tiny和base大小的FocalNets在ImageNet-1K上可以达到 $82.3\%$ 和

原文地址:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/136640119 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1767751943981240320.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部