YoloV8改进策略：基于频域多轴表示学习模块|全网首发|高效涨点|代码注释详解

2024-01-06 22:32:01
开发
36

摘要

涨点效果：在我自己的数据集上，改进一的mAP50 由0.986涨到了0.99，mAP50-95由0.737涨到0.749，涨点明显！
本文尝试使用频域多轴表示学习模块改进YoloV8，尝试了三种改进方式，均有不同的涨点。

论文：《医学图像分割中的频域多轴表示学习》

https://arxiv.org/pdf/2312.17030v1.pdf
最近，视觉Transformer (ViT)在医学图像分割（MIS）中得到了广泛应用，这归功于其在空间域应用自注意力机制来建模全局知识。然而，许多研究都侧重于改进空间域模型，而忽略了频率域信息的重要性。因此，我们提出了基于U-shape架构的多轴外部权重UNet（MEW-UNet），通过将ViT中的自注意力替换为我们的多轴外部权重块。具体来说，我们的块对输入特征的三个轴进行傅里叶变换，并在频率域中分配由我们的外部权重生成器生成的外部权重。然后，进行逆傅里叶变换以将特征变回空间域。我们在Synapse、ACDC、ISIC17和ISIC18数据集上评估了我们的模型，由于其有效地利用了频率域信息，我们的方法表现出了竞争力。
代码：https://github.com/jcruan519/mew-unet

关键词：医学图像分割、注意力机制、频率域信息

1 简介

医学图像分割（MIS）具有巨大的实用价值，因为它可以帮助相关医务人员定位病变区域，提高临床治疗的效率。近年来，基于U-shape架构的编码器-解码器模型

原文地址:https://blog.csdn.net/m0_47867638/article/details/135353975 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1743641572978855936.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部