图像融合论文阅读：MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion

2024-01-05 15:20:05
开发
36

@article{xu2023murf,
title={MURF: Mutually Reinforcing Multi-modal Image Registration and Fusion},
author={Xu, Han and Yuan, Jiteng and Ma, Jiayi},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2023},
publisher={IEEE}
}

论文级别：SCI A1
影响因子：23.6

📖[论文下载地址]

🌻【如侵权请私信我删除】

📖论文解读

马佳义大佬团队2023年的一篇论文。该论文之前的版本是RFNet。下图为两个版本的区别和改进
在这里插入图片描述

MURF主要利用三个模块：

SIEM 共享特征提取（shared information extraction module）

捕获跨多个模式共享的信息。它有助于将多模态配准问题转化为公共空间中的单模态配准问题。然后在配准模块中使用提取函数。

MCRM 多尺度粗配准（multi-scale coarse registration module）

进行全局校正。利用SIEM提取的表示建立配准约束，并将其用于MCRM网络的训练。MCRM输出粗配准后的图像 $I_x^R$ 。

F2M 精准配准和融合（fine registration and fusion module）

将 $I_x^R$ 和 $I_y$ 作为输入，得到最终的融合图像 $I_f$

🔑关键词

Multi-modal images, image registration, image fusion, contrastive learning.
多模态图像，图像配准，图像融合，对比学习

💭核心思想

如下图所示，以往的方法是将配准和融合分开，作者提出的新方法是将两者结合并相互促进。
图像配准采用由粗到细的方法进行处理。对于粗配准，SIEM首先将多模态图像转化为单模态信息，以消除模态间差异。在此基础上，MCRM通过多尺度仿射变换对全局刚性视差进行逐步校正。在单个模块中实现精细配准和融合，进一步提高了配准精度和融合性能。图像融合时在保留源信息的同时进行了纹理增强。
在这里插入图片描述
作者认为【图像融合可以反向消除未配准】，因为：

融合图像来源于不同模态，减轻了模态差异，降低了配准难度
融合过程去除了冗余信息，减少了这些信息对配准的负面影响
梯度稀疏可以作为融合评价标准，以反馈的方式提高配准精度

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下所示。
在这里插入图片描述
该网络模型由SIEM, MCRM和F2M组成。上节已经简单介绍了各个模块的作用。接下来让我们看模块内部在干嘛

🪢SIEM

在这里插入图片描述

采用了【对比学习】的思想。相同场景的图像对应于较近的表示，而不同场景的图像对应于较远的表示。

扩展学习链接
对比学习（contrastive learning）

多模态数据集包括了配准/粗配准的图像对 ${I_x^i,I_y^i\}_{i=1}^K$ ，K表示图像对的数量。
$I_x$ 和 $I_y$ 分别表示不同模态 $\mathcal X$ 和 $\mathcal Y$ 的图像。
这个模块的目标是学习两个函数 $f_{\theta1}^{cl}(·)$ 和 $f_{\theta2}^{cl}(·)$ ，将不同模态的图像映射到共享潜在空间，从而提取其潜在表示 $z_x^i=f_{\theta1}^{cl}(I_x^i)$ 和 $z_y^i=f_{\theta2}^{cl}(I_y^i)$
${I_x^i,I_y^i\}$ 表示相同场景的图像对，因此 ${z_x^i,z_y^i\}$ 是正对（positive pairs），应该被拉入潜在空间。
$\{I_x^i,I_y^{j(i \neq j)}\}$ 或者 $\{I_x^i,I_x^{j(i \neq j)}\}$ 表示多模态或者不同场景的单模态图像，是负对，应该被分离。

用来学习 $f_{\theta1}^{cl}(·)$ 和 $f_{\theta2}^{cl}(·)$ 对比学习的损失函数被定义为InfoNCE损失：
在这里插入图片描述

在这里插入图片描述
$s (\cdot)$ 是鉴别器函数，正对值高负对值低。

同时，作者利用旋转等价来细化潜表示的精细度。即对 $f_{\theta1}^{cl}(·)$ 和 $f_{\theta2}^{cl}(·)$ 进行像素级旋转和反向旋转。

🪢MCRM

在这里插入图片描述

在训练阶段，使用上一节训练好的 $f_{\theta1}^{cl}(·)$ 和 $f_{\theta2}^{cl}(·)$ 提取 $I_x$ 和 $I_y$ 的共享信息 $z_x$ 和 $z_y$ ，然后利用仿射变换（affine transform）提高 $z_x$ 和 $z_y$ 之间的配准度。注意，训练阶段SIEM里参数是固定的。在测试阶段，只有MCRM用于粗配准。
在单尺度的网络中，使用大的卷积核和较深的网络结构是常态，为了解决这个问题，作者采用了一种多尺度渐进式配准策略减少参数量、加快收敛速度。
在这里插入图片描述
这个图应该从下往上看，即一开始训练AffineNet是下采样4倍的时候，然后在下采样2倍的时候继续，使用下采样4倍的参数作为粗空间变换。同理，到原尺寸的时候，使用4倍和2倍的参数作为粗空间变换，得到最精细的参数p1。即输出为粗配准的图像 $I_x^R=ST(I_x,p_1P_{↓2}P_{↓4})$
那么空间变换是什么样子的呢?
给定一个图像X和仿射参数p，在常规采样网格上使用p，生成一个H×W×2的形变场 $\phi$ ，代表了X中像素的变形。形变场 $\phi$ 的两个通道分别代表垂直方向和水平方向：
在这里插入图片描述

该模块的损失函数为：
在这里插入图片描述

在这里插入图片描述

🪢F2M

这个模块在训练分为两个阶段，融合阶段和微配准阶段。
在这里插入图片描述
测试阶段，将粗配准的图像 $I_x^R$ 和 $I_y$ 输入变形块进行空间变换以及矫正局部视差，得到变形后的 $I_x^R$ 即 $I_x^F$ 。然后通过后续的提取层、梯度通道注意力块、重构层融合得到最终的融合图像 $I_f$ 。

图像融合的损失函数为：
在这里插入图片描述

在这里插入图片描述

在训练微配准网络的时候，生成了一个局部平滑的非刚性形变场 $\phi^{nr}$
在这里插入图片描述

微调配准损失函数：
在这里插入图片描述

📉损失函数

上面分节已介绍

🔢数据集

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

在这里插入图片描述

🔬实验

📏评价指标

参考资料
[图像融合定量指标分析]

🥅Baseline

DenseFuse, DIF-Net, IFCNN, MDLatLRR, RFN-Nest, U2Fusion

✨✨✨参考资料
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

更多实验结果及分析可以查看原文：
📖[论文下载地址]

🚀传送门

如有疑问可联系：420269520@qq.com;
码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力
祝各位早发paper，顺利毕业~

原文地址:https://blog.csdn.net/jiexiang5396/article/details/135378662 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1743170483794350080.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部