论文阅读2-《Dynamic Multimodal Fusion》

2024-07-10 23:08:03
开发
10

摘要

（DynMM），一种新的方法，自适应融合多模态数据和 d在推理过程中生成依赖于数据的前向路径。为此，我们提出了一种门控功能来提供基于多模态特征和一个的模态级或融合级决策提高计算效率的源感知损失函数。

细节

模态级别决策

假设有三种模态，x1,x2,x3,则有6种专家网络：E1(x1), E2(x2), E3(x3),E4(x1, x2), E5(x2, x3), E6(x1, x2), E7(x1, x2, x3)；
利用一个门控，选择B个专家网络：y =

其中，xi表示第i位专家作为输入的模态的子集;
假设有两种模态：

提供了2种模式和3种专家网络（即M = 2和B = 3）的设计说明。

融合级别决策

在融合的过程中加入决策：oij表示每个中间模块的输出，
在这里插入图片描述

损失函数

C（Ei）表示执行一个专家网络Ei的计算成本。类似地，C（Oi，j）表示第j个细胞中第i个融合操作的计算代价；Ltask为任务的损失。
在这里插入图片描述但是门控g是one-hot是离散的不可微，所以变成一个软值，

训练阶段

pretrain stage
在训练的早期阶段遵循门网络的稀疏决策会导致偏差，很少被选择的分支有更少和更小的权重更新；糟糕的性能可能导致它们被选择的次数更少（因此永远不会改进）；所以要保证每个分支在门控模块参与进来之前都得到了完全的优化；
对于模态级的DynMM，充分地训练了每个专家网络；
对于融合级的DynMM，对每个融合单元采用随机决策（即从候选操作集合中随机选择一个操作），从而使动态网络的每条路径都是一致的。
微调
第二阶段：微调。在这个阶段，我们将门控网络纳入到我们的优化过程中。利用上述介绍的重参数化技术，我们共同优化了动态网络具有以端到端方式进行的门控网络。

原文地址:https://blog.csdn.net/PETERPARKERRR/article/details/140291879 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1811054784518688768.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

BEVFormerV2 论文阅读

2024-07-10 23:08:03 37 阅读
论文阅读——BLIP-2

2024-07-10 23:08:03 33 阅读
FastSpeech2——TTS论文阅读

2024-07-10 23:08:03 38 阅读
BEVFormer v2论文阅读

2024-07-10 23:08:03 18 阅读
论文阅读——Sat2Vid

2024-07-10 23:08:03 22 阅读
论文阅读——Img2LLM（cvpr2023）

2024-07-10 23:08:03 42 阅读
论文阅读——Deformable ConvNets v2

2024-07-10 23:08:03 42 阅读
论文阅读：UniFormer和UniFormerV2

2024-07-10 23:08:03 25 阅读
【论文阅读】Point2RBox (CVPR’2024)

2024-07-10 23:08:03 12 阅读
论文阅读2-《Dynamic Multimodal Fusion》

2024-07-10 23:08:03 11 阅读

最近更新

题解 - 序列

2024-07-10 23:08:03 5 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-10 23:08:03 5 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-10 23:08:03 5 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-10 23:08:03 5 阅读
NoSQL之Redis非关系型数据库

2024-07-10 23:08:03 6 阅读
2024.7.22 作业

2024-07-10 23:08:03 6 阅读
GDB调试正在运行的程序

2024-07-10 23:08:03 3 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-10 23:08:03 4 阅读
在Django里面运行非项目文件

2024-07-10 23:08:03 4 阅读
SSD基本架构与工作原理

2024-07-10 23:08:03 4 阅读
在誉天学习完HCIE就业吗？

2024-07-10 23:08:03 6 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-10 23:08:03 3 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-10 23:08:03 4 阅读
go 协程池的实现

2024-07-10 23:08:03 5 阅读
Shell脚本循环语句与函数

2024-07-10 23:08:03 5 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-10 23:08:03 5 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-10 23:08:03 5 阅读
四大引用——强软弱虚

2024-07-10 23:08:03 4 阅读
Python语言-面向对象

2024-07-10 23:08:03 8 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-10 23:08:03 6 阅读
网站安全-CDN篇

2024-07-10 23:08:03 5 阅读

热门阅读

深入了解 Timber：全面掌握 Android 日志记录的最佳实践

2024-07-10 23:08:03 7 阅读
防火墙实验

2024-07-10 23:08:03 10 阅读
语音识别FBank特征提取学习笔记

2024-07-10 23:08:03 9 阅读
关于Python的类的一些理解

2024-07-10 23:08:03 12 阅读
python excel openpyxl

2024-07-10 23:08:03 11 阅读
axios中timeout底层原理

2024-07-10 23:08:03 9 阅读
产品经理-工作流程及职能（6）

2024-07-10 23:08:03 13 阅读
021-GeoGebra中级篇-关于GeoGebra输入的N个小建议

2024-07-10 23:08:03 11 阅读
06浅谈大语言模型可调节参数TopP和TopK

2024-07-10 23:08:03 11 阅读
C++ 宏和内联、范围for、nullptr

2024-07-10 23:08:03 12 阅读
生物环保的技术原理和优点是什么

2024-07-10 23:08:03 11 阅读
昇思25天学习打卡营第12天|Vision Transformer图像分类

2024-07-10 23:08:03 13 阅读
探索LlamaIndex：如何用Django打造高效知识库检索

2024-07-10 23:08:03 12 阅读
Linux下的misc设备驱动

2024-07-10 23:08:03 12 阅读
基于BP网络识别MNIST数据集

2024-07-10 23:08:03 11 阅读
《向量数据库指南》——Milvus Cloud查询增强如何提升 RAG Pipeline 效果？

2024-07-10 23:08:03 8 阅读
UML 2.5图的分类

2024-07-10 23:08:03 11 阅读
Centos7下zabbix安装与部署

2024-07-10 23:08:03 7 阅读
深入理解Spring Cloud中的服务注册

2024-07-10 23:08:03 9 阅读
SIFT代码，MATLAB

2024-07-10 23:08:03 9 阅读
区块链可投会议CCF C--TrustCom 2024 截止9.1 附去年录用文章

2024-07-10 23:08:03 10 阅读
strcpy,srtcmp,strlen函数漏洞利用

2024-07-10 23:08:03 8 阅读
Scala 数据类型

2024-07-10 23:08:03 11 阅读
【力扣】每日一题—第217题，存在重复元素

2024-07-10 23:08:03 8 阅读
选择排序（C语言版）

2024-07-10 23:08:03 7 阅读
DP学习——简单工厂模式

2024-07-10 23:08:03 9 阅读
从 Spark 离线数仓到 Flink 实时数仓：实战指南

2024-07-10 23:08:03 9 阅读
IntelliJ IDEA社区版在Windows电脑中的下载、安装方法

2024-07-10 23:08:03 11 阅读
浅析DDoS高防数据中心网络

2024-07-10 23:08:03 10 阅读
【深度学习】Transformer

2024-07-10 23:08:03 8 阅读