VLM 系列——LLaVA-MoLE——论文解读

2024-02-07 08:20:01
开发
28

一、概述

1、是什么

Llava-MoLE 是Llava1.5 的改进全称《LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片写代码（HTML、JS、CSS）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。

整体基于Llava1.5，主要变化在于LLM增加了moe+lora模块，进行了两阶段训练（冻结图像编码器、投射层、文本编码器，只训练Lora和moe）。具体结构包含：基于CLIP的视觉编码器，文本解码器（attention层添加Lora，FFN层添加Lora版的MOE），使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2、亮点

论文中作者认为的亮点：

*基于 MLLM 模型和大规模数据集，在明显不同指令数据集的混合上微调 MLLM 时发现数据冲突问题。

*提出了使用 LoRA MOE 进行指令微调以解决数据冲突问题，而不会显

原文地址:https://blog.csdn.net/u012863603/article/details/136060905 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1755023571379425280.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

ef core原始sql查询

2024-02-07 08:20:01 28 阅读
【k8s系列】(202402) 证书apiserver_client_certificate_expiration_seconds

2024-02-07 08:20:01 35 阅读
打包 iOS 的 IPA 文件

2024-02-07 08:20:01 28 阅读
【云原生进阶之PaaS中间件】第三章Kafka-4.3.1-broker 工作流程

2024-02-07 08:20:01 29 阅读
transformer剪枝论文汇总

2024-02-07 08:20:01 32 阅读
打包 iOS 的 IPA 文件

2024-02-07 08:20:01 31 阅读
python 动态数据展示，数据是由51单片机发送过来的，温度传感器。

2024-02-07 08:20:01 23 阅读
第一章、APPium、android自动化

2024-02-07 08:20:01 32 阅读
vscode远程连接失败

2024-02-07 08:20:01 29 阅读
dynamic_cast运行阶段类型识别

2024-02-07 08:20:01 33 阅读
【TCP】高频面试题

2024-02-07 08:20:01 28 阅读
详细了解Node.js的配置与使用！

2024-02-07 08:20:01 27 阅读
python 爬虫篇(1)----＞re正则的详细讲解(附带演示代码)

2024-02-07 08:20:01 30 阅读
Python程序设计深浅拷贝

2024-02-07 08:20:01 30 阅读
LLaVA：GPT-4V(ision) 的新开源替代品

2024-02-07 08:20:01 26 阅读
腾讯云主机部署spring boot程序

2024-02-07 08:20:01 30 阅读
鸿蒙（HarmonyOS）项目方舟框架（ArkUI）之Video媒体组件

2024-02-07 08:20:01 28 阅读
时序数据库m3db集群二进制部署

2024-02-07 08:20:01 31 阅读
河西走廊潜在蒸散发时空格局变化与气象因素的关系_马亚丽_2023

2024-02-07 08:20:01 29 阅读
PoEAA笔记-7.分布策略

2024-02-07 08:20:01 29 阅读
微软为新闻编辑行业推出 AI 辅助项目，记者参加免费课程

2024-02-07 08:20:01 28 阅读
docker-compose部署gitlab和jenkins

2024-02-07 08:20:01 31 阅读
Kafka 生产调优

2024-02-07 08:20:01 28 阅读
ChinaXiv：中科院科技论文预发布平台

2024-02-07 08:20:01 27 阅读
Cesiumjs 添加自定义文案

2024-02-07 08:20:01 37 阅读
Solidity 042 IMaths

2024-02-07 08:20:01 31 阅读
156基于Matlab的光纤陀螺随机噪声和信号

2024-02-07 08:20:01 25 阅读
二进制安全虚拟机Protostar靶场（7）heap2 UAF(use-after-free)漏洞

2024-02-07 08:20:01 28 阅读
vscode配置wsl ubuntu c++的环境

2024-02-07 08:20:01 24 阅读
nodejs学习计划--（八）Api接口

2024-02-07 08:20:01 33 阅读