一、概述
1、是什么
Llava-MoLE 是Llava1.5 的改进 全称《LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。
整体基于Llava1.5,主要变化在于LLM增加了moe+lora模块,进行了两阶段训练( 冻结图像编码器、投射层、文本编码器,只训练Lora和moe)。具体结构包含:基于CLIP的视觉编码器,文本解码器(attention层添加Lora,FFN层添加Lora版的MOE),使用最简单的两层FC构成MLP映射视觉特征到文本长度。
2、亮点
论文中作者认为的亮点:
*基于 MLLM 模型和大规模数据集,在明显不同指令数据集的混合上微调 MLLM 时发现数据冲突问题。
*提出了使用 LoRA MOE 进行指令微调以解决数据冲突问题,而不会显