VLM 系列——LLaVA-MoLE——论文解读

一、概述

1、是什么

         Llava-MoLE 是Llava1.5 的改进 全称《LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。
    整体基于Llava1.5,主要变化在于LLM增加了moe+lora模块,进行了两阶段训练( 冻结图像编码器、投射层、文本编码器,只训练Lora和moe)。具体结构包含:基于CLIP的视觉编码器,文本解码器(attention层添加Lora,FFN层添加Lora版的MOE),使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2、亮点

    论文中作者认为的亮点:
    *基于 MLLM 模型和大规模数据集,在明显不同指令数据集的混合上微调 MLLM 时发现数据冲突问题。
    *提出了使用 LoRA MOE 进行指令微调以解决数据冲突问题,而不会显

相关推荐

  1. VLM 系列——LLaVA-MoLE——论文解读

    2024-02-07 08:20:01       29 阅读
  2. VLM 系列——CLIP——论文解读

    2024-02-07 08:20:01       36 阅读
  3. VLM 系列——BLIP——论文解读

    2024-02-07 08:20:01       42 阅读
  4. VLM 系列——COGVLM—— 论文解读

    2024-02-07 08:20:01       30 阅读
  5. VLM 系列——Monkey——论文解读

    2024-02-07 08:20:01       39 阅读
  6. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-02-07 08:20:01       30 阅读
  7. VLM 系列——BLIP2——论文解读

    2024-02-07 08:20:01       30 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-07 08:20:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-07 08:20:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-07 08:20:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-07 08:20:01       18 阅读

热门阅读

  1. ef core原始sql查询

    2024-02-07 08:20:01       28 阅读
  2. dynamic_cast运行阶段类型识别

    2024-02-07 08:20:01       33 阅读
  3. 详细了解Node.js的配置与使用!

    2024-02-07 08:20:01       27 阅读
  4. Python程序设计 深浅拷贝

    2024-02-07 08:20:01       30 阅读
  5. 腾讯云主机部署spring boot程序

    2024-02-07 08:20:01       30 阅读
  6. 时序数据库m3db集群二进制部署

    2024-02-07 08:20:01       31 阅读
  7. PoEAA笔记-7.分布策略

    2024-02-07 08:20:01       29 阅读
  8. docker-compose部署gitlab和jenkins

    2024-02-07 08:20:01       31 阅读
  9. Cesiumjs 添加自定义文案

    2024-02-07 08:20:01       37 阅读