VLM 系列——Monkey——论文解读

一、概述

1、是什么

   Monkey 全称《Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models》,是一个多模态的视觉-文本模型,当前版本(20231130)为基于Qwen-vl 的三阶段微调(增加了Lora+visual adapter 支持更高的分辨率)可以完成对一幅图片进行描述(强项,更细节)、相关事物(文本)进行问答(强项,尤其文本),但是这个版本只支持一个图片(为且必为首次输入),几乎不支持写代码(目前测试是的),图中物体或指定输出检测框仍然保留的能力,但是弱了。

2、亮点

    着重解决现在大模型分辨率较低(此时作者认为大多数为224*224,少数为448*448),主要体现在模型训练和数据构建两个难点。

    1)提出使用Lora 微调已有Qwen-vl 视觉编码器(有多个,看下文的模型结构),加visual adapter 将多个微调的视觉编码器结合,大大降低了训练成本(40 A800 天)。

    2)提出一种数据清洗方法,来提高图片的描述详细程度(分辨率高对应更多图片元素细节,否则仅仅提升分辨率作者认为简短的单句描述无法满足需求)。

相关推荐

  1. VLM 系列——Monkey——论文解读

    2024-01-29 21:10:01       40 阅读
  2. VLM 系列——CLIP——论文解读

    2024-01-29 21:10:01       36 阅读
  3. VLM 系列——BLIP——论文解读

    2024-01-29 21:10:01       42 阅读
  4. VLM 系列——COGVLM—— 论文解读

    2024-01-29 21:10:01       30 阅读
  5. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-29 21:10:01       30 阅读
  6. VLM 系列——BLIP2——论文解读

    2024-01-29 21:10:01       30 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-29 21:10:01       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-29 21:10:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-29 21:10:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-29 21:10:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-29 21:10:01       18 阅读

热门阅读

  1. Web 上升的圆心

    2024-01-29 21:10:01       26 阅读
  2. 用二分法在有序数列中查找元素位置

    2024-01-29 21:10:01       26 阅读
  3. MySQL表的增删改查(进阶)

    2024-01-29 21:10:01       27 阅读
  4. Anaconda 镜像清华大学开源软件镜像站

    2024-01-29 21:10:01       40 阅读
  5. 【服务器】服务器的管理口和网口

    2024-01-29 21:10:01       34 阅读