VLM 系列——COGVLM—— 论文解读

一、概述

1、是什么

    COGVLM 全称《VISUAL EXPERT FOR LARGE LANGUAGE》,是一个多模态的视觉-文本模型,当前CogVLM-17B(20231130)可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答,但是这个版本只支持一个图片(为且必为首次输入),只支持英文,几乎不支持写代码(目前测试是的)。

2、亮点

    论文认为:在不损害NLP模型原本能力的情况下,通过“视觉专家”模块 + 两层的MLP adapter 替代浅层的对齐大幅提升了模型的图片描述、视觉问答和视觉定位能力。然后现在大多是闭源,作者开源提供了一个很强的基线。

    笔者附加:论文附录《A.2 DETAILS OF ASSOCIATED DATASETS》章节还详细介绍了使用的数据源的介绍,这个确实可以给入门或者复现等对相关数据集有个快速的认知。

PS

    上述三大能力的提升,碾压了标志性的BLIP系列、千问系列,但是当前的代价是高达4096 A100 卡天的计算资源,不支持英文、写代码、多轮对话、视觉定位只能输出一个框(存疑)、视觉计数也比千问要弱。所以有没有可能是增加的“视觉专家”的参数更能拟合更少的任务呢,期待后续增加任务后模型的表现来消融证明这个架构的有效性。并且论文中对于cogvlm-base-224、cogvlm-base-490、CogVLM-Chat和CogVLMGrounding四个节点的阐

相关推荐

  1. VLM 系列——COGVLM—— 论文解读

    2024-01-28 17:32:01       31 阅读
  2. VLM 系列——CLIP——论文解读

    2024-01-28 17:32:01       37 阅读
  3. VLM 系列——BLIP——论文解读

    2024-01-28 17:32:01       42 阅读
  4. VLM 系列——Monkey——论文解读

    2024-01-28 17:32:01       40 阅读
  5. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-28 17:32:01       31 阅读
  6. VLM 系列——BLIP2——论文解读

    2024-01-28 17:32:01       31 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-28 17:32:01       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-28 17:32:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-28 17:32:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-28 17:32:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-28 17:32:01       18 阅读

热门阅读

  1. C++ day3

    C++ day3

    2024-01-28 17:32:01      35 阅读
  2. Vue的状态管理Vux

    2024-01-28 17:32:01       37 阅读
  3. 对机器学习的认知,感悟。

    2024-01-28 17:32:01       37 阅读
  4. 数据集制作工具和数据处理工具有哪些

    2024-01-28 17:32:01       29 阅读
  5. MySQL进阶45讲【6】全局锁和表锁

    2024-01-28 17:32:01       36 阅读
  6. 实用AI工具介绍

    2024-01-28 17:32:01       26 阅读
  7. Nacos源码解析:String.intern()方法的巧妙应用

    2024-01-28 17:32:01       27 阅读
  8. python04_找出某个区间内的所有素数

    2024-01-28 17:32:01       33 阅读
  9. linux&shell日常脚本命令之ps命令

    2024-01-28 17:32:01       35 阅读
  10. python爬虫框架Scrapy

    2024-01-28 17:32:01       40 阅读
  11. 【Vue】1-5、Source Map

    2024-01-28 17:32:01       35 阅读