多模态模型训练QA

Q:InternLM-XComposer的最新版本把vit的参数量降低了但是效果好了,所以好奇scale up vision encoder的收益大么?还是说重点是一个好的llm?

A:结论是二者同步扩大才会起作用。我们试下来结论是llm 7b情况下,vision太大没啥用,所以clip-l就很好。但是随着llm扩大,比如到了20b以上,同等条件下,vit6b的作用就出来了。我们在mmb的性能基本没咋调就到83+了,比视觉部分更小的llava1.6高很多。

Q:InternVL的论文,除了Qformer改成了llama,视觉编码器变大以外,还有什么和blip2不一样吗?

A:探讨的事情区别很大,一个是开发中间层,链接已有的视觉模型和语言模型;一个是扩宽视觉模型的参数量边界,是从头训练的。

Q:InternVL请问下这里降低Token数量用的是Pixel shuffle,有对比过这个和用Qformer(类似Qwen-VL)哪种更好吗?

A:这里没有做过对比,因为pixel shuffle比较简单就直接用了。如果继续scale up分辨率的话,比如896x896的大小,pixel shuffle就会有1024个image token,而Qwen-VL仍是256个token。从保留图像细节的角度看,pixel shuffle保留的细节信息更多;但从计算量的角度看,Qwen-VL的方式对后续LLM的计算压力更小。

Q:用 Q-Former 的方式训练 VL Connecter 会不会在流程增加了复杂度,如果是参数量的问题,直接把 llava 系列模型中的 MLP VL Connector 换为 6B level 的 transofrmer 是不是就行了,这边有实验这种方法是不是 work 吗?

A:可以看看我们最新的版本啊,我们现在是直接6b + mlp + llm。q- former现在我们不怎么用。

Q:这种visual expert + connection module + LLM的简单粗暴范式真的高效吗?MIT有篇讨论multimodal neuron的论文,作者实验表示通过一个linear projection后获得的表征在进入LLM前没有显著的解释性,模态转换仍然发生在LLM内部,不知道大佬怎么看。

A:直觉感受是视觉特征经过proj以后得到的soft visual token已经是经过高度抽象压缩了,有点类似prefix/prompt tuning代表对应任务的prefix embedding的感觉。

Q:Minigptv2和Qwen-vl太像了吧?

A:这俩模型结构上主要的差别在projection层,MiniGPT-v2用的是mlp,通过pooling的方式减少vision token的数量;qwen-vl用了一层cross-attention。

Q:llava中,OCR能力是怎么学到的?

A:所谓的 emerging properties 吧。本身 visual encoder 和 LLM 的预训练好的模型已经有很好的理解各自domain 数据的能力 (有各自结构化的feature space)。 我们利用 linear projection layer 把它们链接起来,这一步可以认为是 visual tokenization, 把 visual token 嵌入到预训练好的 language model word embedding space里。 而这一步的 image-text feature alignment 极少数据就可以看出不错的能力。

Q:

A:

T1:TextMonkey论文也是发现提高分辨率后会有很多冗余的tonen,然后它也是通过token间相似度来过滤出前50%重要的token,然后通过token resampler聚合,消融实验也比较了直接丢掉的效果。和这个有点像就是了。

T2:分类主干在任何情况下都无法使用,这也说明传统主干网络的语义结构与实际的语言语义差异巨大,如果使用CLIP主干进行传统分类结果应该更好,实际上已经有工作证明是这样的。现在大家都是CLIP+DINO了,一个是与语言对齐过的视觉模型,一个是纯视觉模型。

T3:sigLIP+phi2

 

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-25 12:36:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-25 12:36:04       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-25 12:36:04       82 阅读
  4. Python语言-面向对象

    2024-04-25 12:36:04       91 阅读

热门阅读

  1. vue文件、js文件外部导入js

    2024-04-25 12:36:04       79 阅读
  2. 使用AWK进行文本处理

    2024-04-25 12:36:04       28 阅读
  3. 【2024中高级向】22道前端面试题附答案

    2024-04-25 12:36:04       29 阅读
  4. 上海计算机学会2020年5月月赛C++丙组T1戴口罩

    2024-04-25 12:36:04       36 阅读
  5. Linux红帽(RHCE)认证学习笔记

    2024-04-25 12:36:04       33 阅读
  6. 远程仓库.github/workflow的 yml如何配置

    2024-04-25 12:36:04       37 阅读
  7. spring mvc \ spring boot \ spring cloud

    2024-04-25 12:36:04       34 阅读