多模态模型训练QA

2024-04-25 12:36:04
开发
109

Q：InternLM-XComposer的最新版本把vit的参数量降低了但是效果好了，所以好奇scale up vision encoder的收益大么？还是说重点是一个好的llm？

A：结论是二者同步扩大才会起作用。我们试下来结论是llm 7b情况下，vision太大没啥用，所以clip-l就很好。但是随着llm扩大，比如到了20b以上，同等条件下，vit6b的作用就出来了。我们在mmb的性能基本没咋调就到83+了，比视觉部分更小的llava1.6高很多。

Q：InternVL的论文，除了Qformer改成了llama，视觉编码器变大以外，还有什么和blip2不一样吗？

A：探讨的事情区别很大，一个是开发中间层，链接已有的视觉模型和语言模型；一个是扩宽视觉模型的参数量边界，是从头训练的。

Q：InternVL请问下这里降低Token数量用的是Pixel shuffle，有对比过这个和用Qformer（类似Qwen-VL）哪种更好吗？

A：这里没有做过对比，因为pixel shuffle比较简单就直接用了。如果继续scale up分辨率的话，比如896x896的大小，pixel shuffle就会有1024个image token，而Qwen-VL仍是256个token。从保留图像细节的角度看，pixel shuffle保留的细节信息更多；但从计算量的角度看，Qwen-VL的方式对后续LLM的计算压力更小。

Q：用 Q-Former 的方式训练 VL Connecter 会不会在流程增加了复杂度，如果是参数量的问题，直接把 llava 系列模型中的 MLP VL Connector 换为 6B level 的 transofrmer 是不是就行了，这边有实验这种方法是不是 work 吗？

A：可以看看我们最新的版本啊，我们现在是直接6b + mlp + llm。q- former现在我们不怎么用。

Q：这种visual expert + connection module + LLM的简单粗暴范式真的高效吗？MIT有篇讨论multimodal neuron的论文，作者实验表示通过一个linear projection后获得的表征在进入LLM前没有显著的解释性，模态转换仍然发生在LLM内部，不知道大佬怎么看。

A：直觉感受是视觉特征经过proj以后得到的soft visual token已经是经过高度抽象压缩了，有点类似prefix/prompt tuning代表对应任务的prefix embedding的感觉。

Q：Minigptv2和Qwen-vl太像了吧？

A：这俩模型结构上主要的差别在projection层，MiniGPT-v2用的是mlp，通过pooling的方式减少vision token的数量；qwen-vl用了一层cross-attention。

Q：llava中，OCR能力是怎么学到的？

A：所谓的 emerging properties 吧。本身 visual encoder 和 LLM 的预训练好的模型已经有很好的理解各自domain 数据的能力（有各自结构化的feature space）。我们利用 linear projection layer 把它们链接起来，这一步可以认为是 visual tokenization，把 visual token 嵌入到预训练好的 language model word embedding space里。而这一步的 image-text feature alignment 极少数据就可以看出不错的能力。

Q：

A：

T1：TextMonkey论文也是发现提高分辨率后会有很多冗余的tonen，然后它也是通过token间相似度来过滤出前50％重要的token，然后通过token resampler聚合，消融实验也比较了直接丢掉的效果。和这个有点像就是了。

T2：分类主干在任何情况下都无法使用，这也说明传统主干网络的语义结构与实际的语言语义差异巨大，如果使用CLIP主干进行传统分类结果应该更好，实际上已经有工作证明是这样的。现在大家都是CLIP+DINO了，一个是与语言对齐过的视觉模型，一个是纯视觉模型。

T3：sigLIP+phi2

原文地址:https://blog.csdn.net/u012193416/article/details/138079361 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1783354261820805120.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

多模态模型训练QA

相关推荐

最近更新

热门阅读