Rethinking overlooked aspects in vision-language models

探讨多模态视觉语言模型的一些有趣结论欢迎关注 CVHub!icon-default.png?t=N7T8https://mp.weixin.qq.com/s/zouNu-g-33_7JoX3Uscxtw1.Introduction

        多模态模型架构上的变化不大,数据的差距比较大,输入分辨率和输入llm的视觉token大小是比较关键的,适配器,VIT和语言模型则不是那么关键。InternVL-1.5,Qwen-VL-Max和DeepSeek-VL利用了Laion-5B和COYO这样的大规模预训练数据,数据量达到10亿,InternVL-1.5将sft划分为11个子类,并为每个子类收集相应的开源数据,对于预训练数据,LLM存在一个scaling law,但是在LVM中尚未发现。LLaVA在60多万数据上预训练,15w数据上sft效果就很好了。

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-10 03:42:03       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-10 03:42:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-10 03:42:03       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-10 03:42:03       20 阅读

热门阅读

  1. MySQL无法设置密码解决方案

    2024-06-10 03:42:03       9 阅读
  2. web前端构建表单:深入探索与实践

    2024-06-10 03:42:03       11 阅读
  3. Go语言整型(整数类型)的详解

    2024-06-10 03:42:03       10 阅读
  4. C++中的封装,继承和多态

    2024-06-10 03:42:03       7 阅读
  5. C++中的常见I/O方式

    2024-06-10 03:42:03       7 阅读
  6. 自动化专业之半导体行业入门指南

    2024-06-10 03:42:03       9 阅读