VLM 系列——Object Recognition as Next Token Prediction——论文解读

一、概述

1、是什么

    结合了CLIP 的视觉编码器+语言模型Llama 的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性(英文),用于开放域的图片Tag 场景。

2、亮点

    *对图像-标题(从原始标题中提取名词作为参考标签)对进行训练,比图像-问题-答案三元组更容易收集和注释。对于推理,生成文本片段作为标签而不是句子。

    *解码器具有不同的令token建模机制,不同标签的token独立,相同标签的token仍然是因果(后面的依赖前面),标签标记都以图像嵌入为条件。实现方式就是一个非因果注意掩码。

    *非因果掩蔽机制激发了一种新的采样方法,称为一次性采样,用于生成标签的文本token。同时对多个标签的标记进行并行抽样,并根据它们的概率对它们进行排序。这利用了transformer强大的并行化能力。

    *简单的策略来提高模型效率。从一个预训练的LLM开始,例如LLaMA,保留前六个transformer块以及最终输出层,删除中间的块。与完整的模型性能相匹配,推理速度快4.5倍。

PS

    *这里作者没有对比RAM 这类模型,可能作者认为他面向的是开放域。但是如果你的应用场景是可以提前知道想要的类别标记,那么完全可以去对比RAM++,即使RAM+

相关推荐

  1. VLM 系列——CLIP——论文解读

    2024-01-10 03:40:02       36 阅读
  2. VLM 系列——BLIP——论文解读

    2024-01-10 03:40:02       39 阅读
  3. VLM 系列——COGVLM—— 论文解读

    2024-01-10 03:40:02       30 阅读
  4. VLM 系列——Monkey——论文解读

    2024-01-10 03:40:02       38 阅读
  5. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-10 03:40:02       28 阅读
  6. VLM 系列——BLIP2——论文解读

    2024-01-10 03:40:02       28 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-10 03:40:02       28 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-10 03:40:02       14 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-10 03:40:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-10 03:40:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-10 03:40:02       18 阅读

热门阅读

  1. QT c++ 双精度浮点数转换成4个16位数

    2024-01-10 03:40:02       31 阅读
  2. DataFrame相关的API

    2024-01-10 03:40:02       33 阅读
  3. 正则表达式手册

    2024-01-10 03:40:02       39 阅读
  4. android系列-init 初始化日志

    2024-01-10 03:40:02       33 阅读
  5. 什么是跨境电商独立站?

    2024-01-10 03:40:02       50 阅读
  6. MySQL运维实战(2.4) SSL认证在MySQL中的应用

    2024-01-10 03:40:02       27 阅读
  7. 【Leetcode】24. 两两交换链表中的节点

    2024-01-10 03:40:02       41 阅读
  8. 什么是OOM error

    2024-01-10 03:40:02       37 阅读
  9. Lazada商品API接口:item_search接口中指定搜索范围

    2024-01-10 03:40:02       36 阅读