VLM 系列——Object Recognition as Next Token Prediction——论文解读

2024-01-10 03:40:02
开发
30

一、概述

1、是什么

结合了CLIP 的视觉编码器+语言模型Llama 的部分参数，将常见的图片描述任务转变为只输出属性，换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性（英文），用于开放域的图片Tag 场景。

2、亮点

*对图像-标题（从原始标题中提取名词作为参考标签）对进行训练，比图像-问题-答案三元组更容易收集和注释。对于推理，生成文本片段作为标签而不是句子。

*解码器具有不同的令token建模机制，不同标签的token独立，相同标签的token仍然是因果（后面的依赖前面），标签标记都以图像嵌入为条件。实现方式就是一个非因果注意掩码。

*非因果掩蔽机制激发了一种新的采样方法，称为一次性采样，用于生成标签的文本token。同时对多个标签的标记进行并行抽样，并根据它们的概率对它们进行排序。这利用了transformer强大的并行化能力。

*简单的策略来提高模型效率。从一个预训练的LLM开始，例如LLaMA，保留前六个transformer块以及最终输出层，删除中间的块。与完整的模型性能相匹配，推理速度快4.5倍。

PS

*这里作者没有对比RAM 这类模型，可能作者认为他面向的是开放域。但是如果你的应用场景是可以提前知道想要的类别标记，那么完全可以去对比RAM++，即使RAM+

原文地址:https://blog.csdn.net/u012863603/article/details/135465039 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1744806253068161024.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

DES算法（Python实现）

2024-01-10 03:40:02 26 阅读
玩转Mysql 五（MySQL索引）

2024-01-10 03:40:02 36 阅读
【深度学习】SDXL tensorRT 推理，Stable Diffusion 转onnx，转TensorRT

2024-01-10 03:40:02 43 阅读
AndroidStudio导入jar包

2024-01-10 03:40:02 34 阅读
开源拖拽表单设计器好用吗？

2024-01-10 03:40:02 36 阅读
QT c++ 双精度浮点数转换成4个16位数

2024-01-10 03:40:02 31 阅读
阴盘奇门八字排盘马星位置计算方法php代码

2024-01-10 03:40:02 36 阅读
【Docker】Docker基础

2024-01-10 03:40:02 36 阅读
学习笔记——C++二维数组

2024-01-10 03:40:02 37 阅读
nn网络层-卷积层

2024-01-10 03:40:02 34 阅读
DataFrame相关的API

2024-01-10 03:40:02 33 阅读
正则表达式手册

2024-01-10 03:40:02 39 阅读
迎接人工智能的下一个时代：ChatGPT的技术实现原理、行业实践以及商业变现途径

2024-01-10 03:40:02 29 阅读
工程管理系统功能设计与实践：实现高效、透明的工程管理

2024-01-10 03:40:02 29 阅读
sdbusplus：多线程共享同一个bus，做同步调用，行为未定义

2024-01-10 03:40:02 34 阅读
android系列-init 初始化日志

2024-01-10 03:40:02 33 阅读
并发程序设计--D11D12进程间通信

2024-01-10 03:40:02 24 阅读
什么是跨境电商独立站？

2024-01-10 03:40:02 50 阅读
UV胶水与聚氯乙烯PVC材料的塑料粘接，效果如何？

2024-01-10 03:40:02 27 阅读
C# 反射的乌云，MethodInfo的Json序列化参数入参问题

2024-01-10 03:40:02 39 阅读
Shell脚本小游戏：石头剪刀布

2024-01-10 03:40:02 31 阅读
MySQL运维实战(2.4) SSL认证在MySQL中的应用

2024-01-10 03:40:02 27 阅读
使用 Docker 部署 SSCMS 内容管理系统

2024-01-10 03:40:02 38 阅读
树定义及遍历

2024-01-10 03:40:02 32 阅读
【Leetcode】24. 两两交换链表中的节点

2024-01-10 03:40:02 41 阅读
什么是OOM error

2024-01-10 03:40:02 37 阅读
如何查看崩溃日志

2024-01-10 03:40:02 34 阅读
Spring 基于注解的AOP见解4

2024-01-10 03:40:02 32 阅读
Vue2.v-指令

2024-01-10 03:40:02 37 阅读
Lazada商品API接口：item_search接口中指定搜索范围

2024-01-10 03:40:02 36 阅读