Qwen-VL论文阅读

2024-06-09 22:14:04
开发
10

其他同学的详细讲解

模型结构和参数大小

（1）LLM：Qwen-7B

（2）Vision Encoder：ViT架构，初始化参数是 Openclip’s ViT-bigG。

在训练和推理过程中，输入的图像都被调整到特定的分辨率。

视觉编码器通过将图像分割成步长为14 的块来处理图像，从而生成一组图像特征。

「 224 / 14 = 16 16 x 16 = 256」

（3）VL Adapter：Position-aware Vision-Language Adapter 位置感知视觉-语言适配器

主要作用是压缩图像特征、减少由长图像特征序列引起的效率问题。

这个Adapter 包括一个随机初始化的单层交叉注意力模块 cross-attention

这个模块的 query 是一组可训练的向量，key 是 Vision Encoder 输出的图像特征

「这里的query 经过不断地训练，在图文的对齐上起到了重要的作用」

这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失，而查询量过多则可能会增加收敛难度和计算成本」

整合 2D绝对位置编码到 cross attention 中 query 和 key，以减轻图像压缩时的损失

随后，将256长度的压缩图像特征输入给 LLM

在这里插入图片描述

Qwen-VL训练的3个阶段

在这里插入图片描述

（1）预训练阶段

用大规模、弱标注、网络爬虫抓取的 14亿图像文本对 数据集，其中 22.7% 中文数据

冻结 LLM的参数，仅对 Vision Encoder 和 VL Adapter 进行优化。

输入的图像大小调整为 224 x 224

训练目标是文本 token 的交叉熵

最大学习率 2e-4

batchsize为 30720个图像文本对

持续 50000步的训练

消耗约 15亿图像文本对的样本

这个阶段的目标是对齐 Vision Encoder 和LLM的特征

（2）多任务训练阶段

用高质量、细粒度的 VL 标注数据，采用更大分辨率和交错的图像文本对同时进行 7个任务的训练。

其中简单地通过将同一任务的数据打包成长度为 2048 的序列来构造交错的图像-文本数据（不同训练集的数据）

并且将 Vision Encoder的输入分辨率从 224 x 224 提升到 448 x 448，减少图像下采样造成的损失

训练目标和预训练阶段相同，但不冻结任一模块

这个阶段的目标是强化模型的多模态能力

（3）有监督微调阶段

通过指令微调对Qwen-VL预训练模型进行了微调，以增强其遵循指令和多轮对话能力，从而得到了交互式的Qwen-VL-Chat模型

通过优化这个阶段的训练数据，使得模型具备定位和多图像理解能力

同时，通过混合纯文本数据，使得模型具有通用对话能力

这部分指令微调数据总量是 350k

此阶段冻结 Vision Encoder 模块，优化 LLM 和 VL Adapter 模块参数

训练数据示例：

训练目标：回答和特殊标记（如下图蓝色部分）为了确保预测和训练之间的分布一致性
在这里插入图片描述

其他

Qwen-VL全新升级

注意：上述记录、忽略一些的细节，比如 input 和 output等

原文地址:https://blog.csdn.net/jinselizhi/article/details/139452756 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799807173337944064.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

Qwen-VL论文阅读

2024-06-09 22:14:04 11 阅读
VLM 系列——Qwen-VL 千问—— 论文解读

2024-06-09 22:14:04 33 阅读
qwen-vl微调

2024-06-09 22:14:04 14 阅读
【论文阅读】

2024-06-09 22:14:04 23 阅读
场景文本检测&识别学习 day06（Vi-Transformer论文精读、MAE论文阅读）

2024-06-09 22:14:04 11 阅读
论文阅读：Vary论文阅读笔记

2024-06-09 22:14:04 35 阅读
论文阅读：Vary-toy论文阅读笔记

2024-06-09 22:14:04 47 阅读
【论文阅读笔记】清单

2024-06-09 22:14:04 51 阅读
《PFL》论文阅读笔记

2024-06-09 22:14:04 52 阅读
gpt阅读论文利器

2024-06-09 22:14:04 39 阅读

热门阅读

Python脚手架系列-PyQt5

2024-06-09 22:14:04 10 阅读
【论文阅读】Point2RBox (CVPR’2024)

2024-06-09 22:14:04 9 阅读
iptables防火墙

2024-06-09 22:14:04 11 阅读
几种常见的热仿真软件

2024-06-09 22:14:04 9 阅读
生成式人工智能 - 文本反转（Textual Inversion）：一种微调稳定扩散模型的方法

2024-06-09 22:14:04 13 阅读
Flutter 常见报错记录

2024-06-09 22:14:04 13 阅读
盘点 2024 Google I/O 中的 Android 方向关键更新

2024-06-09 22:14:04 10 阅读
克鲁斯卡尔算法最小生成树--C语言

2024-06-09 22:14:04 10 阅读
解决更新Android Studio后下载Gradle超时

2024-06-09 22:14:04 11 阅读
12.【Orangepi Zero2】基于orangepi_Zero_2 Linux的智能家居项目

2024-06-09 22:14:04 7 阅读
Linux Kernel nf_tables 本地权限提升漏洞(CVE-2024-1086)

2024-06-09 22:14:04 10 阅读
Linux Ext2/3/4文件系统

2024-06-09 22:14:04 9 阅读
Linux服务器扩容及磁盘分区（LVM和非LVM）

2024-06-09 22:14:04 12 阅读
给自己Linux搞个『回收站』，防止文件误删除

2024-06-09 22:14:04 12 阅读
OrangePi AIpro小试牛刀-目标检测（YoloV5s）

2024-06-09 22:14:04 11 阅读
MySQL之多表查询—列子查询

2024-06-09 22:14:04 11 阅读
6.8 思维导图

2024-06-09 22:14:04 8 阅读
less学习笔记

2024-06-09 22:14:04 6 阅读
（四）React组件、useState

2024-06-09 22:14:04 9 阅读
【MySQL】表的增删查改

2024-06-09 22:14:04 13 阅读
Go语言的GoFly快速开发框架已经支持Postgresql和Mysql两种数据库

2024-06-09 22:14:04 9 阅读
C#中使用Mysql批量新增数据 MySqlBulkCopy

2024-06-09 22:14:04 9 阅读
前端通用样式调整方法(整理版)

2024-06-09 22:14:04 9 阅读
web 前端开发培训：深入探索与实战应用

2024-06-09 22:14:04 14 阅读
28 - 只出现一次的最大数字（高频 SQL 50 题基础版)

2024-06-09 22:14:04 11 阅读
线程+线程池+锁

2024-06-09 22:14:04 11 阅读
多维vector定义

2024-06-09 22:14:04 10 阅读
3年前端期望18K，云账户社招一面

2024-06-09 22:14:04 11 阅读
URL的编码解码(一)，仅针对ASCII码字符

2024-06-09 22:14:04 10 阅读
生成式人工智能 - 本地windows 11 + PyCharm运行stable diffusion流程简述

2024-06-09 22:14:04 10 阅读