VLM 系列——Qwen-VL 千问—— 论文解读

2024-01-29 08:00:01
开发
30

一、概述

1、是什么

Qwen-VL全称《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》，是一个多模态的视觉-文本模型，当前 Qwen-VL（20231707）可以完成：图像字幕、视觉问答、OCR、文档理解和视觉定位功能，同时支持多语言对话、多图像交错对话、细粒度识别。基于Qwen- 7b (非最终版本权重)语言模型，通过引入一个新的视觉感受器（包括一个语言对齐的视觉编码器和一个位置感知适配器），赋予LLM基础视觉能力。整体模型架构和输入输出接口都非常简洁，精心设计了一个3阶段的训练流水线，在大量的图像-文本语料库上优化整个模型。

Qwen-VL表示多任务训练后的模型，Qwen-VL-chat是基于Qwen-VL的指令调优（第三阶段SFT——监督微调）后的视觉语言聊天机器人。

截止20240128后续又出了Qwen-VL-plus、Qwen-VL-MAX，但是目前没有论文和开源，其中Qwen-VL-MAX已经和GPT-4V抗衡，所以还是得端到端大力训啊，狗头狗头。

2、亮点

*领先的性能：与同类产品相比，Qwen-VL在大量以视觉为中心的理解基准上实现了顶级的准确性。此外，Qwen-VL的出色表现不仅涵盖了传统的基准(如字幕、问答、接地气)，还包括最近引入的一些对话基准

原文地址:https://blog.csdn.net/u012863603/article/details/135896522 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751757048338583552.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

$【机器学习】正则化$

【机器学习】正则化

2024-01-29 08:00:01 34 阅读
自然语言处理，基于预训练语言模型的方法，车万翔，引言部分

2024-01-29 08:00:01 28 阅读
c# Newtonsoft.Json 序列化和反序列化

2024-01-29 08:00:01 33 阅读
【UEFI实战】Redfish的BIOS实现——生成EDK数据

2024-01-29 08:00:01 37 阅读
前段学习，用Visual Studio创建一个百度web

2024-01-29 08:00:01 24 阅读
MySQL入门篇(2)-MySQL的安装和配置

2024-01-29 08:00:01 27 阅读
浅析大数据汇总

2024-01-29 08:00:01 30 阅读
1001. HarmonyOS 开发问题：http 文档中，为什么成功不销毁，而异常需要销毁?

2024-01-29 08:00:01 25 阅读
工程对接大模型流式和非流式对话底层原理解析

2024-01-29 08:00:01 26 阅读
sqli-labs-master 下载、搭建

2024-01-29 08:00:01 30 阅读
WordPress块编辑器（Gutenberg古腾堡）中如何添加脚注？

2024-01-29 08:00:01 31 阅读
数据结构（C语言版）代码实现（五）——双向循环链表的部分实现

2024-01-29 08:00:01 34 阅读
BKP备份寄存器、RTC实时时钟

2024-01-29 08:00:01 26 阅读
系统架构18 - 软件工程（6）

2024-01-29 08:00:01 30 阅读
《A++ 敏捷开发》- 6 估算软件规模

2024-01-29 08:00:01 29 阅读
diff命令详解

2024-01-29 08:00:01 33 阅读
JVM系列——基础知识

2024-01-29 08:00:01 34 阅读
深入理解多线程编程和 JVM 内存模型

2024-01-29 08:00:01 24 阅读
MyBatis 如何整合 Druid 连接池？

2024-01-29 08:00:01 33 阅读
MyBatis-plus

2024-01-29 08:00:01 31 阅读
Redis的RDB和AOF详解

2024-01-29 08:00:01 30 阅读
聊聊Git合并和变基

2024-01-29 08:00:01 28 阅读
HarmonyOS鸿蒙虚拟像素

2024-01-29 08:00:01 37 阅读
centos 7安装MySQl

2024-01-29 08:00:01 39 阅读
linux 下scrcpy 手机投屏到电脑，QT+ffmpeg 获取视频流，处理等等

2024-01-29 08:00:01 37 阅读
鸿蒙（HarmonyOS）项目方舟框架（ArkUI）之CheckboxGroup组件

2024-01-29 08:00:01 39 阅读
c++多态

2024-01-29 08:00:01 22 阅读
mac安装mysql的8.0设置面板启动不了

2024-01-29 08:00:01 46 阅读
开源之力与GPT的碰撞：探索未来技术的无限可能

2024-01-29 08:00:01 32 阅读
# OpenIM （Open-Source Instant Messaging） Mac Deployment Guide

2024-01-29 08:00:01 63 阅读