VLM 系列——Qwen-VL 千问—— 论文解读

一、概述

1、是什么

     Qwen-VL全称《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》,是一个多模态的视觉-文本模型,当前 Qwen-VL(20231707)可以完成:图像字幕、视觉问答、OCR、文档理解和视觉定位功能,同时支持多语言对话、多图像交错对话、细粒度识别。基于Qwen- 7b (非最终版本权重)语言模型,通过引入一个新的视觉感受器(包括一个语言对齐的视觉编码器和一个位置感知适配器),赋予LLM基础视觉能力。整体模型架构和输入输出接口都非常简洁,精心设计了一个3阶段的训练流水线,在大量的图像-文本语料库上优化整个模型。
    Qwen-VL表示多任务训练后的模型,Qwen-VL-chat是基于Qwen-VL的指令调优(第三阶段SFT——监督微调)后的视觉语言聊天机器人。
        截止20240128后续又出了Qwen-VL-plus、Qwen-VL-MAX,但是目前没有论文和开源,其中Qwen-VL-MAX已经和GPT-4V抗衡,所以还是得端到端大力训啊,狗头狗头。

2、亮点

    *领先的性能:与同类产品相比,Qwen-VL在大量以视觉为中心的理解基准上实现了顶级的准确性。此外,Qwen-VL的出色表现不仅涵盖了传统的基准(如字幕、问答、接地气),还包括最近引入的一些对话基准

相关推荐

  1. VLM 系列——Qwen-VL —— 论文解读

    2024-01-29 08:00:01       31 阅读
  2. VLM 系列——CLIP——论文解读

    2024-01-29 08:00:01       36 阅读
  3. VLM 系列——BLIP——论文解读

    2024-01-29 08:00:01       42 阅读
  4. VLM 系列——COGVLM—— 论文解读

    2024-01-29 08:00:01       30 阅读
  5. VLM 系列——Monkey——论文解读

    2024-01-29 08:00:01       40 阅读
  6. VLM 系列——BLIP2——论文解读

    2024-01-29 08:00:01       30 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-29 08:00:01       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-29 08:00:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-29 08:00:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-29 08:00:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-29 08:00:01       18 阅读

热门阅读

  1. c# Newtonsoft.Json 序列化和反序列化

    2024-01-29 08:00:01       33 阅读
  2. MySQL入门篇(2)-MySQL的安装和配置

    2024-01-29 08:00:01       27 阅读
  3. 浅析大数据汇总

    2024-01-29 08:00:01       30 阅读
  4. 系统架构18 - 软件工程(6)

    2024-01-29 08:00:01       30 阅读
  5. diff命令详解

    2024-01-29 08:00:01       33 阅读
  6. MyBatis-plus

    2024-01-29 08:00:01       31 阅读
  7. Redis的RDB和AOF详解

    2024-01-29 08:00:01       30 阅读
  8. HarmonyOS鸿蒙 虚拟像素

    2024-01-29 08:00:01       37 阅读
  9. c++多态

    c++多态

    2024-01-29 08:00:01      22 阅读