VCoder:大语言模型的眼睛


07b5fe6e7e62471889330dfec3a5d5d1.jpeg

简介

VCoder的一个视觉编码器,能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。

它可以帮助模型显示图片中不同物体的轮廓或深度图(显示物体距离相机的远近)。还能更准确的理解图片中的物体是什么,甚至能数出图片中有多少人。

功能介绍

1、增强视觉感知能力:VCoder通过提供额外的视觉编码器,帮助MLLM更好地理解和分析图像内容。

2、处理特殊类型的图像:VCoder能够处理分割图和深度图等特殊类型的图像。分割图可以帮助模型识别和理解图像中不同物体的边界和形状,而深度图则提供了物体距离相机远近的信息。

3、改善对象感知任务:VCoder通过提供额外的感知模态输入(如分割图或深度图)显著提高了MLLMs的对象感知能力。这包括更准确地识别和计数图像中的对象。


实验结果

VCoder与开源的多模态LLMs(如MiniGPT-4、InstructBLIP、LLaVA-1.5和CogVLM)进行了比较,并在COST验证集上进行了测试。

VCoder在对象识别任务中表现最佳,特别是在对象计数和识别方面优于基线模型。

在处理复杂场景中的对象计数和识别任务时,VCoder展示了更高的准确性,尤其是在场景中有许多实体时。

对比GPT-4V:实验表明,GPT-4V在所有对象识别任务中的表现一致,但在与VCoder的比较中,GPT-4V在对象级感知方面落后于VCoder。

项目及演示:https://praeclarumjj3.github.io/vcoder/

论文:https://arxiv.org/abs/2312.14233

GitHub:https://github.com/SHI-Labs/VCoder

在线演示:https://huggingface.co/spaces/shi-labs/VCoder

相关推荐

  1. 模型之一:语言模型预训练过程

    2024-01-09 11:04:01       13 阅读
  2. 什么是语言模型Token

    2024-01-09 11:04:01       40 阅读
  3. 语言模型技术-算法原理

    2024-01-09 11:04:01       33 阅读
  4. 语言模型不适合范围

    2024-01-09 11:04:01       38 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-09 11:04:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-09 11:04:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-09 11:04:01       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-09 11:04:01       20 阅读

热门阅读

  1. SQL-DML小结

    2024-01-09 11:04:01       36 阅读
  2. Bluez交叉编译

    2024-01-09 11:04:01       40 阅读
  3. C++ STL中vector的模拟实现

    2024-01-09 11:04:01       36 阅读
  4. 安卓adb

    2024-01-09 11:04:01       33 阅读
  5. 逐步递进地手写一个Promise

    2024-01-09 11:04:01       31 阅读
  6. 探索 GitHub:高效使用技巧与实例分享

    2024-01-09 11:04:01       40 阅读
  7. git常用指令及应用案例

    2024-01-09 11:04:01       43 阅读
  8. 程序员必备的面试技巧

    2024-01-09 11:04:01       36 阅读
  9. Django创建RSS订阅

    2024-01-09 11:04:01       36 阅读