VLM 系列——Monkey——论文解读

2024-01-29 21:10:01
开发
39

一、概述

1、是什么

Monkey 全称《Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models》，是一个多模态的视觉-文本模型，当前版本（20231130）为基于Qwen-vl 的三阶段微调（增加了Lora+visual adapter 支持更高的分辨率）可以完成对一幅图片进行描述（强项，更细节）、相关事物（文本）进行问答（强项，尤其文本），但是这个版本只支持一个图片（为且必为首次输入），几乎不支持写代码（目前测试是的），图中物体或指定输出检测框仍然保留的能力，但是弱了。

2、亮点

着重解决现在大模型分辨率较低（此时作者认为大多数为224*224，少数为448*448），主要体现在模型训练和数据构建两个难点。

1）提出使用Lora 微调已有Qwen-vl 视觉编码器（有多个，看下文的模型结构），加visual adapter 将多个微调的视觉编码器结合，大大降低了训练成本（40 A800 天）。

2）提出一种数据清洗方法，来提高图片的描述详细程度（分辨率高对应更多图片元素细节，否则仅仅提升分辨率作者认为简短的单句描述无法满足需求）。

原文地址:https://blog.csdn.net/u012863603/article/details/135895665 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751955858750836736.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

VLM 系列——Monkey——论文解读

2024-01-29 21:10:01 40 阅读
VLM 系列——CLIP——论文解读

2024-01-29 21:10:01 36 阅读
VLM 系列——BLIP——论文解读

2024-01-29 21:10:01 42 阅读
VLM 系列——COGVLM—— 论文解读

2024-01-29 21:10:01 30 阅读
VLM 系列——Qwen-VL 千问—— 论文解读

2024-01-29 21:10:01 30 阅读
VLM 系列——BLIP2——论文解读

2024-01-29 21:10:01 30 阅读
VLM 系列——LLaVA-MoLE——论文解读

2024-01-29 21:10:01 29 阅读
VLM 系列——Object Recognition as Next Token Prediction——论文解读

2024-01-29 21:10:01 32 阅读
Monkey 和 TextMonkey ---- 论文阅读

2024-01-29 21:10:01 15 阅读
多模态vlm综述：An Introduction to Vision-Language Modeling 论文解读

2024-01-29 21:10:01 7 阅读

热门阅读

【李宏毅机器学习】Transformer 内容补充

2024-01-29 21:10:01 33 阅读
Web 上升的圆心

2024-01-29 21:10:01 26 阅读
web前端---------盒子模型

2024-01-29 21:10:01 30 阅读
未来电话呼叫技术的前景与创新

2024-01-29 21:10:01 41 阅读
基于RT-Thread的NRF24L01无线通信模块——点对点通信实验

2024-01-29 21:10:01 35 阅读
力扣354. 俄罗斯套娃信封问题

2024-01-29 21:10:01 28 阅读
用二分法在有序数列中查找元素位置

2024-01-29 21:10:01 26 阅读
docker 网络管理

2024-01-29 21:10:01 35 阅读
手把手教你如何用python进行数据分析！（附四个案例）

2024-01-29 21:10:01 26 阅读
微信小程序～上推加载更多组件

2024-01-29 21:10:01 32 阅读
c语言学习笔记

2024-01-29 21:10:01 27 阅读
【Docker】docker基础

2024-01-29 21:10:01 29 阅读
http和https的区别是什么?https有什么优缺点?

2024-01-29 21:10:01 29 阅读
【Linux】Linux权限的概念 -- 详解

2024-01-29 21:10:01 46 阅读
人工智能的圣杯：关于可解释AI(XAI)的一切

2024-01-29 21:10:01 32 阅读
第4章 python深度学习——（波斯美女）

2024-01-29 21:10:01 26 阅读
Linux部署配置远程日志服务

2024-01-29 21:10:01 30 阅读
MySQL表的增删改查（进阶）

2024-01-29 21:10:01 27 阅读
Redis数据类型-string

2024-01-29 21:10:01 36 阅读
Linux：命名管道及其实现原理

2024-01-29 21:10:01 41 阅读
OpenHarmony—仅允许在表达式中使用typeof运算符

2024-01-29 21:10:01 40 阅读
增加Vscode引用路径

2024-01-29 21:10:01 38 阅读
8.多折线图（MuliLineChart）

2024-01-29 21:10:01 32 阅读
Anaconda 镜像清华大学开源软件镜像站

2024-01-29 21:10:01 40 阅读
Linux多线程——线程池

2024-01-29 21:10:01 31 阅读
idea中不同的package下同类名的冲突及解决办法

2024-01-29 21:10:01 37 阅读
如何实现无公网ip远程SSH连接家中本地的树莓派

2024-01-29 21:10:01 35 阅读
【服务器】服务器的管理口和网口

2024-01-29 21:10:01 34 阅读
先用先发！24年新算法CPO-ELM结合改进自适应核密度估计实现风光电功率区间概率预测！原理讲解！尚未发表！适合新手小白

2024-01-29 21:10:01 34 阅读
ITSS证书：点亮职业发展的明灯

2024-01-29 21:10:01 29 阅读