VLM 系列——BLIP——论文解读

2024-01-28 14:26:01
开发
42

一、概述

1、是什么

BLIP 全称《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第一篇，可以完成：图像描述、视觉问答、图像检索。由于没有接入LLM，所以虽然可以做生成任务，但是没有很强的对话能力以及世界知识。

2、亮点

主要是模型和数据两方面：

*模型方面：把模型设计成了一个unified 框架，可以同时满足：图文检索和图像描述任务。主要有三部分构成：视觉编码器、文本编码器和多模态编码器。

*数据方面：提出了一个Captioner和Filter 模块，Captioner对一张图生成描述（也就是图文对的文）、filter过滤噪声图文对。用这种数据清洗方法就能利用大量的互联网数据，并降低里面的噪音。

PS

*这篇文章的模型方面基本上和albuf类似，数据方面的创新很不错，一定要注意这里没有LLM，只有一阶段训练。

*这篇文章的模型流程因为涉及到数据清洗和下游任务，整体流程是：脏数据训练BLIP->使用BLIP脏数据版应用到CapfFlit 数据清洗流程得到干

原文地址:https://blog.csdn.net/u012863603/article/details/135892087 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751491802101321728.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

VLM 系列——BLIP——论文解读

2024-01-28 14:26:01 43 阅读
VLM 系列——BLIP2——论文解读

2024-01-28 14:26:01 31 阅读
VLM 系列——CLIP——论文解读

2024-01-28 14:26:01 37 阅读
VLM 系列——COGVLM—— 论文解读

2024-01-28 14:26:01 31 阅读
VLM 系列——Monkey——论文解读

2024-01-28 14:26:01 40 阅读
【论文精读】多模态系列：ALBEF、VLMo、BLIP、CoCa、BeiTv3

2024-01-28 14:26:01 11 阅读
VLM 系列——Qwen-VL 千问—— 论文解读

2024-01-28 14:26:01 31 阅读
VLM 系列——LLaVA-MoLE——论文解读

2024-01-28 14:26:01 29 阅读
VLM 系列——Object Recognition as Next Token Prediction——论文解读

2024-01-28 14:26:01 32 阅读
论文阅读——BLIP-2

2024-01-28 14:26:01 27 阅读

热门阅读

静态分析C语言生成函数调用关系的利器——cally和egypt

2024-01-28 14:26:01 37 阅读
R ARIMA时间序列分析

2024-01-28 14:26:01 24 阅读
GPT-SoVITS 测试

2024-01-28 14:26:01 31 阅读
C#，计算几何，随机点集之三角剖分的德劳内（Delaunay）算法的源代码

2024-01-28 14:26:01 34 阅读
可视化 |【d3】力导向关系图

2024-01-28 14:26:01 33 阅读
知识蒸馏综述---代码整理

2024-01-28 14:26:01 35 阅读
SQL注入：盲注

2024-01-28 14:26:01 40 阅读
【Linux】文件描述符 | 重定向 | C文件指针与fd的关系 | 用户级缓冲区

2024-01-28 14:26:01 32 阅读
RCC——使用HSE/HSI配置时钟

2024-01-28 14:26:01 37 阅读
嵌入式——实时时钟（RTC）

2024-01-28 14:26:01 28 阅读
微信小程序-04

2024-01-28 14:26:01 40 阅读
什么时跨域问题和如何解决跨域问题

2024-01-28 14:26:01 31 阅读
uniapp微信小程序-请求二次封装（直接可用）

2024-01-28 14:26:01 40 阅读
数字技术如何改变乡村生活：从传统到现代的跨越

2024-01-28 14:26:01 26 阅读
隐马尔可夫模型系列——（一）概述

2024-01-28 14:26:01 33 阅读
cenos8.5快速部署开发环境（LAMP）

2024-01-28 14:26:01 28 阅读
某工业级剪纸包装机辐射整改实例

2024-01-28 14:26:01 39 阅读
强化学习原理python篇06——DQN

2024-01-28 14:26:01 32 阅读
ES6 剩余函数

2024-01-28 14:26:01 33 阅读
【GPU】CUDA是什么？以及学习路线图！

2024-01-28 14:26:01 41 阅读
Vulnhub-dc6

2024-01-28 14:26:01 31 阅读
Linux下安装openresty

2024-01-28 14:26:01 37 阅读
C++——异常

2024-01-28 14:26:01 27 阅读
自定义包的设计与实现

2024-01-28 14:26:01 28 阅读
k8s实例

2024-01-28 14:26:01 26 阅读
【Docker】Docker学习⑧ - Docker仓库之分布式Harbor

2024-01-28 14:26:01 33 阅读
智能工厂4G无线设备预测维护云端联动的DI、AI、DO混合信号处理单元

2024-01-28 14:26:01 28 阅读
Go黑帽子（第二章）

2024-01-28 14:26:01 26 阅读
WPF自定义圆形百分比进度条

2024-01-28 14:26:01 24 阅读
FL Studio2024破解汉化中文版下载链接

2024-01-28 14:26:01 33 阅读