VLM 系列——BLIP2——论文解读

2024-01-29 04:02:01
开发
30

一、概述

1、是什么

BLIP2 全称《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第二篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代码、视觉定位、JSON mode等。）

2、亮点

主要来解决图文多模态端到端重新预训练方式遇到的两个问题：

1）训练成本高：多模态模型需要大量数据，加上模型结构复杂，因此导致端到端重新预训练的成本比较高；

2）模型灾难性遗忘，LLM大模型在finetune时，可能会产生遗忘现象，因此如果直接将单模态的预训练模型加入到多模态模型中进行联合训练，可能会产生灾难性遗忘问题；

解决方案：

*采用已经训练好的单模态模型，从而避免train-from-scratch，减少训练成本；

*将单模态模型的参数进行冻结，从而避免灾难性遗忘问题，充分利用已经训练好的单模态模型；

原文地址:https://blog.csdn.net/u012863603/article/details/135852416 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751697152880545792.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

VLM 系列——BLIP2——论文解读

2024-01-29 04:02:01 31 阅读
VLM 系列——BLIP——论文解读

2024-01-29 04:02:01 42 阅读
论文阅读——BLIP-2

2024-01-29 04:02:01 27 阅读
VLM 系列——CLIP——论文解读

2024-01-29 04:02:01 37 阅读
VLM 系列——COGVLM—— 论文解读

2024-01-29 04:02:01 30 阅读
VLM 系列——Monkey——论文解读

2024-01-29 04:02:01 40 阅读
【论文精读】多模态系列：ALBEF、VLMo、BLIP、CoCa、BeiTv3

2024-01-29 04:02:01 10 阅读
VLM 系列——Qwen-VL 千问—— 论文解读

2024-01-29 04:02:01 31 阅读
VLM 系列——LLaVA-MoLE——论文解读

2024-01-29 04:02:01 29 阅读
VLM 系列——Object Recognition as Next Token Prediction——论文解读

2024-01-29 04:02:01 32 阅读

热门阅读

嵌入式产品的开发流程

2024-01-29 04:02:01 34 阅读
OSDI 2023: Honeycomb Secure and Efficient GPU Executions via Static Validation

2024-01-29 04:02:01 35 阅读
Git入门

2024-01-29 04:02:01 29 阅读
论文精读--BERT

2024-01-29 04:02:01 31 阅读
STM32 SDIO接口配置与使用方法详解

2024-01-29 04:02:01 46 阅读
范仲淹大直男逆袭，先天下之忧而忧

2024-01-29 04:02:01 33 阅读
算法沉淀——滑动窗口（leetcode真题剖析）

2024-01-29 04:02:01 24 阅读
Go语言grpc服务开发——Protocol Buffer

2024-01-29 04:02:01 42 阅读
mysql8版本批量造4000个数据SQL

2024-01-29 04:02:01 33 阅读
Mybatis-获取参数值的两种方式

2024-01-29 04:02:01 37 阅读
Linux 驱动开发基础知识—— LED 驱动程序框架（四）

2024-01-29 04:02:01 36 阅读
Redis核心技术与实战【学习笔记】 - 3.Redis服务高可靠

2024-01-29 04:02:01 27 阅读
制作圆形Image

2024-01-29 04:02:01 35 阅读
OpenHarmony—不支持解构赋值

2024-01-29 04:02:01 36 阅读
宋绪杰：我的大数据成长之旅 | 提升之路系列（三）

2024-01-29 04:02:01 41 阅读
2. HarmonyOS 应用开发 DevEco Studio 准备-2

2024-01-29 04:02:01 34 阅读
Linux篇：线程

2024-01-29 04:02:01 27 阅读
力扣0089——格雷编码

2024-01-29 04:02:01 40 阅读
Leetcode2376. 统计特殊整数

2024-01-29 04:02:01 37 阅读
MybatisPlus二级映射和关联对象ResultMap

2024-01-29 04:02:01 31 阅读
uniapp即时通讯IM聊天交友源码安装搭建二次开发

2024-01-29 04:02:01 37 阅读
day34WEB 攻防-通用漏洞&文件上传&黑白盒审计&逻辑&中间件&外部引用

2024-01-29 04:02:01 30 阅读
2024美赛倒计时五天！latex模板（还有word版本）你们都有了吗？没有进来领取！

2024-01-29 04:02:01 34 阅读
富文本编辑器CKEditor4简单使用-01

2024-01-29 04:02:01 40 阅读
ESP32 SPIFFS文件系统

2024-01-29 04:02:01 38 阅读
C++笔试强训选择题6

2024-01-29 04:02:01 29 阅读
单板计算机(SBC)-片上系统(SOC)嵌入式C++和FPGA(VHDL)

2024-01-29 04:02:01 34 阅读
JVM内存调优常用参数

2024-01-29 04:02:01 32 阅读
CMake-Cookbook 第0章配置环境

2024-01-29 04:02:01 26 阅读
2024亚马逊开店详细流程，跨境新卖家必看！

2024-01-29 04:02:01 28 阅读