VLM 系列——BLIP2——论文解读

一、概述

1、是什么

     BLIP2 全称《BLIP-2: Bootstrapping Language-Image Pre-training  with Frozen Image Encoders and Large Language Models 》, 是一个多模态视觉-文本大语言模型,隶属BLIP系列第二篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代码、视觉定位、JSON mode等。)

2、亮点

    主要来解决图文多模态端到端重新预训练方式遇到的两个问题:
    1)训练成本高:多模态模型需要大量数据,加上模型结构复杂,因此导致端到端重新预训练的成本比较高;
    2)模型灾难性遗忘,LLM大模型在finetune时,可能会产生遗忘现象,因此如果直接将单模态的预训练模型加入到多模态模型中进行联合训练,可能会产生灾难性遗忘问题;
    解决方案:
    *采用已经训练好的单模态模型,从而避免train-from-scratch,减少训练成本;
    *将单模态模型的参数进行冻结,从而避免灾难性遗忘问题,充分利用已经训练好的单模态模型;

相关推荐

  1. VLM 系列——BLIP2——论文解读

    2024-01-29 04:02:01       31 阅读
  2. VLM 系列——BLIP——论文解读

    2024-01-29 04:02:01       42 阅读
  3. VLM 系列——CLIP——论文解读

    2024-01-29 04:02:01       37 阅读
  4. VLM 系列——COGVLM—— 论文解读

    2024-01-29 04:02:01       30 阅读
  5. VLM 系列——Monkey——论文解读

    2024-01-29 04:02:01       40 阅读
  6. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-29 04:02:01       31 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-29 04:02:01       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-29 04:02:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-29 04:02:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-29 04:02:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-29 04:02:01       18 阅读

热门阅读

  1. 嵌入式产品的开发流程

    2024-01-29 04:02:01       34 阅读
  2. Git入门

    Git入门

    2024-01-29 04:02:01      29 阅读
  3. STM32 SDIO接口配置与使用方法详解

    2024-01-29 04:02:01       46 阅读
  4. Mybatis-获取参数值的两种方式

    2024-01-29 04:02:01       37 阅读
  5. 制作圆形Image

    2024-01-29 04:02:01       35 阅读
  6. 力扣0089——格雷编码

    2024-01-29 04:02:01       40 阅读
  7. 单板计算机(SBC)-片上系统(SOC)嵌入式C++和FPGA(VHDL)

    2024-01-29 04:02:01       34 阅读
  8. CMake-Cookbook 第0章 配置环境

    2024-01-29 04:02:01       26 阅读