VLM 系列——BLIP——论文解读

一、概述

1、是什么

    BLIP 全称《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 》, 是一个多模态视觉-文本大语言模型,隶属BLIP系列第一篇,可以完成:图像描述、视觉问答、图像检索。由于没有接入LLM,所以虽然可以做生成任务,但是没有很强的对话能力以及世界知识。

2、亮点

    主要是模型和数据两方面:
    *模型方面:把模型设计成了一个unified 框架,可以同时满足:图文检索和图像描述任务。主要有三部分构成:视觉编码器、文本编码器和多模态编码器。
    *数据方面:提出了一个Captioner和Filter 模块,Captioner对一张图生成描述(也就是图文对的文)、filter过滤噪声图文对。用这种数据清洗方法就能利用大量的互联网数据,并降低里面的噪音。

PS

    *这篇文章的模型方面基本上和albuf类似,数据方面的创新很不错,一定要注意这里没有LLM,只有一阶段训练。
    *这篇文章的模型流程因为涉及到数据清洗和下游任务,整体流程是:脏数据训练BLIP->使用BLIP脏数据版应用到CapfFlit 数据清洗流程得到干

相关推荐

  1. VLM 系列——BLIP——论文解读

    2024-01-28 14:26:01       43 阅读
  2. VLM 系列——BLIP2——论文解读

    2024-01-28 14:26:01       31 阅读
  3. VLM 系列——CLIP——论文解读

    2024-01-28 14:26:01       37 阅读
  4. VLM 系列——COGVLM—— 论文解读

    2024-01-28 14:26:01       31 阅读
  5. VLM 系列——Monkey——论文解读

    2024-01-28 14:26:01       40 阅读
  6. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-28 14:26:01       31 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-28 14:26:01       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-28 14:26:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-28 14:26:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-28 14:26:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-28 14:26:01       18 阅读

热门阅读

  1. cenos8.5快速部署开发环境(LAMP)

    2024-01-28 14:26:01       28 阅读
  2. 强化学习原理python篇06——DQN

    2024-01-28 14:26:01       32 阅读
  3. ES6 剩余函数

    2024-01-28 14:26:01       33 阅读
  4. 自定义包的设计与实现

    2024-01-28 14:26:01       28 阅读
  5. k8s实例

    k8s实例

    2024-01-28 14:26:01      26 阅读
  6. 【Docker】Docker学习⑧ - Docker仓库之分布式Harbor

    2024-01-28 14:26:01       33 阅读
  7. Go黑帽子(第二章)

    2024-01-28 14:26:01       26 阅读