VLM 系列——CLIP——论文解读

一、概述

1、是什么

    论文全称《Learning Transferable Visual Models From Natural Language Supervision》,是使用图文对(将图像表征与语言联系起来)使用对比学习(有的文章称为自监督,有的文章称为无监督)训练的多模态模型。从互联网上大量文本的监督(自然语言监督)中学习,要比传统的分类数据要大得多。

    可以用来图片zero-shot 分类(其实就是图-文检索,但是不同于以往的ImageNet预测一组固定的预定对象类别),文-图检索,图-图检索(文章没有提及,也没有测试);还有后面的整个AIGC 都有他的影子,比如Stable diffusion 的图像编码器、BLIP系列的图像编码都是使用的CLIP系列的预训练权重。

2、亮点

    *模型:作者提到整个模型的机构等都是有相似物的(VirTex),而batch 内将文本对的度量学习转化为分类是首次。

    *数据:使用互联网数据构建了一个400M的图文数据集,进行模型训练,但是没有开源。

    *结果:通过对30多个不同的现有计算机视觉数据集(集涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务)测试,zero-shot 通常与完全监督的基线相当,在ImageNet匹配原始ResNet-50的精度。

相关推荐

  1. VLM 系列——CLIP——论文解读

    2024-01-23 18:44:04       37 阅读
  2. VLM 系列——BLIP——论文解读

    2024-01-23 18:44:04       42 阅读
  3. VLM 系列——COGVLM—— 论文解读

    2024-01-23 18:44:04       30 阅读
  4. VLM 系列——Monkey——论文解读

    2024-01-23 18:44:04       40 阅读
  5. VLM 系列——Qwen-VL 千问—— 论文解读

    2024-01-23 18:44:04       31 阅读
  6. VLM 系列——BLIP2——论文解读

    2024-01-23 18:44:04       30 阅读
  7. VLM 系列——LLaVA-MoLE——论文解读

    2024-01-23 18:44:04       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-23 18:44:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-23 18:44:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-23 18:44:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-23 18:44:04       18 阅读

热门阅读

  1. python中如何开发插件

    2024-01-23 18:44:04       34 阅读
  2. 数据结构学习Day1:顺序表代码

    2024-01-23 18:44:04       30 阅读
  3. GoLang刷题之leetcode

    2024-01-23 18:44:04       31 阅读
  4. 有关HTML知识点汇总总结

    2024-01-23 18:44:04       29 阅读