论文阅读——ONE-PEACE

ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES

适应不同模态并且支持多模态交互。

预训练任务不仅能提取单模态信息,还能模态间对齐。

预训练任务通用且直接,使得他们可以应用到不同模态。

各个模态独立编码,然后模态融合。

Vision Adapter:使用hierarchical MLP (hMLP) stem对图像分块,直到patch size 16 × 16,不同块之间没有交互。然后打成patch 特征序列,再加一个类别前缀向量,并加上绝对位置编码。得到:

Audio Adapter (A-Adapter):16kHz采样,归一化数据,使用卷积提取相对特征。得到:

Language Adapter (L-Adapter):先变成subword sequence-->加上[CLS] and [EOS]-->embeddings-->absolute positional embeddings-->

预训练任务包括:cross-modal contrastive learning and intra-modal denoising contrastive learning

Cross-Modal Contrastive Learning:不同模态之间语义空间对齐。

Intra-Modal Denoising Contrastive Learning:单模态内部更精细的细节。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-21 08:28:04       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-21 08:28:04       106 阅读
  3. 在Django里面运行非项目文件

    2024-02-21 08:28:04       87 阅读
  4. Python语言-面向对象

    2024-02-21 08:28:04       96 阅读

热门阅读

  1. Jenkins 编译脚本

    2024-02-21 08:28:04       49 阅读
  2. Compose的gradle配置以及与Kotlin的兼容对应

    2024-02-21 08:28:04       66 阅读
  3. HTTP CURL

    2024-02-21 08:28:04       58 阅读
  4. SpringBoot项目嵌入RabbitMQ

    2024-02-21 08:28:04       46 阅读
  5. 过滤器:Gateway GlobalFilter在分布式系统中的应用

    2024-02-21 08:28:04       50 阅读
  6. 给图片添加

    2024-02-21 08:28:04       49 阅读