⌈ 传知代码 ⌋ 辅助任务改进社交帖子多模态分类

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间,对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦!!!

以下内容干货满满,跟上步伐吧~



💡本章重点

  • 辅助任务改进社交帖子多模态分类

🍞一. 概述

  1. 这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。

  2. 研究者们结合了五种多模态模型,并在五个不同的社交媒体数据集上进行了实验,展示了使用这两种辅助任务可以一致性地提高模型性能,最高可提升 2.6 的 F1 分数。文章还提供了详尽的分析,展示了在特定场景下每种辅助任务最有效。

  3. 此外,文章还介绍了实验设置、使用的数据集、单模态方法、多模态模型、评估方法和结果。研究者们使用了不同的预训练模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒体任务上进行了实验,如文本-图像关系分类、情感分析、仇恨言论分类、讽刺检测和商业影响力内容检测等。

  4. 最后,文章讨论了研究的局限性,包括目前实验仅使用英文数据集,以及辅助任务的加入可能会增加训练时间。尽管如此,作者认为这些额外的时间与大型语言模型的预训练时间相比是相对较小的


🍞二. 主要贡献

文章的主要贡献可以总结为以下几点:

  1. 多模态模型微调的辅助任务研究: 文章提出了一个广泛的研究,比较了在微调过程中联合使用图像-文本对比(ITC)和图像-文本匹配(ITM)两种辅助损失的多模态模型。

  2. 性能提升: 展示了在五个不同的多模态社交媒体数据集上,使用ITC和ITM作为辅助损失的模型一致性地提高了性能,最高可提升2.6 F1分数。

  3. 具体场景分析: 提供了详尽的分析,揭示了在不同类型的图像-文本关系中,个别辅助任务及其组合的有效性。

  4. 模型和数据集的多样性: 研究涵盖了五种不同的多模态模型,并在五个不同的社交媒体数据集上进行了实验,这表明了方法的通用性和适应性。

  5. 对低资源场景的探讨: 文章还探讨了在不同数量的训练样本下模型的泛化能力和数据效率,这对于资源受限的情况特别重要。

  6. 对模型有效性的深入理解: 通过分析Ber-ViT-Att模型在TIR数据集上的预测,文章帮助理解在不同图像-文本关系类型下,辅助任务如何受益。

这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。


🍞三. 技术细节

Image-Text Contrastive (ITC)

在这里插入图片描述

ITC就是使用对比学习的方法让图像和文本的特征对齐。

因为多模态数据集一个文本对应一个图片,那么通过对比学习的方式,让对应的这组文本和图像的相似度更大,也就是特征更加相似,从而完成特征的对齐。

因此损失函数由两部分构成:

  • 一个是为了让配对的文本-图像距离尽可能近而离另外的文本尽可能远。
  • 一个是为了让配对的文本-图像距离尽可能近而离另外的图像尽可能远。

Image-Text Matching (ITM)

在社交媒体帖子中,不相关或弱相关的文本-图像对很常见,仅仅用ITC,可能图像和文本表面上看上去确实没有关联,但是可能有着深层次的关联,使用这个任务可以帮助模型挖掘这深层次的关系。

这个辅助任务也很简单,就是50%的概率随机替换文本-图像对中的图像数据,如果被替换了,那么文本和图像就是不匹配的,如果没有替换,文本和图像就是匹配的,这时可以让模型去预测,文本和图像当前到底匹不匹配,从而转化成一个二分类问题。

其损失函数如下:

在这里插入图片描述
联合微调目标

分类任务+辅助训练任务,一起进行训练,损失函数如下:

在这里插入图片描述
其中CE就是cross-entropy classification loss,也就是模型最终分类预测结果的损失函数。


🍞四. 实验结果

在这里插入图片描述
其中:

  • +C就是加了ITC辅助任务

  • +M就是加了ITM辅助任务

可以看到,辅助任务确实可以优化模型的表现


🫓总结

综上,我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高!!!

感谢你们的阅读😆

后续还会继续更新💓,欢迎持续关注📌哟~

💫如果有错误❌,欢迎指正呀💫

✨如果觉得收获满满,可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-10 08:34:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-10 08:34:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-10 08:34:03       82 阅读
  4. Python语言-面向对象

    2024-06-10 08:34:03       91 阅读

热门阅读

  1. HTML5 新的语义化标签

    2024-06-10 08:34:03       35 阅读
  2. 什么是幂等问题?

    2024-06-10 08:34:03       34 阅读
  3. kmp算法c++

    2024-06-10 08:34:03       42 阅读
  4. 树莓派 ubuntu linux 去除蓝牙历史配对信息

    2024-06-10 08:34:03       31 阅读
  5. 从零手写实现 nginx-13-nginx.conf 是 HOCON 的格式吗?

    2024-06-10 08:34:03       32 阅读
  6. 使用cython将现有c/c++库移植为python模块

    2024-06-10 08:34:03       28 阅读
  7. 【冲刺秋招,许愿offer】第 二 天

    2024-06-10 08:34:03       33 阅读
  8. React antd 怎么封装枚举字典组件

    2024-06-10 08:34:03       32 阅读