CVPR‘24| Leap-of-Thought! 中大/哈佛等提出CLoT探究大模型幽默创新响应

2024-04-15 00:34:03
开发
12

Leap-of-Thought! 中大/哈佛等提出CLoT探究大模型幽默创新响应

什么是“大喜利”创新响应游戏？
为什么考虑“大喜利”游戏？
性能结果展示
激发创造力的思维方式Leap-of-Thought (LoT)
通向LoT! 激发创造力的训练方法CLoT
性能评估
总结

(导读) 多模态大模型具备创造的潜力吗？能力如何？本文从大模型创造力测评与增强等方面进行了探索，从幽默创新响应的角度，揭示了大模型在创新任务上的潜力和不足。目前该成果被计算机视觉顶级会议CVPR 2024录用。

在这里插入图片描述 Let’s Think Outside the Box: Exploring Leap-of-Thought in LLM with Creative Humor Generation

论文：https://arxiv.org/abs/2312.02439
Project:https://zhongshsh.github.io/CLoT/
Code:https://github.com/sail-sg/CLoT
大V的精彩解读：@夕小瑶科技说：超有梗！笑话都讲不好的大模型，已经进化成梗王了！解读经典梗图停不下来

为了探索多模态大模型的创造力，中山大学HCP实验室林倞教授团队联同Sea AI Lab、哈佛大学的研究人员从日本传统的创新幽默游戏“大喜利”（Oogiri）切入，探索目前多模态大模型在创新响应上的现状。并提出了让多模态大模型打破常规思维思考（Think Outside the Box）的训练方法 Creative Leap-of-Thought (CLoT)。

在这里插入图片描述

什么是“大喜利”创新响应游戏？

“大喜利”本来是指一系列日本传统戏剧游戏，随着时代的快速发展。现代的“大喜利”，目前一般是指一种叫Tonchi (頓智)的游戏，通常以游戏节目或智力问答节目的形式呈现，可以参考B站的日本著名节目IPPON大獎賽 (视频链接)。玩家被提供各种多模态内容，可以是简单的问题、随机图像等，然后提示玩家想出幽默的、有创意的反应，以达到令人惊讶的喜剧效果，如下图所示的例子。
在这里插入图片描述

(例子1) 在第一个“图文到文”的例子中，玩家要求阅读图像，和上面对应的文字，尝试想出一段文字填入对应的“问号?"位置，使得整个图文可以展示出幽默且有创意的效果。在第一个例子中，老人向年轻人寻求帮助，从正常的思维来看，可能的填写方式可以是“请问xxx路怎么走？”或者是"可以带我回家吗，我迷路了"之类的┓( ´∀` )┏。然而，所给出的“你…你能帮我解开手铐吗？”的写法具有冲击感、幽默感，且看起来确实是这么一回事，使人忍俊不禁。

(例子2) 在第二个“图到文”的例子中，玩家要求看图配文，并使得图文搭配起来具有幽默效果。这张图看起来是一个很普通的拖车的图片（需要注意的是，在“大喜利”游戏中，一般图片都是很普通的日常图片）。配文“快让开！我的兄弟伤得很严重”让倾斜着身体45°向上的车看起来像是一个奄奄一息的车子。在道路上快速的驰骋也确实体现了位于下方的车很着急，急着送兄弟去医院。整体来说配文相当有趣且幽默！

(例子3) 在第三个“图到文”的例子中，玩家被要求根据所给的文字进行回复，使得回复和问题合在一起具备幽默感。本例子中的回复似乎在调侃程序员的日常工作主要就是代码的“复制+黏贴”┓( ´∀` )┏ （注：CV工程师除了可以表示computer vision工程师也可以表示ctrl+c/ctrl+v工程师）

本工作主要关注这三种类型的“大喜利”游戏，相关数据Oogiri-GO (如下表所示，含中英日三种语言)可以进入Project页面下载。
在这里插入图片描述

为什么考虑“大喜利”游戏？

“大喜利”游戏是用于探索多模态大模型创新能力的理想平台，因为：

“大喜利”游戏是天然的创新响应任务。如上所提到的，现代“大喜利”也被称为Tonchi (頓智)。“頓”在日文和中文中都表示“突然”，而“智”的意思是“智力、洞察力或直觉”，该游戏天然地要求玩家给出令人眼前一亮、灵光一闪的创新响应；
“大喜利”的数据格式是高度合适的。不管是“图文到文”、“图到文”还是“文到文”，这些类型都天然地和目前多模特大模型的输入输出格式吻合，即输入为“图文”，输出仅为“文”。
“大喜利”数据质量高。创新是一件很难的事情，即使是人类，因此能作为“创新”相关的数据集并不多。鉴于该游戏长期在互联网上非常活跃（在中文社区中，一般也叫日式神吐槽/冷吐槽），而且带有大量点评数据，比如点赞数等等。正好积累了大量高质量人类创新幽默响应可以被用于研究。

性能结果展示

注意事项：

幽默是主观的。任何一个幽默的响应都很难取悦每一个人 (人类的悲欢并不相通.jpg)。另外文化的差异、知识范围等原因也会造成不同人对不同响应的幽默理解。
创新是困难的。如日本著名“大喜利”节目IPPON大獎賽 (视频链接) 中顶尖人类选手也很难确保每一次响应都能让评委满意。如果模型响应不满意，可以让它多试几次~
幽默是多元的。一些常见的“调侃“、“讽刺“等手段是幽默的重要组成部分。不同的文化，甚至不同的人，对这些内容的容忍度不同，模型输出的内容可能对某些人会产生冒犯，敬请多多包容。本文、模型以及数据均只用于学术研究。

首先展示的是在本文方法CLoT前后的创新响应对比：
在这里插入图片描述

接下来是一些精彩的模型响应合集：
在这里插入图片描述

激发创造力的思维方式Leap-of-Thought (LoT)

如下图（左）所示，传统的链式思考（Chain-of-Thought，CoT）方法是一种顺序思考过程，通过逐步推理指导大模型进行逻辑推理，每个后续的思考都建立在前一个思考的基础上。这一思考过程一定程度上确保了精确性和严谨性，但对于创造性问题表现不佳。如下图（右）所示，本文探索了一种新的非顺序、创造性思维范式——跳跃思维Leap-of-Thought（LoT）。这种范式涉及到思考关联性和知识跳跃。远距离的思考也被认为是联想。与CoT强调逻辑紧密的思维链不同，LoT强调打破常规思维思考问题，激发模型的创造力。
在这里插入图片描述

通向LoT! 激发创造力的训练方法CLoT

基于所提出的Oogiri-GO数据集，本文探索出一套激发多模态大模型创造力的训练方法CLoT。如下图所示，CLoT包括两个阶段：

（1）关联性指令微调。在这一阶段，本文设计生成式和判别式模板，将Oogiri-GO数据集转换为指令微调的训练数据，用于训练多模态大模型，使得模型具备初步的创新响应能力。
（2）探索性自我调整。在这一阶段中，本文首先通过设计远关联的条件词，促使（1）中的模型生成多样化且与输入远关联的回答，并设计筛选流程，获得可靠的新LoT数据。随后，新数据被转换成指令微调的训练数据，用于进一步微调模型，具体地：
- (2.1) 探索性远程关联：这一步骤鼓励LLM在给定的弱关联条件下产生创新的回应。通过这种方式，LLM学习在看似不相关的概念之间建立联系，从而生成多样化的创意内容。
- (2.2) 自我精炼：在探索性远程关联的基础上，通过设计一系列筛选流程，收集到的创意回应被用来进一步训练LLM。这样做可以提高LLM在处理创造性任务时的表现，使其能够生成更高质量和多样性的内容。

性能评估

为了尽可能全面评估CLoT，本文基于Oogiri-GO数据集，设计了选择题和排序题作为量化评估方式。实验结果表明，CLoT能够显著提高多模态大模型（如Qwen和CogVLM）的性能，显著超越包括GPT4v在内的先进模型。另外，与其他先进推理框架CoT等相比，在各项量化指标下也是有显著优势的。

在这里插入图片描述

此外，研究团队还通过用户调查，证实了CLoT帮助模型生成了更好的幽默内容。
在这里插入图片描述

研究团队还考虑到了CLoT的泛化性，用“看云猜物CGG”和“发散思维测试DAT”两个其他任务评估CLoT的性能，实验结果显示CLoT相对于基准模型具有更好的准确度，说明CLoT具备不错的泛化能力。DAT是一种用于评估人类联想创造能力的测试。

在这里插入图片描述

总结

基于研究创造力的理想平台”大喜利”幽默创新响应游戏，来首次探讨了多模态大模型的创新响应能力。揭示了现有大模型在创造力、幽默能力在内的能力不足的现状，并提出缓解目前现状的提升方法。本工作已开源https://github.com/sail-sg/CLoT。

原文地址:https://blog.csdn.net/qq_23997101/article/details/137746402 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1779548681150795776.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部