Talk｜UW-Madison蔡沐：图像可编码为任意数量Token，俄罗斯套娃式多模态大模型

2024-07-19 12:54:02
开发
18

本期为TechBeat人工智能社区第610期线上Talk！

北京时间7月18日(周四)20:00，威斯康星大学麦迪逊分校博士生—蔡沐的Talk已准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “图像可编码为任意数量Token，俄罗斯套娃式多模态大模型”，他将大家介绍了一种俄罗斯套娃技术，可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

Talk·信息

▼

主题：图像可编码为任意数量Token，俄罗斯套娃式多模态大模型

嘉宾：威斯康星大学麦迪逊分校蔡沐

时间：北京时间 7月18日(周四)20:00

地点：TechBeat人工智能社区

点击下方链接，即可观看视频！

TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://www.techbeat.net/talk-info?id=889

Talk·介绍

▼

LLaVA的多模态大模型总是把图像编码为固定数量的token(576个)。但这不是最优的。我们提出了一种俄罗斯套娃技术，你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。我们的Matryoshka Multimodal Models非常灵活、高效，也可以用来衡量benchmark的复杂性，需要多少token，以及单个图像的复杂性。

此外，我还将简短介绍对LLaVA做visual prompting以实现region level understanding. 还有CLIP LLaVA 对compositional reasoning的本质短板，以及我们的改进。

Talk大纲

1. 技术 - 我们提出了一种俄罗斯套娃技术，你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

2. 优点 - 我们的Matryoshka Multimodal Models非常灵活、高效，也可以用来衡量benchmark的复杂性，需要多少

3. 应用 - 对LLaVA做visual prompting以实现region level understanding.

4. 延伸 - CLIP LLaVA 对compositional reasoning的本质短板，以及我们的改进。

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2405.17430

论文链接：

https://arxiv.org/abs/2312.00784

论文链接：

https://arxiv.org/abs/2402.13254

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

蔡沐

威斯康星大学麦迪逊分校 · 博士生

蔡沐，威斯康星大学麦迪逊分校计算机科学系的第五年博士生，我的导师是Yong Jae Lee教授。

我最近的研究兴趣在于多模态生成模型的应用及其基本局限性。我特别关注视觉提示、视频和3D理解，以及分析CLIP的局限性。

个人主页:

https://www.techbeat.net/grzytrkj?id=40634

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

原文地址:https://blog.csdn.net/hanseywho/article/details/133651367 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1814161752271753216.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部