Talk|UW-Madison蔡沐:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型

​本期为TechBeat人工智能社区第610线上Talk!

北京时间7月18(周四)20:00,威斯康星大学麦迪逊分校博士生—蔡沐的Talk已准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 图像可编码为任意数量Token,俄罗斯套娃式多模态大模型,他将大家介绍了一种俄罗斯套娃技术,可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

Talk·信息

主题:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型

嘉宾:威斯康星大学麦迪逊分校 蔡沐

时间:北京时间 7月18日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=889

Talk·介绍

LLaVA的多模态大模型总是把图像编码为固定数量的token(576个)。但这不是最优的。我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少token,以及单个图像的复杂性。

此外,我还将简短介绍对LLaVA做visual prompting以实现region level understanding. 还有CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。

Talk大纲

1. 技术 - 我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

2. 优点 - 我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少

3. 应用 - 对LLaVA做visual prompting以实现region level understanding. 

4. 延伸 - CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。

Talk·预习资料

图片

论文链接:  

https://arxiv.org/abs/2405.17430

图片

论文链接:  

https://arxiv.org/abs/2312.00784

图片

论文链接:  

https://arxiv.org/abs/2402.13254

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

蔡沐

威斯康星大学麦迪逊分校 · 博士生

蔡沐,威斯康星大学麦迪逊分校计算机科学系的第五年博士生,我的导师是Yong Jae Lee教授。

我最近的研究兴趣在于多模态生成模型的应用及其基本局限性。我特别关注视觉提示、视频和3D理解,以及分析CLIP的局限性。

个人主页: 

https://www.techbeat.net/grzytrkj?id=40634


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-19 12:54:02       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-19 12:54:02       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-19 12:54:02       58 阅读
  4. Python语言-面向对象

    2024-07-19 12:54:02       69 阅读

热门阅读

  1. 自然语言处理技术的发展过程

    2024-07-19 12:54:02       22 阅读
  2. pandas排名函数rank()的参数

    2024-07-19 12:54:02       19 阅读
  3. 智能结合:信息推送与供需发布机器人

    2024-07-19 12:54:02       21 阅读
  4. 2、SystemC基础语法

    2024-07-19 12:54:02       20 阅读
  5. 基于深度学习的水果识别系统

    2024-07-19 12:54:02       19 阅读
  6. C语言 条件编译

    2024-07-19 12:54:02       18 阅读
  7. 利用 PHP 解锁 1688 详情 API 接口的秘密

    2024-07-19 12:54:02       21 阅读
  8. Odoo创建一个自定义UI视图

    2024-07-19 12:54:02       23 阅读
  9. 代码随想录算法训练营第16天|二叉树part 04

    2024-07-19 12:54:02       23 阅读
  10. 华中师范大学学报人文社会科学版

    2024-07-19 12:54:02       25 阅读
  11. 动态规划练习题(2024/7/18)

    2024-07-19 12:54:02       20 阅读
  12. 计算机视觉8 图像增广

    2024-07-19 12:54:02       16 阅读
  13. Linux输出重定向详解

    2024-07-19 12:54:02       17 阅读
  14. ArduPilot开源代码之AP_DAL_RangeFinder

    2024-07-19 12:54:02       16 阅读