AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.15-2024.03.20

文章目录~

1.Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models
2.Negative Yields Positive: Unified Dual-Path Adapter for Vision-Language Models
3.Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models
4.MEDBind: Unifying Language and Multimodal Medical Data Embeddings
5.HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
6.RelationVLM: Making Large Vision-Language Models Understand Visual Relations
7.ViTGaze: Gaze Following with Interaction Features in Vision Transformers
8.Towards Multimodal In-Context Learning for Vision & Language Models
9.As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?
10.Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
11.Task-Customized Mixture of Adapters for General Image Fusion
12.TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer
13.CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
14.VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
15.VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
16.FlexCap: Generating Rich, Localized, and Flexible Captions in Images
17.Exploring Multi-modal Neural Scene Representations With Applications on Thermal Imaging
18.GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection
19.Agent3D-Zero: An Agent for Zero-shot 3D Understanding
20.Evaluating Text to Image Synthesis: Survey and Taxonomy of Image Quality Metrics
21.End-to-end multi-modal product matching in fashion e-commerce
22.EffiVED:Efficient Video Editing via Text-instruction Diffusion Models
23.OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System
24.Do CLIPs Always Generalize Better than ImageNet Models?
25.X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment
26.SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
27.Training A Small Emotional Vision Language Model for Visual Art Comprehension
28.Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning
29.Tokensome: Towards a Genetic Vision-Language GPT for Explainable and Cognitive Karyotyping
30.Leveraging CLIP for Inferring Sensitive Information and Improving Model Fairness
31.VideoAgent: Long-form Video Understanding with Large Language Model as Agent
32.Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
33.CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning
34.HawkEye: Training Video-Text LLMs for Grounding Text in Videos
35.GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery
36.RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

1.Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

标题:点链：交互式推理改进大型视觉语言模型

author:Zuyan Liu, Yuhao Dong, Yongming Rao, Jie Zhou, Jiwen Lu

publish:Project Page: https://sites.google.com/view/chain-of-spot/

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12966v1

摘要：
在视觉语言理解领域，模型对视觉内容进行解释和推理的能力已成为众多应用的基石。然而，对于大型视觉语言模型（LVLMs）中的视觉编码器来说，如何针对问题提取有用的特征以帮助语言模型做出响应是一项挑战。此外，现有的大型视觉语言模型通常使用低分辨率图像，这限制了视觉识别能力。我们的工作引入了 Chain-of-Spot (CoS) 方法，我们将其描述为交互式推理，这是一种新颖的方法，它通过关注图像中与所提问题或指令相对应的关键兴趣区域 (ROI) 来增强特征提取。这种技术允许 LVLM 在不改变原始图像分辨率的情况下获取更详细的视觉信息，从而提供多粒度图像特征。通过将 Chain-of-Spot 与指令跟踪 LLaVA-1.5 模型相结合，图像推理过程在广泛的多模态数据集和基准测试中持续提高了性能，而且没有任何附加功能，并取得了最先进的新成果。我们的实证研究结果表明，LVLMs 理解和推理视觉内容的能力显著提高，为更复杂的视觉指令跟踪应用铺平了道路。代码和模型可从以下网址获取：https://github.com/dongyh20/Chain-of-Spot

2.Negative Yields Positive: Unified Dual-Path Adapter for Vision-Language Models

标题:负负得正：视觉语言模型的统一双路径适配器

author:Ce Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12964v1

摘要：
最近，大规模预训练视觉语言模型（VLM）在学习开放世界视觉表征方面展现出巨大潜力，并通过高效微调在广泛的下游任务中表现出卓越性能。在这项工作中，我们创新性地在微调视觉语言模型中引入了双重学习的概念，即我们不仅要学习图像是什么，还要学习图像不是什么。基于这一概念，我们引入了一种新颖的双适配器（DualAdapter）方法，只需利用有限的注释样本，就能从正面和负面两个角度对 VLM 进行双路径适配。在推理阶段，我们的 DualAdapter 通过同时对目标类别进行互补的正向选择和负向排除来执行统一预测，从而提高了 VLM 在下游任务中的整体识别准确率。我们在 15 个数据集上进行的大量实验结果验证了所提出的 DualAdapter 在少量学习和领域泛化任务上都优于现有的一流方法，同时还实现了极具竞争力的计算效率。代码见 https://github.com/zhangce01/DualAdapter。

3.Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models

标题:只需移位：利用视觉语言模型进行零点泛化的测试时间原型转换

author:Elaine Sui, Xiaohan Wang, Serena Yeung-Levy

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12952v1

摘要：
视觉语言模型（VLM）的进步推动了计算机视觉领域的发展，尤其是在零点学习环境中。尽管这些模型前景广阔，但由于测试环境中的领域变化，其有效性往往会降低。为了解决这个问题，我们引入了测试时间原型转移（TPS）框架，这是一种开创性的方法，旨在使用无标签测试输入使 VLM 适应测试数据集。我们的方法基于在共享嵌入空间中调制每类原型的概念。通过预先计算和缓存用预先训练的文本编码器生成的原型，TPS 不仅能促进后续预测中原型的无优化重用，还能与当前及时工程中的先进技术实现无缝集成。在测试时，TPS 完全根据给定的测试样本动态学习每个原型的移位向量，从而有效地缩小了领域差距，提高了分类准确性。与传统的文本提示调整方法相比，我们的框架显著降低了内存和计算需求。在涉及自然分布偏移和跨数据集泛化的 15 个数据集上进行的广泛评估证明了 TPS 的卓越性能，在减少资源需求的同时取得了最先进的结果。

4.MEDBind: Unifying Language and Multimodal Medical Data Embeddings

标题:MEDBind：统一语言和多模态医疗数据嵌入

author:Yuan Gao, Sangwook Kim, David E Austin, Chris McIntosh

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12894v1

摘要：
医学视觉语言预训练模型（VLPM）在融合胸部 X 光片（CXR）和临床文本方面取得了显著进展，引入了图像-文本数据绑定方法，实现了零镜头学习和下游临床任务。然而，目前的技术还缺乏对心电图（ECG）等其他医疗模式的整体整合。我们提出的 MEDBind（医用电子病历）可以学习 CXR、ECG 和医学文本的联合嵌入。MEDBind 将文本数据作为中心锚，以三模态绑定为特色，在顶级 K 检索、零次检索和少量检索基准测试中，与现有的 VLPM 相比，性能极具竞争力，并且能够进行 CXR 到 ECG 的零次分类和检索。这种无缝集成是通过将模态-文本对的对比损失与我们提出的对比损失函数–边缘-模态对比损失相结合来实现的，从而为 CXR、ECG 和文本建立了一个内聚的嵌入空间。最后，我们证明了 MEDBind 可以直接将 CXR 和 ECG 嵌入整合到大型语言模型中，从而改进下游任务，实现多模态提示调整。

5.HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

标题:HYDRA：动态合成视觉推理超代理

author:Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12884v1

摘要：
视觉推理（VR）领域的最新进展，特别是借助大型视觉语言模型（VLM）取得的进展，显示出了良好的前景，但需要访问大规模数据集，并面临计算成本高、泛化能力有限等挑战。合成视觉推理方法已成为一种有效的策略，但它们严重依赖大型语言模型（LLM）中编码的常识知识来执行规划、推理或两者兼而有之，而不考虑其决策对视觉推理过程的影响，这可能会导致错误或失败的程序。为了应对这些挑战，我们推出了 HYDRA，这是一个多阶段动态组合式可视化推理框架，旨在进行可靠的渐进式一般推理。HYDRA 集成了三个基本模块：规划器、作为认知控制器的强化学习（RL）代理和推理器。规划器和推理器模块利用 LLM 分别生成指令样本和所选指令的可执行代码，而 RL 代理则与这些模块动态交互，根据通过反馈回路存储的历史状态信息，做出选择最佳指令样本的高级决策。这种适应性设计使 HYDRA 能够根据推理过程中接收到的先前反馈调整其行动，从而获得更可靠的推理输出，并最终提高其整体效率。我们的框架在四种广泛使用的数据集上的各种虚拟现实任务中展示了最先进的性能。

6.RelationVLM: Making Large Vision-Language Models Understand Visual Relations

标题:RelationVLM：让大型视觉语言模型理解视觉关系

author:Zhipeng Huang, Zhizheng Zhang, Zheng-Jun Zha, Yan Lu, Baining Guo

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12801v1

摘要：
大型视觉语言模型（LVLMs）的发展正努力赶上大型语言模型（LLMs）的成功，但它面临着更多有待解决的挑战。最近的研究成果使 LVLM 能够定位对象级视觉内容，并将文本与之关联起来。然而，由于缺乏相关数据，目前的 LVLM 仍然难以准确理解视觉关系。在这项研究中，我们提出了一种大型视觉语言模型–RelationVLM，它能够理解多幅图像或视频中不同层次和类型的关系。具体来说，我们设计了一种多阶段关系感知训练方案和一系列相应的数据配置策略，赋予 RelationVLM 理解语义关系、时间关联和几何变换的能力。广泛的案例研究和定量评估表明，RelationVLM 在理解此类关系方面具有很强的能力，而且通过比较，它在从少量实例进行上下文推理方面的能力也令人印象深刻。这项工作使 LVLM 能够支持更广泛的人工通用智能下游应用，从而推动了 LVLM 的发展。

7.ViTGaze: Gaze Following with Interaction Features in Vision Transformers

标题:ViTGaze：视觉变形中带有交互功能的注视跟踪

author:Yuehao Song, Xinggang Wang, Jingfeng Yao, Wenyu Liu, Jinglin Zhang, Xiangmin Xu

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12778v1

摘要：
注视跟踪旨在通过预测人的注视焦点来解释人与场景之间的互动。主流方法通常使用多模态输入，其中大多数采用两阶段框架。因此，它们的性能在很大程度上取决于之前的预测准确性。其他方法则使用带有复杂解码器的单模式方法，从而增加了网络计算负荷。受预先训练的平原视觉转换器（ViTs）取得巨大成功的启发，我们推出了一种新型单模态注视跟踪框架–ViTGaze。与之前的方法相比，ViTGaze 主要基于强大的编码器（解码参数小于 1%）创建了一个全新的注视跟踪框架。我们的主要见解在于，自我注视中的标记间互动可以转移到人与场景的互动中。利用这一假设，我们制定了一个由四维交互编码器和二维空间引导模块组成的框架，从自我注意力地图中提取人与场景的交互信息。此外，我们的研究还发现，带有自我监督预训练功能的 ViT 在提取相关信息方面表现出更强的能力。为了证明所提方法的性能，我们进行了大量实验。在所有单模态方法中，我们的方法达到了最先进（SOTA）的性能（AUC 提高了 3.4%，AP 提高了 5.1%），与多模态方法相比，参数数量减少了 59%，性能非常接近。

8.Towards Multimodal In-Context Learning for Vision & Language Models

标题:实现视觉和语言模型的多模态上下文学习

author:Sivan Doveh, Shaked Perek, M. Jehanzeb Mirza, Amit Alfassy, Assaf Arbelle, Shimon Ullman, Leonid Karlinsky

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12736v1

摘要：
受能够真正理解人类语言的大型语言模型（LLM）出现的启发，在将其他非语言模式与 LLM 的 "可理解性 "相协调方面取得了重大进展，主要是通过将其样本转换为直接输入 LLM（解码器）输入流的嵌入式语言类标记序列。然而，迄今为止，人们对将 LLM 的核心能力之一，即上下文学习（ICL）能力，转移（和评估）到新兴 VLM 的关注还很有限，换句话说，就是利用上下文图像和文本演示来引导 VLM 完成所需的目标下游任务或输出结构。在这项工作中，我们深入分析了一些最先进的 VLM 遵循 ICL 指令的能力，发现它们在一定程度上存在不足。我们发现，即使是经过大规模混合模态预训练并被隐式引导以利用交错图像和文本信息（旨在从多幅图像中获取有用的上下文）的模型，在受到少镜头（ICL）演示的提示时也表现不佳，这可能是由于它们缺乏 "直接 "ICL指令调整。为了验证这一猜想，我们提出了一种简单但却出奇有效的策略，即利用 ICL 支持、方法和课程来扩展常见的 VLM 对齐框架。我们对有效的数据组合进行了探索、分析并提出了见解，从而使 ICL 性能比最强的 VLM 基线和各种 ICL 基准大幅提升了 21.03%（平均提升 11.3%）。我们还为 VLM 中的 ICL 评估提供了新的基准，并讨论了它们与现有技术相比的优势。

9.As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?

标题:根基稳固：开源基础模型能否用于为下游任务创建对抗性范例？

author:Anjun Hu, Jindong Gu, Francesco Pinto, Konstantinos Kamnitsas, Philip Torr

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12693v1

摘要：
在网络规模的视觉语言数据上预先训练的基础模型（如 CLIP）被广泛用作强大机器学习系统的基石。虽然预训练为下游学习提供了明显的优势，但它也给下游模型带来了共同的对抗漏洞，而这些漏洞可以通过开源的基础模型轻松识别出来。在这项工作中，我们揭露了 CLIP 下游模型中的此类漏洞，并表明基础模型可以作为攻击其下游系统的基础。特别是，我们提出了一种简单而有效的对抗性攻击策略，称为 “补丁表示错位”（PRM）。这种方法完全基于开源的 CLIP 视觉编码器，所生成的对手可同时欺骗 20 多个下游模型，这些模型涵盖 4 种常见的视觉语言任务（语义分割、物体检测、图像字幕和视觉问题解答）。我们的研究结果凸显了在下游系统开发过程中广泛使用公共基础模型所带来的安全风险，因此在这些情况下需要格外谨慎。

10.Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

标题:基于图表的推理：从 LLM 到 VLM 的能力转移

author:Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma

publish:Findings of NAACL 2024

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12596v1

摘要：
视觉语言模型（VLM）在多模态任务中的表现越来越出色。然而，推理能力仍然有限，尤其是对于较小的视觉语言模型（VLM）而言，而大型语言模型（LLM）的推理能力则有了长足的进步。我们提出了一种将 LLM 的能力转移到 VLM 的技术。在最近推出的 ChartQA 上，当我们的方法被 \citet{chen2023pali3} 应用于 PaLI3-5B VLM 时，取得了最先进的性能，同时在 PlotQA 和 FigureQA 上也取得了更好的性能。我们首先通过使用 \citet{liu2023deplot}改进版的图表到表格翻译任务来继续预训练阶段，从而改进图表表示。然后，我们建议构建一个比原始训练集大 20 倍的数据集。为了提高一般推理能力并改进数字运算，我们使用图表的表格表示法合成推理轨迹。最后，我们使用 \citet{hsieh2023distilling}引入的多任务损失对模型进行了微调。在不使用上游 OCR 系统的情况下，我们的变体 ChartPaLI-5B 甚至优于 PaLIX-55B 等 10 倍大的模型，同时与 PaLI3-5B 基线相比，推理时间保持不变。当使用简单的思维程序提示进一步完善推理时，我们的模型优于最近推出的 Gemini Ultra 和 GPT-4V。

11.Task-Customized Mixture of Adapters for General Image Fusion

标题:用于一般图像融合的任务定制混合适配器

author:Pengfei Zhu, Yang Sun, Bing Cao, Qinghua Hu

publish:19 pages, 17 figures, CVPR 2024

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12494v1

摘要：
一般的图像融合旨在整合多源图像中的重要信息。然而，由于跨任务之间存在巨大差距，各自的融合机制在实践中差异很大，导致各子任务之间的性能有限。为了解决这个问题，我们为一般图像融合提出了一种新颖的任务定制混合适配器（TC-MoA），在一个统一的模型中自适应地提示各种融合任务。我们借鉴了专家混合物（MoE）的观点，将专家作为高效的调整适配器，以提示预先训练好的基础模型。这些适配器在不同任务中共享，并受互信息正则化的约束，确保与不同任务的兼容性以及多源图像的互补性。特定任务路由网络定制了这些适配器，以便从具有动态主导强度的不同来源中提取特定任务信息，执行自适应视觉特征提示融合。值得注意的是，我们的 TC-MoA 可以控制不同融合任务的主导强度偏差，成功地将多个融合任务统一在一个模型中。广泛的实验表明，TC-MoA 在学习共性方面优于其他竞争方法，同时保留了对一般图像融合（多模态、多曝光和多焦点）的兼容性，并在更广泛的实验中表现出惊人的可控性。代码见 https://github.com/YangSun22/TC-MoA 。

12.TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer

标题:TT-BLIP：利用 BLIP 和三变换器加强假新闻检测

author:Eunjee Choi, Jong-Kook Kim

publish:8 pages, submitted to conference

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12481v1

摘要：
检测假新闻已受到广泛关注。以往的许多方法都是将独立编码的单模态数据串联起来，忽略了综合多模态信息的优势。此外，文本和图像缺乏专门的特征提取，也进一步限制了这些方法的使用。本文介绍了一种名为 TT-BLIP 的端到端模型，它将引导语言-图像预训练应用于统一视觉-语言理解和生成（BLIP）的三种信息：BERT 和 BLIP\textsubscript{Txt} 用于文本，ResNet 和 BLIP\textsubscript{Img} 用于图像，双向 BLIP 编码器用于多模态信息。多模态三转换器利用三种多头关注机制融合三模态特征，确保整合模态以增强表征并改进多模态数据分析。实验使用了微博和 Gossipcop 两个假新闻数据集。结果表明，TT-BLIP 优于最先进的模型。

13.CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation

标题:CLIP-VIS：为开放词汇视频实例分割调整 CLIP

author:Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12455v1

摘要：
开放词汇视频实例分割致力于分割和跟踪视频中属于开放类别集的实例。视觉语言模型 "对比语言-图像预训练（CLIP）"在图像级开放词汇任务中表现出很强的零镜头分类能力。在本文中，我们提出了一种简单的编码器-解码器网络，称为 CLIP-VIS，以将 CLIP 用于开放词汇视频实例分割。我们的 CLIP-VIS 采用冻结的 CLIP 图像编码器，并引入了三个模块，包括类无关掩码生成、时序 TopK 增强匹配和加权开放词汇分类。在给定一组初始查询的情况下，类无关掩码生成采用变换解码器来预测查询掩码以及相应的对象得分和掩码 IoU 得分。然后，时态 topK 增强匹配通过使用 K 个最匹配的帧来执行跨帧查询匹配。最后，加权开放词汇分类首先利用掩码池生成查询视觉特征，然后利用对象得分和掩码 IoU 得分进行加权分类。我们的 CLIP-VIS 不需要实例类别和身份注释。我们在各种视频实例分割数据集上进行了实验，结果表明我们提出的方法非常有效，尤其是在新类别上。当使用 ConvNeXt-B 作为骨干时，我们的 CLIP-VIS 在 LV-VIS 数据集的验证集上获得了 32.1% 和 40.3% 的 AP 和 APn 分数，比 OV2Seg 分别高出 11.0% 和 24.0%。我们将在 https://github.com/zwq456/CLIP-VIS.git 上发布源代码和模型。

14.VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

标题:VisionGPT：用于安全视觉导航的 LLM 辅助实时异常检测

author:Hao Wang, Jiayou Qin, Ashish Bastola, Xiwen Chen, John Suchanek, Zihao Gong, Abolfazl Razi

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12415v1

摘要：
本文探讨了大型语言模型（LLMs）在零镜头异常检测中的潜力，以实现安全的视觉导航。在最先进的实时开放世界物体检测模型 YoloWorld 和专门提示的帮助下，所提出的框架可以识别摄像头捕捉到的帧内的异常情况，包括任何可能的障碍物，然后生成简洁的音频描述，强调异常情况，帮助在复杂情况下进行安全的视觉导航。此外，我们提出的框架利用 LLM 和开放词汇对象检测模型的优势，实现了动态场景切换，使用户可以从一个场景平滑过渡到另一个场景，解决了传统视觉导航的局限性。此外，本文还探讨了不同提示组件的性能贡献，为未来改进视觉无障碍提供了愿景，并为 LLMs 在视频异常检测和视觉语言理解方面的应用铺平了道路。

15.VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

标题:VFusion3D：从视频扩散模型学习可扩展的三维生成模型

author:Junlin Han, Filippos Kokkinos, Philip Torr

publish:Project page: https://junlinhan.github.io/projects/vfusion3d.html

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12034v1

摘要：
本文提出了一种利用预训练视频扩散模型建立可扩展三维生成模型的新模式。开发基础三维生成模型的主要障碍是三维数据的可用性有限。与图像、文本或视频不同，三维数据不容易获取，也很难获得。这就导致与大量其他类型的数据相比，三维数据在规模上存在很大差距。为了解决这个问题，我们建议使用视频扩散模型作为三维数据的知识源，该模型经过大量文本、图像和视频的训练。通过微调释放其多视角生成能力，我们生成了一个大规模合成多视角数据集，用于训练前馈式三维生成模型。所提出的模型 VFusion3D 是在近 3M 的合成多视图数据上训练出来的，可以在数秒内从单张图像生成三维资产，与当前的 SOTA 前馈式三维生成模型相比性能更优，用户在超过 70% 的情况下更喜欢我们的结果。

16.FlexCap: Generating Rich, Localized, and Flexible Captions in Images

标题:FlexCap：在图像中生成丰富、本地化和灵活的字幕

author:Debidatta Dwibedi, Vidhi Jain, Jonathan Tompson, Andrew Zisserman, Yusuf Aytar

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12026v1

摘要：
我们介绍了一种通用的 $\textit{flexible-captioning}$ 视觉语言模型（VLM），它能够生成不同长度的特定区域描述。该模型名为 FlexCap，经过训练后可以为输入的边界框生成长度条件的标题，从而控制输出的信息密度，描述范围从简洁的对象标签到详细的标题。为此，我们从有标题的图像开始，创建了不同长度的图像区域描述大型训练数据集。这种灵活的字幕功能有几种有价值的应用。首先，FlexCap 在视觉基因组数据集的密集字幕任务中表现出了卓越的性能。其次，通过使用 FlexCap 生成本地化描述作为大型语言模型的输入，可以构建视觉问题解答（VQA）系统。由此产生的系统在一些 VQA 数据集上实现了最先进的零拍摄性能。我们还证明，与使用其他 VLM 的 $\textit{describe-then-localize}$ 方法相比，使用 FlexCap 的 $\textit{localize-then-describe}$ 方法可以更好地进行开放式物体检测。我们强调了 FlexCap 的一个新特性，即它能够通过前缀条件提取多种视觉信息。最后，我们定性地展示了 FlexCap 在图像标注、物体属性识别和视觉对话等任务中的广泛适用性。项目网页： https://flex-cap.github.io 。

17.Exploring Multi-modal Neural Scene Representations With Applications on Thermal Imaging

标题:探索多模态神经场景表征在热成像中的应用

author:Mert Özer, Maximilian Weiherer, Martin Hundhausen, Bernhard Egger

publish:24 pages, 14 figures

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11865v1

摘要：
当在一组 RGB 图像上进行训练时，神经辐射场（NeRFs）迅速发展成为新视角合成任务的事实标准。在本文中，我们将在多模态学习的背景下对 NeRF 等神经场景表征进行全面评估。具体来说，我们介绍了如何将 RGB 以外的第二种模式纳入 NeRF 的四种不同策略：(1) 在两种模式上从头开始独立训练；(2) 在 RGB 上进行预训练，然后在第二种模式上进行微调；(3) 添加第二个分支；(4) 添加一个单独的组件来预测附加模式的（颜色）值。我们选择热成像作为第二模态，因为它在辐射度方面与 RGB 有很大不同，因此将其整合到神经场景表征中具有挑战性。为了评估所提出的策略，我们采集了一个新的公开多视角数据集 ThermalMix，其中包括六个常见物体和总共约 360 张 RGB 和热图像。我们在捕获数据前采用了跨模态校准，从而实现了 RGB 和热图像之间的高质量对齐。我们的研究结果表明，为 NeRF 添加第二个分支对热图像的新视图合成效果最佳，同时也能在 RGB 图像上产生令人信服的结果。最后，我们还表明，我们的分析可推广到其他模态，包括近红外图像和深度图。项目页面： https://mert-o.github.io/ThermalNeRF/.

18.GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection

标题:GraphBEV：为多模态三维物体检测实现稳健的 BEV 特征对齐

author:Ziying Song, Lei Yang, Shaoqing Xu, Lin Liu, Dongyang Xu, Caiyan Jia, Feiyang Jia, Li Wang

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11848v1

摘要：
将激光雷达和摄像头信息整合到鸟瞰图（BEV）表示中已成为自动驾驶中三维物体检测的一个重要方面。然而，现有方法容易受到激光雷达和摄像头传感器之间不准确校准关系的影响。这种不准确会导致相机分支的深度估计错误，最终造成激光雷达和相机 BEV 特征之间的错位。在这项工作中，我们提出了一种名为 Graph BEV 的鲁棒融合框架。为了解决点云投影不准确造成的误差，我们引入了局部对齐模块，该模块通过图匹配采用邻居感知深度特征。此外，我们还提出了全局对齐模块，以纠正激光雷达和相机 BEV 特征之间的不对齐。我们的图形 BEV 框架实现了最先进的性能，mAP 为 70.1/%，在 nuscenes 验证集上比 BEV Fusion 高出 1.6/%。重要的是，在有错位噪声的条件下，我们的Graph BEV比BEV Fusion高出8.3%。

19.Agent3D-Zero: An Agent for Zero-shot 3D Understanding

标题:Agent3D-Zero：用于零镜头三维理解的代理程序

author:Sha Zhang, Di Huang, Jiajun Deng, Shixiang Tang, Wanli Ouyang, Tong He, Yanyong Zhang

publish:project page: https://zhangsha1024.github.io/Agent3D-Zero/

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11835v1

摘要：
理解和推理三维现实世界的能力是人工通用智能的一个重要里程碑。目前常见的做法是利用三维数据和文本对大型语言模型（LLM）进行微调，以实现三维理解。尽管这些方法很有效，但其本身受到可用三维数据的规模和多样性的限制。作为替代方案，我们在这项工作中引入了 Agent3D-Zero，这是一个创新的 3D 感知代理框架，以零镜头的方式解决 3D 场景理解问题。我们的方法的精髓在于将三维场景感知的挑战重新概念化，使其成为一个从多幅图像中理解和综合洞察的过程，其灵感来源于人类试图理解三维场景的方式。通过整合这一理念，我们提出了一种新颖的方法，即通过主动选择和分析一系列视角来利用大型视觉语言模型（VLM）来理解三维场景。具体来说，给定一个输入的三维场景后，Agent3D-Zero 首先通过自定义设计的视觉提示处理鸟瞰图像，然后迭代选择下一个视点来观察和总结基础知识。Agent3D-Zero的一个显著优势是引入了新颖的视觉提示，这极大地释放了VLMs识别信息量最大的视点的能力，从而促进了对三维场景的观察。广泛的实验证明了所提出的框架在理解多样化和以前从未见过的三维环境方面的有效性。

20.Evaluating Text to Image Synthesis: Survey and Taxonomy of Image Quality Metrics

标题:评估文本到图像的合成：图像质量指标调查与分类法

author:Sebastian Hartwig, Dominik Engel, Leon Sick, Hannah Kniesel, Tristan Payer, Poonam, Timo Ropinski

publish:preprint, 18 pages, 2 figures, 2 tables

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11821v1

摘要：
通过基础模型将语言和视觉相结合，文本到图像合成技术取得了最新进展。这些模型是在来自万维网或其他大型数据库的大量文本-图像对上预先训练的。随着对高质量图像生成的需求转向确保文本和图像之间的内容对齐，人们开发了新的评估指标，目的是模仿人类的判断。因此，研究人员开始收集带有日益复杂注释的数据集，以研究视觉语言模型的构成性，并将其作为衡量文本与图像内容之间构成对齐的质量标准。在这项工作中，我们对现有的文本到图像评价指标进行了全面概述，并提出了一种新的分类标准，用于对这些指标进行分类。我们还回顾了经常采用的文本-图像基准数据集，然后讨论了针对质量和人类偏好优化文本-图像合成模型的技术。最后，我们提出了改进文本到图像评估的指导原则，并讨论了面临的挑战和当前的局限性。

21.End-to-end multi-modal product matching in fashion e-commerce

标题:时尚电子商务中的端到端多模式产品匹配

author:Sándor Tóth, Stephen Wilson, Alexia Tsoukara, Enric Moreu, Anton Masalovich, Lars Roemheld

publish:9 pages, submitted to SIGKDD

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11593v1

摘要：
产品匹配是指识别同一产品的不同表现形式，以便更好地发现、策划和定价，这是在线市场和电子商务公司的一项关键能力。我们在行业环境中提出了一种稳健的多模态产品匹配系统，该系统面临着大型数据集、数据分布变化和未知领域等挑战。我们比较了不同的方法，得出的结论是，通过对比学习训练的预训练图像和文本编码器的相对直接的投影，可以产生最先进的结果，同时兼顾成本和性能。我们的解决方案优于单一模态匹配系统和大型预训练模型，如 CLIP。此外，我们还展示了在生产系统中如何将人在环流程与基于模型的预测相结合，以实现近乎完美的精确度。

22.EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

标题:EffiVED：通过文本指令扩散模型实现高效视频编辑

author:Zhenghao Zhang, Zuozhuo Dai, Long Qin, Weizhi Wang

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11568v1

摘要：
大规模文本到视频模型已显示出非凡的能力，但由于可用数据集有限，将其直接应用于视频编辑仍具有挑战性。当前的视频编辑方法通常需要对扩散模型进行逐视频微调或特定的反转优化，以确保高保真编辑。在本文中，我们介绍了 EffiVED，这是一种基于扩散的高效模型，可直接支持指令引导的视频编辑。为此，我们提出了两个高效的工作流程，利用增强和基本视觉语言技术来收集视频编辑对。这些工作流程将庞大的图像编辑数据集和开放世界视频转化为训练 EffiVED 的高质量数据集。实验结果表明，EffiVED 不仅能生成高质量的编辑视频，而且执行速度很快。最后，我们证明了我们的数据收集方法能显著提高编辑性能，并有可能解决视频编辑数据稀缺的问题。数据集将在发表后公开发布。

23.OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System

标题:OCR 是您所需要的一切：将多模态图像导入基于图像的缺陷检测系统

author:Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11536v1

摘要：
自动光学检测（AOI）在制造过程中起着举足轻重的作用，主要利用高分辨率成像仪器进行扫描。它通过分析图像纹理或图案来检测异常，是工业制造和质量控制的重要工具。尽管 AOI 非常重要，但其模型的部署往往面临挑战。这些挑战包括：样本量有限，阻碍了有效的特征学习；源域之间存在差异；以及对成像过程中照明和相机位置变化的敏感性。这些因素共同影响了模型预测的准确性。传统的 AOI 通常无法利用来自机器或图像内部的丰富机制参数信息，包括统计参数，这些信息通常有利于 AOI 分类。为了解决这个问题，我们引入了一个外部模态引导的数据挖掘框架，主要植根于光学字符识别（OCR），从图像中提取统计特征，作为提高性能的第二模态，称为 OANet（Ocr-Aoi-Net）。我们的方法的一个关键方面是将使用单一模态感知模型提取的外部模态特征与卷积神经网络编码的图像特征相结合。通过这种协同作用，可以更精细地融合来自不同模态的语义表征。我们还在 OANet 中引入了特征细化和门控功能，以优化这些特征的组合，从而增强推理和决策能力。实验结果表明，我们的方法大大提高了缺陷检测模型的召回率，即使在具有挑战性的情况下也能保持较高的鲁棒性。

24.Do CLIPs Always Generalize Better than ImageNet Models?

标题:CLIP 的泛化效果是否总是优于 ImageNet 模型？

author:Qizhou Wang, Yong Lin, Yongqiang Chen, Ludwig Schmidt, Bo Han, Tong Zhang

publish:Qizhou Wang, Yong Lin, and Yongqiang Chen contributed equally.
Project page: https://counteranimal.github.io

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11497v1

摘要：
大型视觉语言模型（如 CLIPs）给现代机器学习带来了革命性的变化。在越来越多的文献支持下，CLIP 在分布变化的情况下表现出了很强的泛化能力。然而，CLIPs 的评估数据集主要是针对 ImageNet 基准设计的，可能无法充分反映 CLIPs（如在 LAION 上预先训练的 CLIPs）对虚假相关性的稳健程度。为了弥补这一差距，我们收集了一个名为 "CounterAnimal "的真实世界数据集，其中包含动物照片中的真实虚假特征。CounterAnimal 包括：a) 普通组：包括普通背景下的动物；b) 计数组：包括异常背景下的动物。从普通组到对立组的性能下降量化了模型预测动物时对虚假特征（即背景）的依赖程度。我们发现，在 LAION 或 OpenAI 数据上训练的 CLIP 在反向组中表现出明显的性能下降。令人惊讶的是，我们发现在 ImageNet 上训练的单模态模型比 CLIP 更稳健。我们从理论和经验两方面解释了为什么 CLIPs 仍能学习到虚假特征。我们的研究结果表明，对于 CLIPs 来说，分布偏移仍然是一个有待解决的问题，而且在评估根据明显不同的规模和分布预先训练的基础模型时，我们需要谨慎对待测试设置。

25.X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

标题:X-LaVA：优化双语大型视觉语言对齐系统

author:Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11399v1

摘要：
大型语言模型（LLM）的发展给人留下了深刻印象，目前正在向大型多模态模型（LMM）领域扩展，后者除文本外还包含多种类型的数据。然而，多模态模型的性质导致在创建训练数据方面花费巨大。此外，由于语言的多样性和复杂性，为 LMM 构建多语言数据也面临着一系列挑战。因此，在本研究中，我们提出了两种经济有效的方法来解决这一问题：(1) 针对特定语言对多语言 LLM 进行词汇扩展和预训练；(2) 使用 GPT4-V 自动构建多模态数据集。基于上述方法，我们构建了一个 91K 英韩汉多语种多模态训练数据集。此外，我们还开发了一种双语多模态模型，该模型在韩语和英语中均表现出色，超越了现有方法。

26.SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

标题:SQ-LaVA：大型视觉语言助手的自我提问功能

author:Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11299v1

摘要：
视觉语言模型的最新进展表明，经过视觉指令调整后，视觉语言任务的泛化效果显著。然而，缩小预训练视觉编码器与大型语言模型之间的差距成为整个网络的瓶颈。为了改善跨模态配准，现有研究通常会考虑更多的视觉指令数据，涵盖更广泛的视觉任务，以微调问题解答模型，而这些数据的获取成本很高。然而，图像中包含的丰富上下文信息在很大程度上还未得到充分开发。本文首次尝试利用视觉教学数据中这一被忽视的上下文，训练模型自我监督 "学习 "如何提出高质量的问题。通过这种方式，我们引入了一个名为 SQ-LaVA：大型视觉语言助手自我提问的新颖框架。SQ-LaVA 在分析视觉线索和先验语言知识的同时，还能熟练地生成灵活而有意义的图像相关问题，这标志着高级水平的泛化视觉理解。此外，与传统的视觉指令调整方法相比，根据更高质量的指令数据对 SQ-LaVA 进行微调后，其性能得到了持续改善。这种改进凸显了自我提问技术在不同语境下实现更深入、更细致的视觉内容理解方面的功效。

27.Training A Small Emotional Vision Language Model for Visual Art Comprehension

标题:训练用于视觉艺术理解的小情绪视觉语言模型

author:Jing Zhang, Liang Zheng, Dan Guo, Meng Wang

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11150v1

摘要：
本文开发了用于理解视觉艺术的小型视觉语言模型，其目的是在给定艺术作品的情况下，识别其情感类别，并用自然语言解释这一预测。虽然小型模型的计算效率很高，但与大型模型相比，其容量却非常有限。为了打破这种平衡，本文通过情感建模和输入输出特征对齐建立了小型情感视觉语言模型（SEVLM）。一方面，基于心理学专家标注的情感-唤醒-支配（VAD）知识，我们引入并融合了通过 VAD 词典和 VAD head 得出的情感特征，将预测情感解释的 VAD 向量与地面实况对齐。与仅使用传统的文本嵌入相比，这使得视觉语言模型能够更好地理解和生成情感文本。另一方面，我们设计了一个对比头，用于提取图像、情感类别和解释的近似嵌入向量，从而使模型输出和输入保持一致。在两个公开的情感解释数据集上，我们证明了所提出的技术能持续提高基线 SEVLM 的视觉艺术理解性能。重要的是，提出的模型可以在单个 RTX 2080 Ti 上进行训练和评估，同时表现出非常强大的性能：它不仅优于最先进的小型模型，而且在微调后与 LLaVA 7B 和 GPT4(V) 相比也具有竞争力。

28.Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

标题:为多模态异常检测和推理定制视觉语言基础模型

author:Xiaohao Xu, Yunkang Cao, Yongqi Chen, Weiming Shen, Xiaonan Huang

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11083v1

摘要：
异常检测在各种工业场景中都至关重要，包括识别生产线上的异常模式和检测制造缺陷以进行质量控制。现有技术往往只适用于个别场景，缺乏通用能力。在本研究中，我们旨在开发一种适用于多种场景的通用异常检测模型。为此，我们将具有广泛知识和强大推理能力的通用视觉语言基础模型定制为异常检测器和推理器。具体来说，我们引入了一种多模式提示策略，将专家提供的领域知识作为引导模型的条件。我们的方法考虑了多模态提示类型，包括任务描述、类别上下文、常态规则和参考图像。此外，我们还将多模态的输入表示统一为二维图像格式，从而实现多模态异常检测和推理。我们的初步研究表明，结合视觉和语言提示作为定制模型的条件，可以提高异常检测性能。定制模型展示了在图像和点云等不同数据模式中检测异常的能力。定性案例研究进一步突出了异常检测和推理能力，尤其是针对多物体场景和时间数据的异常检测和推理能力。我们的代码见 https://github.com/Xiaohao-Xu/Customizable-VLM。

29.Tokensome: Towards a Genetic Vision-Language GPT for Explainable and Cognitive Karyotyping

标题:托肯索姆：面向可解释和认知核型的遗传视觉语言 GPT

author:Haoxi Zhang, Xinxu Zhang, Yuanxin Lin, Maiqi Wang, Yi Lai, Yu Wang, Linfeng Yu, Yufeng Xu, Ran Cheng, Edward Szczerbicki

publish:Preprint. Work in progress

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11073v1

摘要：
自动核型分析通常被定义为一种视觉感知任务，只关注染色体对象级建模。这一定义导致大多数现有方法忽略了成分和整体信息，大大限制了模型的性能。此外，现有技术缺乏可解释性也阻碍了临床应用。在本文中，我们介绍了 Tokensome，一种基于染色体标记化的新型视觉语言模型，用于可解释和认知核型分析。Tokensome 将该方法从传统的视觉感知层提升到认知决策层。这种提升通过知识图谱和 LLMs 实现了领域知识和认知推理的整合，显著增强了模型的可解释性并促进了异常检测。

30.Leveraging CLIP for Inferring Sensitive Information and Improving Model Fairness

标题:利用 CLIP 推断敏感信息并提高模型公平性

author:Miao Zhang, Rumi Chunara

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10624v1

摘要：
众所周知，在基于深度学习的视觉识别模型中，不同子群之间的性能差异是存在的，但之前的工作主要是在假设了解敏感属性标签的情况下解决这种公平性问题。为了克服这种依赖性，以往的策略都是采用单独的学习结构来揭示和调整差异。在这项工作中，我们探索了一种不需要敏感属性标签的新模式，利用视觉语言模型 CLIP 作为丰富的知识源来推断敏感信息，从而避免了额外的训练。我们提出了基于图像和属性指定语言嵌入的相似性的样本聚类，并评估了它们与真实属性分布的对应关系。我们通过重新采样和增强表现不佳的聚类来训练目标模型。在多个基准偏差数据集上进行的广泛实验表明，该模型的公平性明显优于现有的基线模型，这表明 CLIP 可以提取由语言提示的敏感判别信息，并用于提高模型的公平性。

31.VideoAgent: Long-form Video Understanding with Large Language Model as Agent

标题:视频代理：以大型语言模型为代理理解长视频

author:Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10517v1

摘要：
长视频理解是计算机视觉领域的一项重大挑战，需要一个能够对长多模态序列进行推理的模型。受人类长视频理解认知过程的启发，我们强调交互式推理和规划，而不是处理冗长视觉输入的能力。我们介绍了一种基于代理的新型系统–VideoAgent，它采用大型语言模型作为中心代理，反复识别和编译关键信息以回答问题，而视觉语言基础模型则作为翻译和检索视觉信息的工具。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 平均只使用了 8.4 和 8.2 帧，就实现了 54.1% 和 71.3% 的零镜头准确率。这些结果表明，与目前最先进的方法相比，我们的方法具有更高的有效性和效率，凸显了基于代理的方法在推进长视频理解方面的潜力。

32.Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

标题:使用视觉语言模型进行作为视觉问题解答的少帧图像分类和分割

author:Tian Meng, Yang Tao, Ruilin Lyu, Wuliang Yin

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10287v1

摘要：
少镜头图像分类和分割（FS-CS）任务涉及在查询图像中对目标对象进行分类和分割，但只给出目标类别的几个示例。我们介绍的视觉指导分割和评估（VISE）方法利用视觉语言模型（VLM）将 FS-CS 问题转化为视觉问题解答（VQA）问题，并以免训练的方式解决该问题。通过使 VLM 与现成的视觉模型进行交互，所提出的方法能够仅使用图像级标签对目标对象进行分类和分割。具体来说，思维链提示和上下文学习可引导虚拟虚拟机机像人类一样回答选择题；YOLO 和 Segment Anything Model (SAM) 等视觉模型可协助虚拟机机完成任务。拟议方法的模块化框架使其易于扩展。我们的方法在 Pascal-5i 和 COCO-20i 数据集上取得了一流的性能。

33.CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning

标题:CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

author:Yukun Li, Guansong Pang, Wei Suo, Chenchen Jing, Yuling Xi, Lingqiao Liu, Hao Chen, Guoqiang Liang, Peng Wang

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10245v1

摘要：
本文探讨了开放领域中视觉语言模型（VLM）的持续学习（CL）问题，在这种情况下，模型需要对来自不同领域的数据集流进行持续更新和推理，这些数据集流来自不同的已见和未见领域，并带有新的类别。这种能力对于开放环境中的各种应用（如人工智能助手、自动驾驶系统和机器人）至关重要。目前的 CL 研究大多集中在已知类别的单一领域中的封闭场景。像 CLIP 这样的大型预训练 VLM 已经展示出卓越的零点识别能力，最近的一些研究也利用这种能力来减轻 CL 中的灾难性遗忘，但它们都侧重于单个领域数据集中的封闭集 CL。大型 VLM 的开放域 CL 具有更大的挑战性，这是因为：1）数据集之间存在较大的类相关性和域差距；2）除了从新适应的数据集中学到的知识外，预先训练的 VLM 中的零点知识也会遗忘。在这项工作中，我们引入了一种称为 CoLeCLIP 的新方法，它可以在 CLIP 的基础上学习开放域 CL 模型。它通过联合学习任务提示集和跨领域类词汇来应对这些挑战。在 11 个领域数据集上进行的广泛实验表明，CoLeCLIP 在任务和类增量学习设置下的表现均优于最先进的开放领域 CL 方法。

34.HawkEye: Training Video-Text LLMs for Grounding Text in Videos

标题:HawkEye：训练视频-文本 LLM，为视频中的文本提供依据

author:Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu, Dongyan Zhao

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10228v1

摘要：
视频-文本大语言模型（video-text LLMs）在回答简单视频中的问题和进行对话方面表现出色。然而，在复杂的长视频中，它们在文本查询方面的表现几乎与随机文本相同，几乎无法理解和推理时间信息，而时间信息正是视频与图像之间最根本的区别。在本文中，我们提出了 HawkEye，它是首批能够以完全文本到文本的方式执行时态视频接地的视频-文本 LLM 之一。为了收集适用于时态视频接地的训练数据，我们构建了 InternVid-G（一个具有段级标题和负跨度的大规模视频-文本语料库），并以此为视频-文本 LLM 引入了两个新的时间感知训练目标。我们还提出了一种粗粒度方法来表示视频中的片段，与其他替代方法相比，这种方法更稳健，更易于 LLM 学习和跟踪。广泛的实验表明，HawkEye 在时态视频接地方面更胜一筹，在其他视频-文本任务上也可与现有的视频-文本 LLM 相媲美，这验证了其卓越的视频-文本多模态理解能力。

35.GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery

标题:GET：释放 CLIP 的多模式潜力，发现通用类别

author:Enguang Wang, Zhimao Peng, Zhengyuan Xie, Xialei Liu, Ming-Ming Cheng

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.09974v1

摘要：
对于包含新旧类别的无标记数据集，广义类别发现（GCD）旨在利用从标记样本中学到的类别概念，在正确分类旧类别的同时准确发现新类别。目前的 GCD 方法只使用单一的视觉模态信息，导致视觉相似类别的分类效果不佳。虽然某些类别在视觉上容易混淆，但它们的文本信息可能截然不同，这促使我们在 GCD 任务中引入文本信息。然而，由于没有标签的数据缺乏类名，因此利用文本信息是不切实际的。为了解决这个具有挑战性的问题，我们在本文中提出了一种文本嵌入合成器（TES），用于为无标签样本生成伪文本嵌入。具体来说，我们的文本嵌入合成器利用 CLIP 可以生成对齐的视觉语言特征这一特性，将视觉嵌入转换为 CLIP 文本编码器的标记，从而生成伪文本嵌入。此外，我们还采用了双分支框架，通过不同模态分支的联合学习和实例一致性，使视觉信息和语义信息相互促进，促进视觉嵌入空间和文本嵌入空间的互动与融合。我们的方法释放了CLIP的多模态潜能，并在所有GCD基准测试中大幅优于基线方法，达到了新的先进水平。代码将在 \url{https://github.com/enguangW/GET} 发布。

36.RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

标题:RadCLIP：通过对比语言-图像预培训加强放射学图像分析

author:Zhixiu Lu, Hailong Li, Lili He

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.09948v1

摘要：
人工智能（AI）与放射学的结合标志着医学诊断进入了一个变革时代。人们采用视觉基础模型来加强放射成像分析。然而，放射成像的独特复杂性，包括对二维和三维放射数据的解读，带来了独特的挑战，而现有的模型是在一般的非医疗图像上训练出来的，无法充分应对这些挑战。为了弥补这一差距并利用医学影像所需的诊断精确性，我们推出了 RadCLIP：一种开创性的跨模态基础模型，利用对比语言-图像预训练（CLIP）来完善放射学图像分析。RadCLIP 采用了专为容积图像分析量身定制的新型三维切片池机制，并使用全面、多样的放射图像-文本对数据集进行训练。我们的评估结果表明，RadCLIP 能有效地将放射图像与相应的文本注释对齐，同时还为放射图像提供了强大的视觉支柱，前景十分广阔。

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.15-2024.03.20

文章目录~

1.Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

2.Negative Yields Positive: Unified Dual-Path Adapter for Vision-Language Models

3.Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models

4.MEDBind: Unifying Language and Multimodal Medical Data Embeddings

5.HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

6.RelationVLM: Making Large Vision-Language Models Understand Visual Relations

7.ViTGaze: Gaze Following with Interaction Features in Vision Transformers

8.Towards Multimodal In-Context Learning for Vision & Language Models

9.As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?

10.Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

11.Task-Customized Mixture of Adapters for General Image Fusion

12.TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer

13.CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation

14.VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

15.VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

16.FlexCap: Generating Rich, Localized, and Flexible Captions in Images

17.Exploring Multi-modal Neural Scene Representations With Applications on Thermal Imaging

18.GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection

19.Agent3D-Zero: An Agent for Zero-shot 3D Understanding

20.Evaluating Text to Image Synthesis: Survey and Taxonomy of Image Quality Metrics

21.End-to-end multi-modal product matching in fashion e-commerce

22.EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

23.OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System

24.Do CLIPs Always Generalize Better than ImageNet Models?

25.X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

26.SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

27.Training A Small Emotional Vision Language Model for Visual Art Comprehension

28.Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

29.Tokensome: Towards a Genetic Vision-Language GPT for Explainable and Cognitive Karyotyping

30.Leveraging CLIP for Inferring Sensitive Information and Improving Model Fairness

31.VideoAgent: Long-form Video Understanding with Large Language Model as Agent

32.Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

33.CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning

34.HawkEye: Training Video-Text LLMs for Grounding Text in Videos

35.GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery

36.RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

相关推荐

最近更新

热门阅读