CV最新论文｜4月1日 arXiv更新论文合集

以下内容由马拉AI整理，今天为大家带来4月1日 arXiv 计算机视觉和模式识别相关论文：

1、Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

无法解决的问题检测：评估视觉语言模型的可信度

摘要：本文介绍了视觉语言模型（VLM）面临的一个新颖而重大的挑战，称为不可解决的问题检测（UPD）。UPD 检查 VLM 在视觉问答（VQA）任务中面临无法解决的问题时拒绝回答的能力。UPD 包含三种不同的设置：缺席答案检测（AAD）、不兼容的答案集检测（IASD）和不兼容的视觉问题检测（IVQD）。为了深入研究 UPD 问题，大量实验表明，包括 GPT-4V 和 LLaVA-Next-34B 在内的大多数 VLM 都在不同程度上与我们的基准测试作斗争，这凸显了改进的巨大空间。为了解决UPD，我们探索了免培训和基于培训的解决方案，为其有效性和局限性提供了新的见解。我们希望我们的见解，以及未来在拟议的UPD设置中的努力，将加强对更实用和更可靠的VLM的更广泛理解和开发。

2、Are We on the Right Way for Evaluating Large Vision-Language Models?

我们是否走在评估大型视觉语言模型的正确道路上？

摘要：大型视觉语言模型（LVLM）最近取得了快速进展，引发了大量研究来评估其多模态能力。然而，我们深入研究了当前的评估工作，并确定了两个主要问题：1）许多样本不需要视觉内容。答案可以直接从问题和选项中推断出来，也可以从LLM中嵌入的世界知识中推断出来。这种现象在当前的基准测试中很普遍。例如，GeminiPro在没有任何视觉输入的情况下在MMMU基准测试中取得了42.9%的成绩，并且在六个基准测试中平均比随机选择基线高出20%以上。2）LLM和LVLM训练中存在无意的数据泄露。LLM 和 LVLM 仍然可以在没有视觉内容的情况下回答一些视觉上必要的问题，这表明在大规模训练数据中记住了这些样本。例如，Sphinx-X-MoE 在不访问图像的情况下在 MMMU 上获得了 43.6%，超过了其 LLM 骨干网的 17.9%。这两个问题都会导致对实际多模态增益的错误判断，并可能误导LVLM的研究。为此，我们推出了 MMStar，这是一款精英视觉不可或缺的多模态基准测试，包含 1,500 个由人类精心挑选的样本。MMStar 对 6 个核心功能和 18 个详细轴进行了基准测试，旨在通过仔细平衡和纯化的样品评估 LVLM 的多模态能力。这些样本首先通过自动化管道从当前基准中粗略选择，然后进行人工审查，以确保每个精选样本都表现出视觉依赖性、最小的数据泄漏，并且需要先进的多模式功能。此外，还开发了两个指标来衡量多模态训练中的数据泄漏和实际性能提升。我们在 MMStar 上评估了 16 个领先的 LVLM，以评估它们的多模态能力，并在 7 个基准测试中评估了建议的指标，以调查它们的数据泄漏和实际的多模态增益。

3、MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning

MTLoRA：一种用于高效多任务学习的低秩适应方法

摘要：在大规模数据集上预先训练的模型适应各种下游任务是深度学习的常见策略。因此，参数高效的微调方法已成为一种很有前途的方法，可以使预训练的模型适应不同的任务，同时只训练最少数量的参数。虽然这些方法中的大多数都是为单任务适应而设计的，但多任务学习（MTL）架构中的参数高效训练仍未得到探索。在本文中，我们介绍了MTLoRA，这是一种用于MTL模型参数高效训练的新框架。MTLoRA采用任务无关和任务特定低秩适配模块，有效地解开了MTL微调中的参数空间，从而使模型能够熟练地处理MTL上下文中的任务专业化和交互。我们将 MTLoRA 应用于基于分层转换器的 MTL 架构，使其适应多个下游密集预测任务。我们对 PASCAL 数据集的广泛实验表明，与完全微调 MTL 模型相比，MTLoRA 在下游任务上实现了更高的准确性，同时将可训练参数的数量减少了 3.6 倍。此外，MTLoRA 在可训练参数的数量和下游任务的准确性之间建立了帕累托最优权衡，在准确性和效率方面都优于当前最先进的参数高效训练方法。我们的代码是公开的。

4、SeaBird: Segmentation in Bird's View with Dice Loss Improves Monocular 3D Detection of Large Objects

SeaBird：鸟瞰图中的骰子损失分割改进了大型物体的单目 3D 检测

摘要：单目 3D 探测器在汽车和小型物体上具有出色的性能。然而，它们的性能在较大的物体上会下降，导致致命事故。一些人将失败归咎于训练数据稀缺或对大型物体的感受场要求。在本文中，我们重点介绍了这个未被充分研究的泛化到大型对象的问题。我们发现，即使在几乎平衡的数据集上，现代额叶探测器也很难推广到大型物体。我们认为，故障的原因是深度回归损失对较大物体噪声的敏感性。为了弥合这一差距，我们全面研究了回归和骰子损失，检查了它们在不同误差水平和对象大小下的鲁棒性。我们在数学上证明，与简化情况下的回归损失相比，骰子损失为大型对象带来了卓越的噪声鲁棒性和模型收敛性。利用我们的理论见解，我们提出了 SeaBird（鸟瞰图中的分割）作为推广到大型物体的第一步。SeaBird 有效地集成了前景物体上的 BEV 分割，用于 3D 检测，并使用骰子损失训练分割头。SeaBird 在 KITTI-360 排行榜上取得了 SoTA 结果，并改进了 nuScenes 排行榜上的现有探测器，尤其是对于大型物体。此 https URL 中的代码和模型。

5、Convolutional Prompting meets Language Models for Continual Learning

卷积提示与持续学习的语言模型相遇

摘要：持续学习（CL）使机器学习模型能够在没有旧任务数据的情况下从不断转移的新训练数据中学习。最近，预训练的视觉转换器与快速调谐相结合，有望克服 CL 中的灾难性遗忘。这些方法依赖于一个可学习的提示池，这些提示在任务之间共享知识时效率低下，导致性能下降。此外，由于缺乏细粒度的层特定提示，这些提示无法充分表达 CL 提示的强度。我们通过提出ConvPrompt来解决这些局限性，ConvPrompt是一种新颖的卷积提示创建机制，它维护了逐层共享嵌入，从而实现了特定于层的学习和更好的跨任务概念传递。卷积的智能使用使我们能够在不影响性能的情况下保持较低的参数开销。我们进一步利用大型语言模型来生成每个类别的细粒度文本描述，这些描述用于获得任务相似性并动态决定要学习的提示数量。大量实验证明了 ConvPrompt 的优越性，并将 SOTA 提高了 ~3%，参数开销显著降低。我们还对各种模块进行强烧蚀，以解开不同组件的重要性。

6、Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations

学会“不”更好地说“是”：通过否定改进视觉语言模型

摘要：现有的视觉语言模型（VLM）将文本描述视为一个单元，在提示中混淆了单个概念，并损害了视觉语义匹配和推理。逻辑和语言推理的一个重要方面是否定。本文强调了流行的VLMs（如CLIP）在理解否定的含义方面的局限性，即在给定提示中“不”一词的影响。为了能够对带有否定的流畅提示的 VLM 进行评估，我们提出了 CC-Neg，这是一个包含 228,246 张图像、真实标题及其相应的否定标题的数据集。使用CC-Neg以及对CLIP对比损失的修改，我们提出的CoN-CLIP框架，提高了对否定的理解。这种训练范式提高了 CoN-CLIP 可靠编码语义的能力，使 8 个数据集的零样本图像分类的前 1 名准确率平均提高了 3.85%。此外，CoN-CLIP 在具有挑战性的构图基准（如 SugarCREPE）上比 CLIP 高出 4.4%，展示了对文本中对象、关系和属性的新兴构图理解。总体而言，我们的工作通过引入一个数据集和框架来解决VLM的一个关键局限性，该数据集和框架加强了图像和文本之间的语义关联，展示了改进的大规模基础模型，大大降低了计算成本，提高了效率和可访问性。

7、InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

InstantSplat：40 秒内无边界稀疏视图无姿势高斯飞溅

摘要：

虽然新型视图合成（NVS）在 3D 计算机视觉方面取得了实质性进展，但它通常需要从密集的视点对相机内在和外在进行初步估计。这种预处理通常通过运动结构（SfM）管道进行，该过程可能缓慢且不可靠，尤其是在匹配特征不足的稀疏视图场景中，无法进行精确重建。在这项工作中，我们将基于点的表示（例如，3D Gaussian Splatting，3D-GS）的优势与端到端密集立体模型（DUSt3R）相结合，以解决NVS中复杂但未解决的问题在不受约束的设置下，其中包括无姿势和稀疏视图挑战。我们的框架 InstantSplat 将密集立体先验与 3D-GS 统一起来，在不到 1 分钟的时间内从稀疏视图和无姿势图像中构建大型场景的 3D 高斯。具体来说，InstantSplat 包含一个粗略几何初始化（CGI）模块，该模块利用从预训练密集立体管线派生的全局对齐 3D 点图，在所有训练视图中快速建立初步场景结构和摄像机参数。接下来是快速 3D 高斯优化（F-3DGO）模块，该模块通过姿态正则化联合优化 3D 高斯属性和初始化姿势。在大型户外坦克和寺庙数据集上进行的实验表明，InstantSplat显著提高了SSIM（32%），同时将绝对轨迹误差（ATE）降低了80%。这些使 InstantSplat 成为涉及无摆姿势和稀疏视图条件的场景的可行解决方案。项目页面：此http URL。

8、Benchmarking Counterfactual Image Generation

对反事实图像生成进行基准测试

摘要：反事实图像生成对于理解变量的因果关系至关重要，在可解释性和无偏见合成数据生成方面具有应用。然而，评估图像生成本身就是一个长期存在的挑战。需要评估反事实生成化合物来应对这一挑战，正是因为根据定义，反事实是没有可观察到的基本事实的假设场景。在本文中，我们提出了一个新颖的综合框架，旨在对反事实图像生成方法进行基准测试。我们纳入了专注于评估反事实不同方面的指标，例如组成、有效性、干预的最小性和图像真实性。我们基于结构因果模型范式评估了三种不同的条件图像生成模型类型的性能。我们的工作伴随着一个用户友好的Python包，允许进一步评估和基准测试现有和未来的反事实图像生成方法。我们的框架可扩展到其他 SCM 和其他因果方法、生成模型和数据集。

9、Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

Snap-it、Tap-it、Splat-it：用于重建具有挑战性表面的触觉信息 3D 高斯飞溅

摘要:触觉和视觉是相辅相成的，相互增强了我们理解世界的能力。从研究的角度来看，混合触觉和视觉的问题尚未得到充分探索，并提出了有趣的挑战。为此，我们提出了触觉信息3DGS，这是一种将触摸数据（局部深度图）与多视图视觉数据相结合的新方法，以实现表面重建和新颖的视图合成。我们的方法优化了 3D 高斯基元，以准确模拟物体在接触点的几何形状。通过创建一个降低触摸位置透射率的框架，我们实现了精细的表面重建，确保了均匀平滑的深度图。在考虑非朗伯物体（例如，有光泽或反光的表面）时，触摸特别有用，因为当代方法往往无法用保真镜面高光进行重建。通过结合视觉和触觉传感，我们用比以前的方法更少的图像实现了更精确的几何重建。我们对具有光泽和反射表面的物体进行评估，并证明我们方法的有效性，从而显着提高重建质量。

10、CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data

CATSNet：基于Pol-TomoSAR数据的林区高度估计环境感知网络

摘要：热带森林是全球碳循环的重要组成部分。随着即将到来的太空飞行任务（如BIOMASS）监测林业的计划，包括TropiSAR和AfriSAR运动在内的几项空中任务已经成功启动和试验。典型的合成孔径雷达层析成像（TomoSAR）方法涉及精度低、计算成本高的复杂模型。近年来，深度学习方法在TomoSAR框架中也得到了关注，显示出有趣的性能。最近，一种基于全连接断层扫描神经网络（TSNN）的解决方案通过利用从TomoSAR数据得出的协方差矩阵的像素元素，证明了其在准确估计森林和地面高度方面的有效性。相反，这项工作超越了像素方法，定义了一个名为 CATSNet 的基于上下文感知深度学习的解决方案。卷积神经网络被认为利用基于补丁的信息并从邻域中提取特征，而不是专注于单个像素。训练是通过将TomoSAR数据作为输入，将光探测和测距（LiDAR）值作为地面实况来进行的。实验结果表明，通过利用不同极化模式的多基线（MB） TomoSAR 数据中的上下文信息，在性能和泛化能力方面都具有显着优势，超过了现有技术。

11、Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

绘制和理解：利用视觉提示使 MLLM 能够理解您想要的内容

摘要：人类与人工智能（AI）之间的交互是反映多模态大型语言模型（MLLM）有效性的关键因素。然而，当前的MLLM主要关注图像级理解，并将交互限制在文本指令上，从而限制了它们在使用和响应深度方面的灵活性。在本文中，我们介绍了 Draw-and-Understand 项目：一个新模型、一个多域数据集和一个具有挑战性的视觉提示基准。具体来说，我们提出了SPHINX-V，一种新的端到端训练的多模态大型语言模型（MLLM），它连接了视觉编码器、视觉提示编码器和用于各种视觉提示（点、边界框和自由形式形状）和语言理解的LLM。为了推进 MLLM 的视觉提示研究，我们引入了 MDVP-Data 和 MDVP-Bench。MDVP-Data 具有多域数据集，其中包含 1.6M 独特的图像-视觉提示-文本指令-遵循示例，包括自然图像、文档图像、OCR 图像、移动屏幕截图、Web 屏幕截图和多面板图像。此外，我们还介绍了 MDVP-Bench，这是一个全面且具有挑战性的基准测试，用于评估模型理解视觉提示指令的能力。我们的实验通过视觉提示证明了SPHINX-V令人印象深刻的多模态交互能力，揭示了详细的像素级描述和问答能力的显着改进。

12、Prototype-based Interpretable Breast Cancer Prediction Models: Analysis and Challenges

基于原型的可解释乳腺癌预测模型：分析与挑战

摘要：深度学习模型在医疗应用中取得了高性能，但由于其黑盒性质，它们在临床实践中的采用受到阻碍。自解释模型（如基于原型的模型）可能特别有益，因为它们可以通过设计进行解释。但是，如果学习到的原型质量低下，那么基于原型的模型就像黑匣子一样好。拥有高质量的原型是真正可解释模型的先决条件。在这项工作中，我们提出了一个原型相干性评估框架（PEF-C），用于基于领域知识定量评估原型的质量。我们展示了PEF-C在使用乳房X光检查预测乳腺癌的背景下的使用。与黑盒模型相比，基于原型的乳腺癌预测模型的现有工作侧重于提高基于原型的模型的分类性能，并通过轶事证据评估原型质量。我们是第一个超越轶事证据并使用我们的 PEF-C 系统地评估乳房 X 光检查原型质量的公司。具体来说，我们在乳腺 X 线摄影图像上应用了三种最先进的基于原型的模型，ProtoPNet、BRAIxProtoPNet++ 和 PIP-Net，用于乳腺癌预测，并在三个公共数据集上评估这些模型的分类性能和 ii）原型的质量。结果表明，基于原型的模型在分类性能方面与黑盒模型相比具有竞争力，在ROI检测方面得分更高。然而，原型的质量还不够，可以在相关性、纯度和学习各种原型方面进行改进。我们呼吁 XAI 社区系统地评估原型的质量，以检查它们在高风险决策中的真实可用性，并进一步改进此类模型。

13、Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions

对时间操作检测模型针对时间损坏的鲁棒性进行基准测试

摘要：时间动作检测（TAD）旨在定位动作位置并识别长期未修剪视频中的动作类别。尽管许多方法已经取得了可喜的结果，但它们的鲁棒性尚未得到彻底研究。在实践中，我们观察到视频中的时间信息偶尔会损坏，例如丢失或模糊帧。有趣的是，即使只有一帧受到影响，现有方法也经常会导致性能大幅下降。为了正式评估鲁棒性，我们建立了两个时间损坏鲁棒性基准，即 THUMOS14-C 和 ActivityNet-v1.3-C。在本文中，我们广泛分析了七种主要TAD方法的鲁棒性，并获得了一些有趣的发现：1）现有方法特别容易受到时间损坏的影响，并且端到端方法通常比具有预训练特征提取器的方法更容易受到影响;2）漏洞主要来自本地化错误，而不是分类错误;3）当操作实例中间发生损坏时，TAD 模型往往会产生最大的性能下降。除了构建基准测试外，我们还进一步开发了一种简单但有效的鲁棒训练方法，通过 FrameDrop 增强和时间鲁棒一致性损失来防御时间损坏。值得注意的是，我们的方法不仅提高了鲁棒性，而且在干净数据上产生了有希望的改进。我们相信，这项研究将成为未来鲁棒视频分析研究的基准。源代码和模型可在此 https URL 中找到。

14、MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation

MedCLIP-SAM：将文本和图像桥接到通用医学图像分割中

摘要：解剖结构和病理学的医学图像分割在现代临床诊断、疾病研究和治疗计划中至关重要。迄今为止，基于深度学习的分割技术已经取得了长足的进步，但大多数方法仍然缺乏数据效率、泛化性和交互性。因此，开发新的、精确的分割方法，需要更少的标记数据集，在医学图像分析中至关重要。最近，具有全面跨域表示的基础模型（如 CLIP 和 Segment-Anything-Model （SAM））的出现为交互式和通用图像分割打开了大门。然而，对这些模型进行数据高效医学图像分割的探索仍然有限，但非常必要。在本文中，我们提出了一种称为 MedCLIP-SAM 的新框架，该框架结合了 CLIP 和 SAM 模型，以在零注射和弱监督环境中使用文本提示生成临床扫描的分割。为了实现这一点，我们采用了一种新的解耦硬负噪声对比估计（DHN-NCE）损失来微调 BiomedCLIP 模型和最近的 gScoreCAM 来生成提示，以在零样本设置下从 SAM 获取分割掩码。此外，我们还探索了在弱监督范式中使用零样本分割标签，以进一步提高分割质量。通过广泛测试三种不同的分割任务和医学图像模式（乳腺肿瘤超声、脑肿瘤 MRI 和肺 X 射线），我们提出的框架表现出出色的准确性。

15、Latent Embedding Clustering for Occlusion Robust Head Pose Estimation

用于遮挡的潜伏嵌入聚类鲁棒头部姿态估计

摘要：头部姿态估计已成为计算机视觉研究的一个重要领域，因为它在广泛的应用中很有用，包括机器人、监控或驾驶员注意力监控。该领域最困难的挑战之一是管理在现实世界中经常发生的头部遮挡。在本文中，我们提出了一个新颖而高效的框架，该框架在现实世界的头部遮挡场景中是鲁棒的。特别是，我们提出了一种无监督的潜在嵌入聚类，每个姿态角都有回归和分类分量。该模型通过聚类项优化了遮挡和非遮挡图像的潜在特征表示，同时改进了细粒度角度预测。对野外头部姿势基准数据集的实验评估揭示了与最先进的方法相比的竞争性能，其优势在于数据大幅减少。我们观察到闭塞头部姿势估计有实质性的改善。此外，还进行了消融研究，以确定聚类术语在我们提议的框架内的影响。

16、Relation Rectification in Diffusion Model

扩散模型中的关系整流

摘要：尽管具有非凡的生成能力，但大型文本到图像的扩散模型，就像熟练但粗心的艺术家一样，经常难以准确描绘对象之间的视觉关系。正如我们通过仔细分析发现的那样，这个问题源于一个未对齐的文本编码器，该编码器难以解释特定关系并区分相关对象的逻辑顺序。为了解决这个问题，我们引入了一个名为关系校正的新任务，旨在改进模型以准确表示它最初无法生成的给定关系。为了解决这个问题，我们提出了一种利用异构图卷积网络（HGCN）的创新解决方案。它对输入提示中关系术语和相应对象之间的方向关系进行建模。具体来说，我们在一对具有相同关系词但对象顺序相反的提示上优化了 HGCN，并辅以一些参考图像。轻量级的HGCN对文本编码器生成的文本嵌入进行调整，确保文本关系在嵌入空间中的准确反映。至关重要的是，我们的方法保留了文本编码器和扩散模型的参数，保留了模型在不相关描述上的鲁棒性能。我们在新策划的各种关系数据数据集上验证了我们的方法，展示了在生成具有精确视觉关系的图像方面的定量和定性增强。项目页面：此 https URL。

17、Long-Tailed Anomaly Detection with Learnable Class Names

具有可学习类名的长尾异常检测

摘要：异常检测（AD）旨在识别有缺陷的图像并定位其缺陷（如果有）。理想情况下，AD 模型应该能够检测多个图像类别的缺陷;不依赖于硬编码的类名，这些类名在数据集之间可能没有信息或不一致;在没有异常监督的情况下学习;并且对实际应用程序的长尾分布具有鲁棒性。为了应对这些挑战，我们通过引入几个具有不同程度的类不平衡和性能评估指标的数据集来表述长尾AD的问题。然后，我们提出了一种新的方法LTAD，用于检测来自多个长尾类的缺陷，而无需依赖数据集类名。LTAD 通过重构将 AD 和语义 AD 模块相结合。通过重建实现AD重建模块。语义 AD 是使用二元分类器实现的，该分类器依赖于学习的伪类名和预训练的基础模型。这些模块分两个阶段学习。第 1 阶段学习伪类名称和用于特征综合的变分自动编码器（VAE），以增强训练数据以对抗长尾。然后，第 2 阶段学习 LTAD 的重建和分类模块的参数。使用所提出的长尾数据集进行的大量实验表明，对于大多数形式的数据集不平衡，LTAD的性能大大优于最先进的方法。长尾数据集拆分可在此 https URL 获得。

18、U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation

U-VAP：通过解耦的自我增强实现用户指定的视觉外观个性化

摘要：概念个性化方法使大型文本到图像模型能够学习特定主题（例如，对象/姿势/3D 模型）并在新上下文中合成演绎版。鉴于图像参考高度偏向于视觉属性，最先进的个性化模型往往会过度拟合整个主体，无法解开像素空间中的视觉特征。在这项研究中，我们提出了一个更具挑战性的设置，即细粒度的视觉外观个性化。与现有方法不同，我们允许用户提供描述所需属性的句子。该文提出一种新颖的解耦自增强策略，用于生成目标相关和非目标样本，以学习用户指定的视觉属性。这些增强数据允许改进模型对目标属性的理解，同时减轻不相关属性的影响。在推理阶段，通过学习目标和非目标嵌入对语义空间进行调整，进一步增强目标属性的解纠缠。利用SOTA个性化方法对各种视觉属性进行的大量实验表明，所提方法能够在新颖的情境中模仿目标视觉外观，从而提高个性化的可控性和灵活性。

19、MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark

MTMMC：大规模真实世界多模态相机跟踪基准测试

摘要：多目标多摄像机跟踪是一项关键任务，涉及使用来自多个摄像机的视频流随着时间的推移识别和跟踪个人。该任务在视觉监控、人群行为分析、异常检测等各个领域都有实际应用。然而，由于收集和标记数据的难度和成本，该任务的现有数据集要么是合成的，要么是在受控的相机网络设置中人工构建的，这限制了它们对真实世界动态进行建模和泛化到不同相机配置的能力。为了解决这个问题，我们提出了 MTMMC，这是一个真实世界的大规模数据集，其中包括 16 台多模态摄像机在两个不同环境（校园和工厂）中拍摄的长视频序列，涵盖不同的时间、天气和季节条件。该数据集为研究各种现实世界复杂性下的多相机跟踪提供了一个具有挑战性的测试平台，并包括空间对齐和时间同步的RGB和热像仪的额外输入模式，从而提高了多相机跟踪的准确性。MTMMC 是现有数据集的超集，有利于人员检测、重新识别和多对象跟踪等独立领域。我们在这个数据集上提供了基线和新的学习设置，并为未来的研究设定了参考分数。数据集、模型和测试服务器将公开发布。

20、H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

H2RSVLM：迈向有用和诚实的遥感大视觉语言模型

摘要：通用大型视觉语言模型（VLM）正在迅速发展，但在遥感（RS）领域仍然表现不佳，这是由于RS图像的独特性和专业性以及当前VLM的空间感知相对有限。现有的遥感特定视觉语言模型（RSVLM）仍然具有相当大的改进潜力，主要是由于缺乏大规模的高质量的 RS 视觉语言数据集。构建了包含140万对图像的大规模高质量详细RS图像HqDC-1.4M，不仅增强了RSVLM对RS图像的理解，而且显著提高了模型的空间感知能力，如定位和计数，从而增加了RSVLM的实用性。此外，为了解决RSVLM中不可避免的“幻觉”问题，我们开发了RSSA，这是第一个旨在增强RSVLM自我意识能力的数据集。通过将各种无法回答的问题纳入典型的RS视觉问答任务中，RSSA有效地提高了模型输出的真实性，减少了幻觉，从而增强了RSVLM的可信度。基于这些数据集，我们提出了H2RSVLM，即有用且诚实的遥感视觉语言模型。H2RSVLM在多个 RS 公共数据集上取得了出色的性能，能够识别和拒绝回答无法回答的问题，有效缓解了错误的世代。我们将在此 https URL 上发布代码、数据和模型权重。

CV最新论文｜4月1日 arXiv更新论文合集

相关推荐

最近更新

热门阅读