GitHub - chenin-wang/awesome_ai_paper: paper.cheninweb.asia

Updated on 2024.11.23

Usage instructions: here

Table of Contents

多模态
6DOF Object Pose
nerf
分类/检测/识别/分割
生成模型
LLM
Transformer

多模态

Publish Date	Title	Code	Abstract
2024-11-21	Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance	null	大型视觉语言模型 (LVLMs) 在各种视觉语言任务中取得了令人瞩目的成果。然而，尽管表现出良好的性能，LVLMs 仍然受到语言偏差导致的幻觉的影响，导致对图像的关注减少和视觉理解 ineffective。我们确定了造成这种偏差的两个主要原因：1. LLM 预训练阶段和多模态对齐阶段的训练数据规模不同。2.由于文本数据的短期依赖性而学习到的推理偏差。因此，我们提出了 LACING，一个系统框架，旨在通过多模态双重注意力机制 (MDA) 和软图像引导 (IFG) 来解决 LVLMs 的语言偏差问题。具体来说，MDA 引入了一种并行的双重注意力机制，增强了视觉输入在模型中的整合。IFG 在训练和推理过程中引入了一个可学习的软视觉提示来代替视觉输入，旨在迫使 LVLMs 优先考虑文本输入。然后，IFG 进一步提出了一种使用软视觉提示的新解码策略，以减轻模型对相邻文本输入的过度依赖。综合实验表明，我们的方法有效地去除了 LVLMs 的语言偏差，增强了视觉理解并减少了幻觉，而无需额外的训练资源或数据。代码和模型可在 lacing-lvlm.github.io 获取。
2024-11-21	Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	null	能够对多模态输入进行复杂的推理对于模型在现实世界场景中与人类有效互动至关重要。视觉语言模型的进步显著提高了在需要处理明确和直接文本输入的任务（如视觉问答 (VQA) 和视觉定位 (VG)）上的性能。然而，对于提高模型理解细微和模糊的交流形式的能力，人们的关注较少。这提出了一个关键挑战，因为现实世界互动中的人类语言通常传达隐藏的意图，这些意图依赖于上下文才能进行准确的解释。为了解决这一差距，我们提出了VAGUE，一个包含3.9K个间接人类话语及其对应场景的多模态基准。此外，我们还提供了一个基于模型的流水线，用于从输入图像生成提示-解决方案对。我们的工作旨在深入研究模型理解间接交流的能力，并致力于开发能够进行更精细和更像人类互动的模型。对多个VLM的广泛评估表明，主流模型在需要执行复杂的语言和视觉推理时仍然难以理解间接交流。我们在https://github.com/Hazel-Heejeong-Nam/VAGUE.git发布了我们的代码和数据。
2024-11-21	MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective	link	大型多模态模型 (LMMs) 已展现出卓越的能力。然而，现有的 LMMs 评估基准主要集中在图像理解方面，很少有工作从图像生成的视角进行评估。为了解决这个问题，我们提出了一个简单的自动化评估流程。具体来说，该流程要求 LMMs 根据给定的输入图像生成图像描述。随后，它使用文本到图像的生成模型，根据这些生成的描述创建新的图像。最后，我们通过比较原始图像和生成的图像来评估 LMMs 的性能。此外，我们引入了 MMGenBench-Test，这是一个全面的基准测试，旨在评估 LMMs 在 13 种不同图像模式下的性能，以及 MMGenBench-Domain，旨在评估 LMMs 在生成图像领域内的性能。对 50 多个流行的 LMMs 进行的全面评估证明了该流程和基准的有效性和可靠性。我们的观察表明，许多在现有基准测试中表现优异的 LMMs 未能充分完成与图像理解和描述相关的基本任务。这一发现凸显了当前 LMMs 的性能提升潜力，并为未来的模型优化提供了方向。同时，我们的流程仅使用图像输入即可促进对不同领域 LMMs 性能的高效评估。
2024-11-20	BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games	null	大型语言模型 (LLM) 和视觉语言模型 (VLM) 拥有广泛的知识并展现出 promising 的推理能力；然而，它们在复杂、动态的环境中仍然难以良好地执行任务。现实世界的任务需要处理复杂的交互、高级空间推理、长期规划和对新策略的持续探索——在这些领域，我们缺乏有效的方法来全面评估这些能力。为了弥补这一差距，我们引入了 BALROG，这是一个 novel 的基准测试，旨在通过一组不同的 challenging 游戏来评估 LLM 和 VLM 的智能体能力。我们的基准测试包含一系列现有的强化学习环境，难度各不相同，包括非专业人员可以在几秒钟内解决的任务，以及可能需要数年才能掌握的极其挑战性的任务（例如，NetHack 学习环境）。我们设计了细粒度的指标来衡量性能，并对几个流行的开源和闭源 LLM 和 VLM 进行了广泛的评估。我们的研究结果表明，虽然目前的模型在较简单的游戏中取得了部分成功，但在更具挑战性的任务中却举步维艰。值得注意的是，我们观察到基于视觉的决策存在严重缺陷，因为当提供环境的视觉表示时，模型的性能会更差。我们将 BALROG 作为一个开放且用户友好的基准测试发布，以促进智能体社区未来的研究和发展。
2024-11-20	Teaching VLMs to Localize Specific Objects from In-context Examples	link	视觉语言模型 (VLM) 在各种视觉任务中展现了卓越的能力，包括图像识别、视频理解和视觉问答 (VQA)，前提是针对这些任务进行专门训练。尽管取得了这些进展，我们发现当前的 VLM 缺乏一项基本的认知能力：通过考虑上下文来学习定位场景中的对象。在这项工作中，我们专注于少样本个性化定位任务，其中模型被赋予一小组带注释的图像（上下文示例）——每个图像都带有类别标签和边界框——并且其任务是在查询图像中定位相同类型的对象。为了激发模型的个性化定位能力，我们提出了一种以数据为中心的解决方案，使用从视频对象跟踪数据集中精心挑选的数据对模型进行微调。通过利用跨多个镜头跟踪同一对象的帧序列，我们模拟了促进上下文感知的指令调整对话。为了强化这一点，我们引入了一种新的正规化技术，用伪名称替换对象标签，确保模型依赖视觉上下文而不是先验知识。我们的方法显著增强了少样本定位性能，且不会牺牲泛化能力，这在几个为个性化定位定制的基准测试中得到了证明。这项工作是第一个探索和基准测试 VLM 的个性化少样本定位的工作，为未来上下文驱动的视觉语言应用研究奠定了基础。我们的项目代码可在 https://github.com/SivanDoveh/IPLoc 获取。
2024-11-20	VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation	null	近年来，具备高级视频分析能力的大型多模态模型 (LMM) 引起了广泛关注。然而，大多数评估依赖于传统方法，例如 VideoMME 和 LongVideoBench 等基准测试中的多项选择题，这些方法往往缺乏深度，难以捕捉现实世界用户的复杂需求。为了解决这一局限性，并且考虑到人工标注视频任务的高成本和低效率，我们引入了 VideoAutoArena，这是一个竞技场式的基准测试，其灵感来自 LMSYS Chatbot Arena 的框架，旨在自动评估 LMM 的视频分析能力。VideoAutoArena 利用用户模拟生成开放式、自适应问题，以严格评估模型在视频理解方面的性能。该基准测试采用了一种可扩展的自动化评估框架，并结合了改进的 ELO 评分系统，以便在多个 LMM 之间进行公平、持续的比较。为了验证我们的自动评判系统，我们使用精心策划的人工标注子集构建了“黄金标准”，证明我们的竞技场与人类判断高度一致，同时保持了可扩展性。此外，我们引入了一种故障驱动的进化策略，逐步增加问题的复杂性，以推动模型处理更具挑战性的视频分析场景。实验结果表明，VideoAutoArena 可以有效地区分最先进的 LMM，并提供有关模型优势和改进方向的见解。为了进一步简化我们的评估，我们引入了 VideoAutoBench 作为辅助基准测试，其中人工标注员在 VideoAutoArena 比赛的子集中标记获胜者。我们使用 GPT-4o 作为评判，将模型的回答与这些经过人工验证的答案进行比较。VideoAutoArena 和 VideoAutoBench 共同提供了一个经济高效且可扩展的框架，用于评估以用户为中心的视频分析中的 LMM。
2024-11-20	XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation	link	现有的开放词汇3D语义分割方法主要集中于建立一个包含3D、2D和文本模态的统一特征空间。然而，诸如全局特征对齐或视觉语言模型蒸馏等传统技术往往只能实现近似的对应，尤其难以描绘细粒度的分割边界。为了解决这个问题，我们提出了一个通过跨模态掩码推理框架XMask3D在3D特征和2D-文本嵌入空间之间进行更精细的掩码级对齐的方法。在我们的方法中，我们基于预训练扩散模型中的去噪UNet开发了一个掩码生成器，利用其对密集像素表示的精确文本控制能力，并增强了生成掩码的开放世界适应性。我们进一步将3D全局特征作为隐式条件融入预训练的2D去噪UNet中，使得生成的分割掩码能够额外感知3D几何信息。随后，生成的2D掩码被用于将掩码级别的3D表示与视觉语言特征空间对齐，从而增强3D几何嵌入的开放词汇能力。最后，我们融合互补的2D和3D掩码特征，从而在多个3D开放词汇语义分割基准测试中取得了竞争性的性能。代码可在https://github.com/wangzy22/XMask3D获取。
2024-11-21	ViSTa Dataset: Do vision-language models understand sequential tasks?	null	将视觉语言模型 (VLM) 用作强化学习中的奖励模型有望降低成本并提高安全性。迄今为止，VLM 奖励模型仅用于目标导向的任务，其中智能体必须达到特定的最终结果。我们探索 VLM 监督无法仅凭最终状态评分的任务的潜力。为此，我们引入了 ViSTa，这是一个用于评估基于视觉的顺序任务理解的数据集。ViSTa 包含 4,000 多个视频，其中包含虚拟家庭、Minecraft 和现实世界环境中的分步描述。其新颖的层次结构——由基本的单步任务组成越来越复杂的顺序任务——可以深入了解 VLM 判断不同复杂度任务的能力。为了说明这一点，我们使用 ViSTa 来评估最先进的 VLM，包括 CLIP、ViCLIP 和 GPT-4o。我们发现，虽然它们都擅长物体识别，但它们无法理解顺序任务，只有 GPT-4o 取得了非平凡的性能。
2024-11-20	TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models	null	大型预训练视觉语言模型（VLM），例如CLIP，在各种下游任务中展现出优异的零样本泛化能力。然而，最近的研究表明，CLIP的推理性能很容易被小的对抗性扰动大幅降低，尤其是在其视觉模态方面，这构成了重大的安全威胁。为了缓解此漏洞，本文提出了一种名为测试时对抗性提示调优（TAPT）的新颖防御方法，以增强CLIP针对视觉对抗性攻击的推理鲁棒性。TAPT是一种测试时防御方法，它学习防御性双模态（文本和视觉）提示以增强CLIP的推理过程的鲁棒性。具体来说，它是一种无监督方法，通过最小化多视图熵并对齐对抗样本和干净样本的分布来优化每个测试样本的防御性提示。我们在11个基准数据集（包括ImageNet和10个其他零样本数据集）上评估了TAPT的有效性，结果表明，它将原始CLIP的零样本对抗鲁棒性提高了至少48.9%（对抗AutoAttack（AA）），同时在很大程度上保持了对干净样本的性能。此外，TAPT在各种骨干网络上的性能都优于现有的对抗性提示调优方法，平均鲁棒性提升至少36.6%。
2024-11-19	VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge	null	通用视觉语言模型（VLMs）在计算机视觉领域取得了显著进展，但在医疗等需要专业知识的特定领域却存在不足。在传统的计算机视觉任务中，创造性或近似的答案可能是可以接受的，但在医疗领域，精度至关重要。目前的通用大型多模态模型，如Gemini和GPT-4o，由于依赖记忆的互联网知识而非医疗所需的细致专业知识，因此不足以胜任医疗任务。VLM的训练通常分为三个阶段：视觉预训练、视觉-语言预训练和指令微调（IFT）。IFT通常使用通用数据和医疗数据的混合进行。相比之下，我们提出，对于医学VLM，需要第四阶段的专门IFT，重点关注医学数据，并包含来自领域专家模型的信息。为医疗用途开发的领域专家模型至关重要，因为它们经过专门训练以执行某些临床任务，例如通过分割和分类来检测肿瘤和对异常进行分类，从而学习医学数据的细粒度特征——这些特征通常过于复杂，VLM无法有效捕捉，尤其是在放射学领域。本文介绍了一种新的医学VLM框架VILA-M3，它利用专家模型的领域知识。通过实验，我们展示了改进的最先进（SOTA）性能，平均比之前的SOTA模型Med-Gemini提高了约9%，比针对特定任务训练的模型提高了约6%。我们的方法强调了领域专业知识在创建用于医疗应用的精确、可靠的VLM中的重要性。
2024-11-18	Vision Language Models Are Few-Shot Audio Spectrogram Classifiers	null	我们证明了视觉语言模型（VLM）能够在给定相应频谱图图像的情况下识别音频录音中的内容。具体来说，我们通过提示VLM对每个类别的示例频谱图图像进行分类，指导它们在少样本设置下执行音频分类任务。通过精心设计频谱图图像表示并选择良好的少样本示例，我们展示了GPT-4o在ESC-10环境声音分类数据集上可以达到59.00%的交叉验证准确率。此外，我们证明了VLM目前在同等的音频分类任务上优于唯一可用的具有音频理解能力的商业音频语言模型（Gemini-1.5）（59.00% vs. 49.62%），甚至在视觉频谱图分类方面略优于人类专家（在第一个折叠上，73.75% vs. 72.50%）。我们设想了这些发现的两个潜在用例：（1）结合VLM的频谱图和语言理解能力进行音频字幕增强，以及（2）将视觉频谱图分类作为VLM的挑战任务。
2024-11-18	ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements	link	近年来，基础视觉语言模型 (VLM) 的进步重塑了计算机视觉任务的评估范式。这些基础模型，尤其是 CLIP，加速了开放词汇计算机视觉任务（包括开放词汇语义分割 (OVSS)）的研究。尽管初步结果令人鼓舞，但 VLM 的密集预测能力仍需进一步提高。在本研究中，我们通过引入新的模块和修改来增强 CLIP 的语义分割性能：1) 改变 ViT 最后一层的架构，并将中间层的注意力图与最后一层合并；2) 图像工程：应用数据增强来丰富输入图像的表示；3) 使用大型语言模型 (LLM) 为每个类别名称生成定义和同义词，以利用 CLIP 的开放词汇能力。我们的免训练方法 ITACLIP 在 COCO-Stuff、COCO-Object、Pascal Context 和 Pascal VOC 等分割基准测试中优于当前最先进的方法。我们的代码可在 https://github.com/m-arda-aydn/ITACLIP 获取。
2024-11-17	On-Board Vision-Language Models for Personalized Autonomous Vehicle Motion Control: System Design and Real-World Validation	null	个性化驾驶指的是自动驾驶车辆在保证安全和舒适标准的前提下，使其驾驶行为或控制策略适应个体用户偏好和驾驶风格的能力。然而，现有研究要么无法精确捕捉每个个体的偏好，要么随着用户群的扩大而导致计算效率低下。视觉语言模型（VLM）凭借其自然语言理解和场景推理能力，为解决这一问题提供了 promising 的方案。在这项工作中，我们提出了一个轻量级但高效的车载 VLM 框架，该框架在提供低延迟个性化驾驶性能的同时，保持了强大的推理能力。我们的解决方案包含一个基于检索增强生成（RAG）的记忆模块，该模块能够通过人类反馈持续学习个体驾驶偏好。通过全面的实际车辆部署和实验，我们的系统已 demonstrated 在各种场景下提供安全、舒适和个性化的驾驶体验的能力，并将接管率显著降低了高达 76.9%。据我们所知，这项工作代表了在实际自动驾驶车辆中第一个端到端的基于 VLM 的运动控制系统。
2024-11-18	The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning	null	大型多模态模型 (LMMs) 在各种多模态任务中展现出令人瞩目的性能。然而，由于大多数数据和模型以西方为中心，它们在跨文化语境中的有效性仍然有限。相反，多智能体模型在解决复杂任务方面表现出显著的能力。我们的研究评估了 LMMs 在多智能体交互环境下对文化图像描述这一新任务的集体表现。我们的贡献如下：(1) 我们引入了 MosAIC，这是一个多智能体框架，利用具有不同文化角色的 LMMs 来增强跨文化图像描述；(2) 我们提供了一个包含来自中国、印度和罗马尼亚图像的英文文化丰富图像描述数据集，涵盖 GeoDE、GD-VCR 和 CVQA 三个数据集；(3) 我们提出了一个文化适应性指标，用于评估图像描述中的文化信息；(4) 我们证明了多智能体交互在不同指标上优于单智能体模型，并为未来的研究提供了宝贵的见解。我们的数据集和模型可在 https://github.com/MichiganNLP/MosAIC 获取。
2024-11-18	MC-LLaVA: Multi-Concept Personalized Vision-Language Model	null	目前的视觉语言模型 (VLM) 在包括视觉问答在内的各种任务中展现出卓越的能力。为了增强实际应用中的用户体验，最近的研究探索了VLM个性化以理解用户提供的概念。然而，现有研究主要集中在单概念个性化上，忽略了多个概念的存在和相互作用，这限制了个性化VLM的实际应用。在本文中，我们提出了第一个多概念个性化方法，称为MC-LLaVA，以及一个高质量的多概念个性化数据集。具体来说，MC-LLaVA采用联合训练策略，在单个训练步骤中结合多个概念，使VLM能够在多概念个性化中准确执行。为了降低联合训练的成本，MC-LLaVA利用视觉标记信息进行概念标记初始化，从而改进概念表示并加速联合训练。为了推进多概念个性化研究，我们进一步贡献了一个高质量的数据集。我们从包含多个角色的各种电影中精心收集图像，并手动生成多概念问答样本。我们的数据集涵盖了不同的电影类型和问答类型。我们进行了全面的定性和定量实验，以证明MC-LLaVA可以实现令人印象深刻的多概念个性化响应，为VLM成为更好的用户特定助手铺平了道路。代码和数据集将在https://github.com/arctanxarc/MC-LLaVA公开发布。
2024-11-18	VLN-Game: Vision-Language Equilibrium Search for Zero-Shot Semantic Navigation	null	遵循人类指令在陌生环境中探索和搜索指定目标是移动服务机器人的一项关键技能。以往关于物体目标导航的研究大多集中在单一输入模态作为目标，这可能导致对包含详细属性和空间关系的语言描述考虑不足。为了解决这一局限性，我们提出了VLN-Game，一个用于视觉目标导航的新型零样本框架，可以有效地处理物体名称和描述性语言目标。更准确地说，我们的方法通过将预训练的视觉语言特征与物理环境的三维重建相结合，构建了一个以物体为中心的三维空间地图。然后，该框架识别出最有希望的区域，以探索潜在的目标候选者。采用博弈论视觉语言模型来确定哪个目标与给定的语言描述最匹配。在Habitat-Matterport 3D (HM3D)数据集上进行的实验表明，所提出的框架在物体目标导航和基于语言的导航任务中均实现了最先进的性能。此外，我们展示了VLN-Game可以轻松部署到现实世界的机器人上。VLN-Game的成功凸显了使用博弈论方法和紧凑型视觉语言模型来提升机器人系统决策能力的巨大潜力。补充视频和代码可以通过以下链接访问：https://sites.google.com/view/vln-game。
2024-11-18	Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment	null	受益于大型语言模型 (LLM) 的强大功能，预训练的连接到 LLM 的视觉编码器模型形成了视觉语言模型 (VLM)。然而，最近的研究表明，VLM 中的视觉模态非常脆弱，攻击者可以通过视觉传输的内容绕过 LLM 中的安全对齐，发起有害攻击。为了应对这一挑战，我们提出了一种基于渐进式概念的对齐策略 PSA-VLM，它将安全模块作为概念瓶颈，以增强视觉模态安全对齐。通过将模型预测与特定安全概念对齐，我们改进了针对风险图像的防御，增强了可解释性和可控性，同时最大限度地减少了对一般性能的影响。我们的方法通过两阶段训练获得。第一阶段的低计算成本带来了非常有效的性能提升，第二阶段的语言模型微调进一步提高了安全性能。我们的方法在流行的 VLM 安全基准测试中取得了最先进的结果。
2024-11-18	InstruGen: Automatic Instruction Generation for Vision-and-Language Navigation Via Large Multimodal Models	null	最近关于视觉和语言导航 (VLN) 的研究表明，由于缺乏真实的训练环境和高质量的路径-指令对，agent 在未知环境中的泛化能力较差。大多数现有的构建逼真导航场景的方法成本较高，且指令的扩展主要依赖于预定义的模板或规则，缺乏适应性。为了缓解这个问题，我们提出了 InstruGen，一个 VLN 路径-指令对生成范式。具体来说，我们使用 YouTube 房屋参观视频作为真实的导航场景，并利用大型多模态模型 (LMM) 强大的视觉理解和生成能力来自动生成多样化且高质量的 VLN 路径-指令对。我们的方法可以生成不同粒度的导航指令，并在指令和视觉观察之间实现细粒度的对齐，这是以前的方法难以实现的。此外，我们设计了一个多阶段验证机制，以减少 LMM 的幻觉和不一致性。实验结果表明，使用 InstruGen 生成的路径-指令对训练的 agent 在 R2R 和 RxR 基准测试中，尤其是在未知环境中，达到了最先进的性能。代码可在 https://github.com/yanyu0526/InstruGen 获取。
2024-11-18	Efficient Transfer Learning for Video-language Foundation Models	link	预训练的视觉语言模型为跨各种下游任务的高效迁移学习提供了稳健的基础。在视频动作识别领域，主流方法通常会引入额外的参数模块来捕获时间信息。虽然这些额外参数带来的模型容量增加有助于更好地拟合视频特定的归纳偏差，但现有方法需要学习大量的参数，并且容易出现对原始泛化知识的灾难性遗忘。在本文中，我们提出了一个简单而有效的多模态时空适配器（MSTA），以改进文本和视觉分支中表示之间的对齐，从而在通用知识和特定任务知识之间取得平衡。此外，为了减轻过拟合并增强泛化能力，我们引入了时空描述引导的一致性约束。这种约束包括将模板输入（即“{cls} 的视频”）馈送到可训练的语言分支，同时将LLM生成的时空描述输入到预训练的语言分支，强制两个分支的输出保持一致。这种机制可以防止对下游任务的过拟合，并提高可训练分支在时空语义空间中的可区分性。我们在四个任务上评估了我们方法的有效性：零样本迁移、小样本学习、基础到新颖的泛化以及全监督学习。与许多最先进的方法相比，我们的MSTA在所有评估中都取得了优异的性能，而只使用了原始模型中2-7%的可训练参数。代码将在 https://github.com/chenhaoxing/ETL4Video 上提供。
2024-11-17	Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection	null	动作检测旨在对视频中的人类动作进行时空上的检测（识别和定位）。现有方法主要集中在封闭集合设置，其中动作检测器在来自固定动作类别集合的视频上进行训练和测试。然而，这种受限的设置在开放世界中是不可行的，因为测试视频不可避免地会超出训练的动作类别。在本文中，我们解决了实际但具有挑战性的开放词汇动作检测 (OVAD) 问题。其目标是在固定动作类别集合上训练模型的同时检测测试视频中的任何动作。为了实现这种开放词汇能力，我们提出了一种名为 OpenMixer 的新方法，它利用了大型视觉语言模型 (VLM) 在基于查询的检测转换器 (DETR) 系列中固有的语义和可定位性。具体来说，OpenMixer 由空间和时间 OpenMixer 模块（S-OMB 和 T-OMB）以及一个动态融合对齐 (DFA) 模块组成。这三个组件共同享有预训练 VLM 的强泛化能力和 DETR 设计的端到端学习的优点。此外，我们建立了各种设置下的 OVAD 基准测试，实验结果表明，OpenMixer 在检测已见和未见动作方面优于基线方法。我们在 https://github.com/Cogito2012/OpenMixer 发布了代码、模型和数据集划分。
2024-11-15	LLaVA-o1: Let Vision Language Models Reason Step-by-Step	null	大型语言模型在推理能力方面展现出显著进步，尤其体现在推理时规模扩展上，例如OpenAI的o1模型。然而，当前的视觉语言模型（VLM）在执行系统性和结构化推理时常常遇到困难，尤其是在处理复杂的视觉问答任务时。在这项工作中，我们介绍了LLaVA-o1，一个旨在进行自主多阶段推理的新型VLM。与思维链提示不同，LLaVA-o1独立地进行摘要、视觉解释、逻辑推理和结论生成等连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度显著提高。为此，我们编译了LLaVA-o1-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化的推理标注。此外，我们提出了一种推理时阶段级集束搜索方法，实现了有效的推理时规模扩展。值得注意的是，仅使用10万个训练样本和一个简单而有效的推理时规模扩展方法，LLaVA-o1不仅在各种多模态推理基准测试中比其基础模型的性能提高了8.9%，而且还超过了更大甚至闭源模型的性能，例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
2024-11-15	SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning	link	现有的图像质量评估 (IQA) 方法在分析整体图像质量方面取得了显著成功，但很少有研究探索感兴趣区域 (ROI) 的质量分析。ROI 的质量分析可以为图像质量改进提供细粒度的指导，并且对于关注区域级质量的场景至关重要。本文提出了一种名为 SEAGULL 的新型网络，它可以借助大型视觉语言模型的指导来查看和评估 ROI 的质量。SEAGULL 结合了视觉语言模型 (VLM)、由 Segment Anything Model (SAM) 生成的用于指定 ROI 的掩码，以及精心设计的基于掩码的特征提取器 (MFE) 来提取指定 ROI 的全局和局部标记，从而实现对 ROI 的精确细粒度 IQA。此外，本文构建了两个基于 ROI 的 IQA 数据集，SEAGULL-100w 和 SEAGULL-3k，用于训练和评估基于 ROI 的 IQA。SEAGULL-100w 包含约 100 万张合成失真图像和 3300 万个 ROI，用于预训练以提高模型的区域质量感知能力，而 SEAGULL-3k 包含约 3000 个真实失真 ROI，以增强模型感知真实世界失真的能力。在 SEAGULL-100w 上进行预训练并在 SEAGULL-3k 上进行微调后，SEAGULL 在细粒度 ROI 质量评估方面展现出卓越的性能。代码和数据集已在 https://github.com/chencn2020/Seagull 公开发布。
2024-11-15	Federated Domain Generalization via Prompt Learning and Aggregation	link	联邦域泛化 (FedDG) 旨在通过解决隐私保护约束下的数据异构性来提高全局模型在未见域中的泛化能力。现有 FedDG 研究中的一种常见策略是在客户端之间共享特定域的知识，例如频谱信息、类别原型和数据风格。然而，这些知识是直接从本地客户端样本中提取的，共享此类敏感信息会带来数据泄露的潜在风险，这可能无法完全满足 FedDG 的要求。在本文中，我们引入了提示学习来适应 FedDG 场景下的预训练视觉语言模型 (VLM)，并利用本地学习的提示作为更安全的桥梁来促进客户端之间的知识转移。具体来说，我们提出了一个通过提示学习和聚合 (PLAN) 的新型 FedDG 框架，该框架包含两个训练阶段，在每个联邦轮次协同生成局部提示和全局提示。首先，每个客户端使用自己的数据执行文本和视觉提示学习，通过将全局提示作为共同参考来间接同步局部提示。其次，所有特定域的局部提示在客户端之间交换，并使用基于轻量级注意力的聚合器选择性地聚合到全局提示中。最终，全局提示被应用于使 VLM 适应未见的目标域。由于我们的 PLAN 框架只需要训练有限数量的提示和轻量级聚合器，因此它在 FedDG 的计算和通信效率方面具有显著优势。大量实验表明，PLAN 在四个基准数据集上具有优越的泛化能力。
2024-11-15	Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement	link	全切片图像（WSI）分析在医学影像领域日益受到重视。病理学基础模型的最新进展表明，其具有从WSI中提取强大的特征表示用于下游任务的潜力。然而，这些基础模型通常设计用于通用病理图像分析，对于特定的下游任务或癌症类型可能并非最佳选择。在这项工作中，我们提出了概念锚引导的任务特定特征增强（CATE），这是一个适应性强的范例，可以提高病理学基础模型针对特定下游任务的表现力和辨别力。基于一组从病理视觉语言模型中提取的、由专家设计的提示得到的任务特定概念，我们引入了两个相互关联的模块，以动态校准基础模型提取的通用图像特征，使其适用于特定任务或癌症类型。具体来说，我们设计了一个概念引导的信息瓶颈模块，通过最大化图像特征和概念锚之间的互信息，同时抑制多余信息，来增强与任务相关的特征。此外，我们还提出了一个概念-特征干扰模块，利用校准后的特征和概念锚之间的相似性，进一步生成具有辨别力的任务特定特征。在公共WSI数据集上的大量实验表明，CATE显着提高了MIL模型的性能和泛化能力。此外，热力图和umap可视化结果也揭示了CATE的有效性和可解释性。源代码可在https://github.com/HKU-MedAI/CATE获取。
2024-11-14	Cross-Modal Consistency in Multimodal Large Language Models	null	多模态方法的最新发展标志着模型处理各种数据类型（包括文本、音频和视觉内容）的新时代的开始。像GPT-4V这样将计算机视觉与高级语言处理相结合的模型，在处理需要同时理解文本和视觉信息的复杂任务方面表现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型（VLLM）在各种领域（包括目标检测、图像描述和其他相关领域）的有效性。然而，现有的分析往往存在局限性，主要集中在孤立地评估每种模态的性能，而忽略了探索它们复杂的跨模态交互。具体来说，这些模型在面对不同模态的相同任务实例时是否达到相同的准确度水平的问题仍然没有答案。在本研究中，我们主动通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣的模态之间的交互和比较。此外，我们提出了一个基于此概念的定量评估框架。我们从自己开发的一系列精选的平行视觉语言数据集中得出的实验结果表明，尽管GPT-4V被描述为一个统一的多模态模型，但其视觉和语言模态之间存在明显的不一致性。我们的研究揭示了此类模型的适当使用方法，并暗示了改进其设计的潜在途径。
2024-11-13	ClevrSkills: Compositional Language and Visual Reasoning in Robotics	null	机器人任务本质上是高度组合的。例如，要执行像清洁桌子这样的高级任务，机器人必须运用低级能力，将效应器移动到桌子上的物体，拾取它们，然后将它们一个个地从桌子上移开，同时在此过程中重新评估随之而来的动态场景。鉴于大型视觉语言模型 (VLM) 在许多需要高级、类人推理的任务上取得了进展，我们提出了这样一个问题：如果教会模型必要的低级能力，它们能否以新颖的方式组合这些能力来完成有趣的像清洁桌子这样的高级任务，而无需明确地教授？为此，我们提出了 ClevrSkills——一个用于机器人组合推理的基准套件。ClevrSkills 是一个基于 ManiSkill2 模拟器开发的环境套件以及一个伴随的数据集。该数据集包含在一系列机器人任务上生成的轨迹，带有语言和视觉注释以及作为任务规范的多模态提示。该套件包括一个包含三个级别的组合理解的任务课程，从需要基本运动技能的简单任务开始。我们在 ClevrSkills 上对多个不同的 VLM 基线进行了基准测试，并表明即使在大量任务上进行了预训练后，这些模型在机器人任务的组合推理上仍然失败。
2024-11-13	DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models	link	大型语言模型 (LLM) 在机器人系统中展现出显著的推理能力。然而，它们在多机器人系统中的部署仍然较为分散，难以处理复杂的依赖关系和并行执行。本研究介绍了 DART-LLM（基于依赖感知的多机器人任务分解和执行系统），旨在应对这些挑战。DART-LLM 利用 LLM 解析自然语言指令，将其分解为多个具有依赖关系的子任务，以建立复杂的任务序列，从而增强多机器人系统中的高效协调和并行执行。该系统包含问答LLM模块、分解函数模块、执行模块和基于视觉语言模型 (VLM) 的目标检测模块，支持将自然语言指令转换为机器人动作的任务分解和执行。实验结果表明，DART-LLM 擅长处理长周期任务和具有复杂依赖关系的协作任务。即使使用较小的模型（如 Llama 3.1 8B），该系统也能取得良好的性能，突出了 DART-LLM 在模型规模方面的鲁棒性。更多视频和代码，请访问项目网站：https://wyd0817.github.io/project-dart-llm/。
2024-11-13	The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models	null	最近的一些工作致力于开发专门用于医疗应用的基础模型，通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能，例如回答医学执照考试问题。在本文中，我们将十个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较，得出了不同的结论：所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 的零样本/少样本提示和监督微调机制中均未能持续改进其基准模型。例如，在我们考虑的 3 样本设置中的所有任务和模型对中，医学 LLM 仅在 22.7% 的情况下优于其基准模型，在 36.8% 的情况下达到（统计）持平，并且在其余 40.5% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较；(ii) 在零样本/少样本提示中分别优化每个模型的提示；以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中得到一致采用，但我们的消融研究表明它们会对结论产生重大影响。同时，我们发现，在针对特定 QA 任务进行微调后，医学 LLM 可以显示出性能改进，但这些好处并不会延续到基于临床记录的任务。我们的研究结果表明，最先进的通用领域模型可能已经展现出强大的医学知识和推理能力，并为加强未来研究的结论提供了建议。
2024-11-13	Sharingan: Extract User Action Sequence from Desktop Recordings	null	用户活动视频记录，尤其是桌面录屏，为理解用户行为和自动化流程提供了丰富的数据来源。然而，尽管视觉语言模型（VLM）取得了进步并在视频分析中得到越来越多的应用，但从桌面录屏中提取用户动作仍然是一个未被充分探索的领域。本文旨在弥补这一差距，提出了两种基于VLM的用户动作提取新方法：直接基于帧的方法（DF），将采样帧直接输入VLM；以及基于差异帧的方法（DiffF），它结合了通过计算机视觉技术检测到的帧间差异。我们使用一个基本的自建数据集和一个改编自先前工作的进阶基准来评估这些方法。结果表明，DF方法在识别用户动作方面达到了70%到80%的准确率，提取的动作序列可以通过机器人流程自动化（RPA）进行重放。我们发现，虽然VLM展现了潜力，但纳入显式的UI变化反而会降低性能，使得DF方法更加可靠。这项工作首次将VLM应用于从桌面录屏中提取用户动作序列，为未来的研究贡献了新的方法、基准和见解。
2024-11-13	Voxeland: Probabilistic Instance-Aware Semantic Mapping with Evidence-based Uncertainty Quantification	link	在以人为中心的场景中，机器人需要准确的场景理解才能有效地执行高级任务。这种理解可以通过实例感知语义建图来实现，它涉及在单个实例级别重建元素。神经网络作为场景理解的实际解决方案，仍然面临一些局限性，例如对分布外对象的过度自信的错误预测或生成不准确的掩码。过度依赖这些预测会使重建容易出错，降低最终地图的鲁棒性，并妨碍机器人的操作。在这项工作中，我们提出了Voxeland，一个用于增量构建实例感知语义地图的概率框架。受证据理论的启发，Voxeland将神经网络预测视为关于地图实例在几何和语义层面的主观意见。这些意见随着时间的推移聚合形成证据，并通过概率模型进行形式化。这使我们能够量化重建过程中的不确定性，从而有助于识别需要改进的地图区域（例如重新观察或重新分类）。作为利用这一点的一种策略，我们结合了一个大型视觉语言模型（LVLM）来对具有高不确定性的实例执行语义级别的消歧。在公开可用的SceneNN数据集上的标准基准测试结果表明，Voxeland优于最先进的方法，突出了结合和利用实例级和语义级不确定性来增强重建鲁棒性的好处。在真实世界的ScanNet数据集上进行的定性实验进一步验证了这一点。
2024-11-13	Retrieval Augmented Recipe Generation	null	鉴于从食物图像生成食谱的潜在应用，近年来该领域受到了研究人员的极大关注。现有的食谱生成工作主要采用两阶段训练方法，首先生成食材，然后从图像和食材中获取烹饪步骤。大型多模态模型 (LMM) 在各种视觉和语言任务中取得了显著成功，为直接从图像生成食材和步骤提供了新的思路。然而，LMM 在食谱生成过程中仍然面临常见的幻觉问题，导致性能欠佳。为了解决这个问题，我们提出了一种用于食谱生成的检索增强大型多模态模型。我们首先引入了随机多样化检索增强 (SDRA) 方法，从现有数据存储中检索与图像语义相关的食谱作为补充，将它们集成到提示中，为输入图像添加多样化和丰富的上下文。此外，我们提出了自一致性集成投票机制，以确定最置信的预测食谱作为最终输出。它计算生成的候选食谱之间的一致性，这些候选食谱使用不同的检索食谱作为生成上下文。大量实验验证了我们提出的方法的有效性，它在 Recipe1M 数据集上的食谱生成任务中展现了最先进 (SOTA) 的性能。
2024-11-13	Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints	null	基于互联网规模数据训练的基础模型，例如视觉语言模型 (VLM)，擅长执行涉及常识的任务，例如视觉问答。尽管它们能力非凡，但这些模型目前无法直接应用于需要复杂且精确的连续推理的挑战性机器人操作问题。任务和运动规划 (TAMP) 系统可以通过组合传统的原始机器人操作来控制高维连续系统进行长期规划。然而，这些系统需要机器人如何影响其环境的详细模型，这阻止它们直接解释和处理新的目标，例如，一个任意的自然语言目标。我们建议在 TAMP 系统内部署 VLM，让它们生成离散和连续的语言参数化约束，使 TAMP 能够推理开放世界概念。具体来说，我们提出了 VLM 部分规划算法，该算法约束 TAMP 系统的离散时间搜索和 VLM 连续约束解释，以增强 TAMP 系统寻求满足的传统操作约束。我们在两种机器人平台（包括一个真实世界的机器人）上通过几个操作任务演示了我们的方法，其中期望的目标仅通过语言传达。
2024-11-12	DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection	link	分布外 (OOD) 检测对于通过识别偏离训练分布的样本从而确保机器学习模型的鲁棒性至关重要。虽然传统的 OOD 检测主要关注单模态输入（例如图像），但多模态模型的最新进展已经证明了利用多模态（例如视频、光流、音频）来增强检测性能的潜力。然而，现有方法通常忽略分布内 (ID) 数据中的类内差异，假设同一类的样本完全一致且没有变化。这种假设会导致性能下降，尤其当预测差异在所有样本中被均匀放大时。为了解决这个问题，我们提出了动态原型更新 (DPU)，这是一个用于多模态 OOD 检测的即插即用框架，它考虑了类内变化。我们的方法通过测量每个批次中相似样本的方差来动态更新每个类的中心表示，从而实现自适应调整。这种方法允许我们根据更新的类中心放大预测差异，从而提高模型在不同模态下的鲁棒性和泛化能力。在两个任务、五个数据集和九个基础 OOD 算法上的大量实验表明，DPU 显着提高了 OOD 检测性能，在多模态 OOD 检测中树立了新的最先进水平，在远距离 OOD 检测中的改进高达 80%。为了促进可访问性和可重复性，我们的代码已在 GitHub 上公开发布。
2024-11-12	JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation	link	我们提出了JanusFlow，这是一个强大的框架，它在单个模型中统一了图像理解和生成。JanusFlow引入了一个极简的架构，它将自回归语言模型与校正流（一种最先进的生成建模方法）集成在一起。我们的主要发现表明，校正流可以直接在大型语言模型框架内进行训练，而无需复杂的架构修改。为了进一步提高我们统一模型的性能，我们采用了两个关键策略：（i）解耦理解编码器和生成编码器，以及（ii）在统一训练期间对齐它们的表示。大量实验表明，JanusFlow在其各自领域实现了与专用模型相当或更优的性能，同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈出的一步。
2024-11-12	SparrowVQE: Visual Question Explanation for Course Content Understanding	link	视觉问答 (VQA) 研究致力于创建能够回答图像中自然语言问题的 AI 系统，然而 VQA 方法通常只会产生过于简单和简短的答案。本文旨在通过引入视觉问题解释 (VQE) 来推进该领域的发展，VQE 增强了 VQA 提供详细解释而非简短回答的能力，并解决了对更复杂的视觉内容交互的需求。我们首先从一个为期 14 周的流媒体视频机器学习课程中创建了一个 MLVQE 数据集，其中包含 885 张幻灯片图像、110,407 个单词的转录文本和 9,416 个设计好的问答 (QA) 对。接下来，我们提出了一个新颖的 SparrowVQE 模型，这是一个仅有 30 亿参数的小型多模态模型。我们使用三阶段训练机制来训练我们的模型，包括多模态预训练（幻灯片图像和转录文本特征对齐）、指令微调（使用转录文本和问答对微调预训练模型）和领域微调（微调幻灯片图像和问答对）。最终，我们的 SparrowVQE 可以使用 SigLIP 模型理解和连接视觉信息，并使用带有 MLP 适配器的 Phi-2 语言模型处理转录文本。实验结果表明，我们的 SparrowVQE 在我们开发的 MLVQE 数据集中取得了更好的性能，并且在其他五个基准 VQA 数据集中优于最先进的方法。源代码可在 \url{https://github.com/YoushanZhang/SparrowVQE} 获取。
2024-11-11	Multimodal Fusion Balancing Through Game-Theoretic Regularization	null	多模态学习可以通过揭示数据源之间的关键依赖关系来完善信息提取的图景。然而，当前的系统未能充分利用多种模态以获得最佳性能。这归因于模态竞争，其中各种模态争夺训练资源，导致一些模态未得到充分优化。我们发现，当前的平衡方法难以训练出超越简单基线（例如集成模型）的多模态模型。这就提出了一个问题：我们如何确保多模态训练中的所有模态都得到充分训练，并且从新模态中学习能够持续提高性能？本文提出了多模态竞争正则化器 (MCR)，这是一种受互信息 (MI) 分解启发的新损失组件，旨在防止多模态训练中竞争的不利影响。我们的主要贡献是：1) 在多模态学习中引入博弈论原则，其中每种模态都充当一个参与者，竞争以最大化其对最终结果的影响，从而实现 MI 项的自动平衡。2) 细化每个 MI 项的下限和上限，以增强对跨模态的任务相关的独特信息和共享信息的提取。3) 建议使用潜在空间排列进行条件 MI 估计，从而显著提高计算效率。MCR 的性能优于所有先前建议的训练策略，并且是第一个持续改进多模态学习并超越集成模型基线的方法，清楚地表明结合多种模态可以在合成数据集和大型真实世界数据集上带来显著的性能提升。
2024-11-11	StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification	link	现有的大型视觉语言模型 (LVLM) 主要局限于处理短至几秒的视频，难以生成连贯的描述来概括长达几分钟或更长时间的视频。长视频描述引入了新的挑战，例如描述中跨情节级别的一致性。为了解决这些问题，我们确定了视听角色识别（将角色名称与每个对话匹配）是一个关键因素。我们提出了 StoryTeller，一个用于生成长视频密集描述的系统，它结合了低级视觉概念和高级情节信息。StoryTeller 使用集成了视觉、音频和文本模态的多模态大型语言模型，对长达几分钟的视频片段执行视听角色识别。然后将结果输入到 LVLM 中以增强视频描述的一致性。我们在电影描述任务上验证了我们的方法，并引入了 MovieStory101，一个包含三分钟电影片段密集描述的数据集。为了评估长视频描述，我们创建了 MovieQA，一个针对 MovieStory101 测试集的大型多项选择题集。我们通过将描述输入 GPT-4 来回答这些问题，并使用准确率作为自动评估指标来评估描述质量。实验表明，StoryTeller 在 MovieQA 上的性能优于所有开源和闭源基线模型，准确率比最强基线 Gemini-1.5-pro 高 9.5%，并且在人工并排评估中展现出 +15.56% 的优势。此外，结合 StoryTeller 的视听角色识别功能，所有视频描述模型的性能均有所提高，Gemini-1.5-pro 和 GPT-4o 在 MovieQA 上的准确率分别提高了 5.5% 和 13.0%。
2024-11-11	UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models	null	预训练的视觉语言模型（例如CLIP）已经展现出强大的零样本迁移能力。但是它们仍然难以应对领域迁移，并且通常需要标记数据来适应下游任务，这可能成本高昂。在这项工作中，我们旨在利用自然跨越多个领域的未标记数据来增强视觉语言模型的可迁移性。在这个无监督多领域设置下，我们发现了CLIP中固有的模型偏差，尤其是在其视觉和文本编码器中。具体来说，我们观察到CLIP的视觉编码器倾向于优先编码领域信息而不是区分性类别信息，同时其文本编码器表现出对领域相关类别的偏好。为了减轻这种模型偏差，我们提出了一种免训练且免标签的特征校准方法，即无监督多领域特征校准（UMFC）。UMFC从特定领域的特征估计图像级偏差，并从领域转换的方向估计文本级偏差。随后，这些偏差分别从原始图像和文本特征中减去，以使它们与领域无关。我们在多种设置（包括直推式学习和测试时适应）下评估了我们的方法。大量实验表明，我们的方法优于CLIP，并且性能与需要额外标注或优化的最先进方法相当。我们的代码可在https://github.com/GIT-LJc/UMFC获取。
2024-11-11	Renaissance: Investigating the Pretraining of Vision-Language Encoders	link	在过去几年中，用于视觉语言任务的可用模型数量激增。然而，现有文献仍然存在许多与设计和训练此类模型的最佳实践相关的问题。在本文中，我们试图通过元分析来回答几个与视觉语言编码器预训练相关的问题。在我们的第一组实验中，我们表明，通过在预训练期间冻结视觉语言模型的大部分，我们可以在不损失下游性能的情况下节省大量的计算资源。在我们的第二组实验中，我们研究了基于视觉模型与基于文本模型的视觉语言转换器的效果。此外，我们介绍了一个名为Renaissance的视觉语言建模平台，我们使用该平台进行所有实验。该程序为创建、训练和评估用于视觉语言建模的Transformer编码器提供了极大的灵活性。Renaissance的源代码可以在https://github.com/bsu-slim/renaissance找到。
2024-11-09	M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework	null	能够理解文档并回答相关问题的能力在许多商业和实际应用中都非常有用。然而，文档通常包含冗长且多样化的多模态内容，例如文本、图表和表格，这对于人类来说非常耗时。因此，迫切需要开发有效且自动的方法来帮助人类完成这项任务。在这项工作中，我们引入了M-LongDoc，一个包含851个样本的基准测试，以及一个用于评估大型多模态模型性能的自动化框架。我们进一步提出了一种检索感知的调整方法，以实现高效且有效的多模态文档阅读。与现有工作相比，我们的基准测试包含更新且更长的文档（数百页），同时也需要开放式答案，而不仅仅是提取式答案。据我们所知，我们的训练框架是第一个直接解决多模态长文档检索问题的框架。为了能够调整开源模型，我们以全自动的方式构建了一个用于此类文档问答任务的训练语料库。实验表明，与基线开源模型相比，我们的调整方法使模型响应的正确性提高了4.6%。我们的数据、代码和模型可在https://multimodal-documents.github.io获取。
2024-11-09	Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension	null	近年来，大型视觉语言模型（VLM）通过视觉指令微调在视觉语言能力方面取得了显著进展，在遥感图像解译领域展现出巨大的潜力。然而，现有的遥感视觉语言模型（RSVLM）通常难以捕捉遥感场景的复杂特征，因为它们通常依赖于低分辨率、单尺度的视觉特征以及将视觉特征映射到语言特征的简单方法。在本文中，我们提出了Aquila，一个先进的视觉语言基础模型，旨在实现更丰富的遥感图像视觉特征表示和更精确的视觉语言特征对齐。我们的方法引入了一个可学习的分层空间特征融合（SFI）模块，该模块支持高分辨率图像输入并聚合多尺度视觉特征，从而可以详细表示复杂的视觉信息。此外，SFI模块被反复集成到大型语言模型（LLM）的层中，以实现深度视觉语言特征对齐，而不会影响模型在自然语言处理任务中的性能。这些创新，通过更高分辨率和多尺度输入捕捉详细的视觉效果，并增强特征对齐，显著提高了模型从图像文本数据中学习的能力。我们通过广泛的定量实验和定性分析验证了Aquila的有效性，证明了其优越的性能。
2024-11-09	GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection	null	零样本异常检测 (ZSAD) 对于在没有训练样本的情况下检测目标数据集中的异常模式至关重要，尤其是在目标域和训练数据之间存在分布差异或由于访问限制导致数据稀缺的情况下。尽管最近预训练的视觉语言模型在各种视觉任务中展现出强大的零样本性能，但它们侧重于学习类别语义，这使得它们直接应用于 ZSAD 具有挑战性。为了解决这种情况，我们提出了 GlocalCLIP，它独特地分离全局和局部提示并对其进行联合优化。这种方法使得与对象无关的全局语义提示设计能够有效地捕获一般的正常和异常模式，而无需依赖图像中的特定对象。我们通过在文本编码器中利用深度文本提示调整来改进文本提示，以进行更精确的调整。在视觉编码器中，我们应用 V-V 注意力层来捕获详细的局部图像特征。最后，我们引入了全局对比学习来改进全局和局部提示的互补学习，从而有效地检测跨各个领域的异常模式。GlocalCLIP 在 ZSAD 中的泛化性能在来自工业和医疗领域的 15 个真实世界数据集上得到了证明，实现了优于现有方法的性能。
2024-11-09	An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models	link	大型多模态模型 (LMMs) 在各种视觉和语言任务中都取得了强大的性能。然而，它们的空间推理能力却缺乏研究。在本文中，我们构建了一个新颖的视觉问答数据集 Spatial-MM，以全面研究 LMMs 的空间理解和推理能力。我们对对象关系和多跳推理的分析揭示了几个重要发现。首先，边界框和场景图，即使是合成的，也可以显著增强 LMMs 的空间推理能力。其次，LMMs 在处理从人类视角提出的问题时，比从相机视角提出的问题更困难。第三，思维链 (CoT) 提示并不能提高模型在涉及空间关系的复杂多跳问题上的性能。最后，我们对 GQA-spatial 的扰动分析表明，LMMs 在基本物体检测方面比复杂空间推理方面更强。我们相信我们的基准数据集和深入分析可以激发对 LMMs 空间推理的进一步研究。Spatial-MM 基准数据集可在以下网址获取：https://github.com/FatemehShiri/Spatial-MM
2024-11-08	End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering	link	我们提出了VLMnav，这是一个将视觉语言模型（VLM）转换为端到端导航策略的具体化框架。与先前的工作不同，我们不依赖于感知、规划和控制之间的分离；相反，我们使用VLM一步直接选择动作。令人惊讶的是，我们发现VLM可以零样本地用作端到端策略，即无需任何微调或接触导航数据。这使得我们的方法具有开放性，并且可以泛化到任何下游导航任务。我们进行了广泛的研究，以评估我们的方法与基线提示方法相比的性能。此外，我们还进行了设计分析，以了解最具影响力的设计决策。我们项目的视觉示例和代码可以在https://jirl-upenn.github.io/VLMnav/找到。
2024-11-08	Towards Low-Resource Harmful Meme Detection with LMM Agents	link	在社交媒体时代，网络迷因的泛滥使得有效识别有害迷因成为必要。由于迷因的动态特性，现有的数据驱动模型在只有少量标记样本的低资源场景下可能会遇到困难。本文提出了一个基于代理的低资源有害迷因检测框架，利用少量标注样本进行外向和内向分析。受大型多模态模型 (LMM) 在多模态推理方面强大能力的启发，我们首先检索带有标注的相关迷因，以利用标签信息作为LMM代理的辅助信号。然后，我们引出LMM代理内部的知识修正行为，以获得对迷因有害性的良好泛化洞察。通过结合这些策略，我们的方法能够对复杂和隐含的危害指示模式进行辩证推理。在三个迷因数据集上进行的大量实验表明，我们提出的方法在低资源有害迷因检测任务上取得了优于现有最先进方法的性能。
2024-11-08	Enhancing Visual Classification using Comparative Descriptors	null	视觉语言模型（VLM），例如CLIP，在视觉分类任务中的性能已经通过利用来自大型语言模型（LLM）（包括GPT）的语义知识得到增强。最近的研究表明，在零样本分类任务中，包含附加线索、高级概念甚至随机字符的描述符通常优于仅使用类别名称的描述符。在许多分类任务中，虽然top-1准确率可能相对较低，但top-5准确率通常要高得多。这种差距意味着大多数错误分类发生在几个相似的类别之间，突出了模型难以区分具有细微差异的类别。为了应对这一挑战，我们引入了比较描述符的新概念。这些描述符强调目标类别与其最相似类别之间的独特特征，从而增强区分度。通过生成并将这些比较描述符整合到分类框架中，我们改进了语义焦点并提高了分类精度。额外的过滤过程确保这些描述符更接近CLIP空间中的图像嵌入，进一步提高了性能。我们的方法通过解决细微的类间差异这一特定挑战，提高了视觉分类任务的准确性和鲁棒性。
2024-11-08	Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation	link	隐性表征对齐已成为构建多模态大型语言模型 (MLLM) 的基础技术，它将不同模态的嵌入映射到共享空间，通常与大型语言模型 (LLM) 的嵌入空间对齐，以实现有效的跨模态理解。虽然初步的蛋白质导向 MLLM 已经出现，但它们主要依赖于启发式方法，缺乏对跨表征的最佳对齐实践的基本理解。在本研究中，我们探索了蛋白质领域中 LLM 和几何深度模型 (GDM) 之间多模态表征的对齐。我们全面评估了三个最先进的 LLM（Gemma2-2B、LLaMa3.1-8B 和 LLaMa3.1-70B）与四个蛋白质特化 GDM（GearNet、GVP、ScanNet、GAT）。我们的工作从模型和蛋白质角度检验对齐因素，确定当前对齐方法中的挑战，并提出改进对齐过程的策略。我们的主要发现表明，结合图和 3D 结构信息的 GDM 可以更好地与 LLM 对齐，更大的 LLM 表现出改进的对齐能力，蛋白质的稀有性会显着影响对齐性能。我们还发现，增加 GDM 嵌入维度、使用双层投影头以及在蛋白质特定数据上微调 LLM 可以显着提高对齐质量。这些策略为增强蛋白质相关多模态模型的性能提供了潜力。我们的代码和数据可在 https://github.com/Tizzzzy/LLM-GDM-alignment 获取。
2024-11-08	Real-World Offline Reinforcement Learning from Vision Language Model Feedback	null	离线强化学习可以在没有在线交互的情况下，利用预先收集的次优数据集进行策略学习。这使得它非常适合于现实世界的机器人和安全关键场景，在这些场景中，收集在线数据或专家演示缓慢、昂贵且有风险。然而，大多数现有的离线强化学习工作假设数据集已经被标注了任务奖励，这个过程通常需要大量的人工工作，尤其是在难以确定真实状态的情况下（例如，在现实世界中）。在本文中，我们基于先前的工作，特别是RL-VLM-F，提出了一个新颖的系统，该系统使用来自视觉语言模型的偏好反馈和任务的文本描述，自动为离线数据集生成奖励标签。然后，我们的方法使用带有奖励标签的数据集进行离线强化学习来学习策略。我们展示了该系统在复杂的现实世界机器人辅助穿衣任务中的适用性，我们首先使用视觉语言模型在次优离线数据集上学习奖励函数，然后使用学习到的奖励函数，采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及操纵刚性和可变形物体的仿真任务中也表现良好，并且显著优于行为克隆和逆强化学习等基线方法。总之，我们提出了一个新的系统，能够从未标记的、次优的离线数据集中自动进行奖励标记和策略学习。
2024-11-07	On Erroneous Agreements of CLIP Image Embeddings	null	最近的研究表明，视觉语言模型 (VLM) 在视觉推理方面的失败通常源于错误的一致性——语义上不同的图像被 CLIP 图像编码器模糊地编码为具有高余弦相似度的嵌入向量。在本文中，我们表明错误的一致性并不总是主要原因，因为多模态大型语言模型 (MLLM) 仍然可以从中提取不同的信息。例如，在 What'sUp 基准测试中区分左侧和右侧的物体时，左右对的 CLIP 图像嵌入向量的平均余弦相似度 >0.99，并且 CLIP 的性能与随机猜测相当；但是使用相同 CLIP 图像编码器的 LLaVA-1.5-7B 却达到了接近 100% 的准确率。我们发现 CLIP 图像嵌入向量中可提取的信息可能被 CLIP 不充分的视觉语言对齐所掩盖：其通过对比目标学习的匹配分数可能没有捕获所有不同的图像-文本对应关系。我们还研究了 MMVP 基准测试，先前的工作表明 LLaVA-1.5 无法区分具有高余弦相似度的图像对。我们观察到通过替代解码算法更多地关注视觉输入所带来的性能提升。此外，如果模型可以将两个图像都作为输入以强调它们细微的差异，则准确性会显着提高。这两项发现都表明 LLaVA-1.5 没有充分利用提取的视觉信息。总之，我们的研究结果表明，虽然改进图像编码器可能对 VLM 有利，但通过应用更好的提取和利用视觉信息的策略，仍然有提升使用固定图像编码器的模型的空间。
2024-11-07	DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation	link	在开放词汇移动操控领域，目标是让机器人根据自然语言描述在任何环境中执行任务，目前已取得重大进展。然而，大多数现有系统假设环境是静态的，这限制了系统在现实场景中的适用性，因为现实场景中环境会由于人为干预或机器人自身的行为而频繁变化。在这项工作中，我们提出了 DynaMem，一种用于开放世界移动操控的新方法，它使用动态时空语义记忆来表示机器人的环境。DynaMem 构建了一个 3D 数据结构来维护点云的动态记忆，并使用多模态大型语言模型或由最先进的视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。在 DynaMem 的支持下，我们的机器人可以探索新环境，搜索记忆中不存在的物体，并在场景中物体移动、出现或消失时不断更新记忆。我们在三个真实场景和九个离线场景中使用 Stretch SE3 机器人进行了大量实验，对非静止物体的平均拾取和放置成功率达到了 70%，比最先进的静态系统提高了 2 倍以上。我们的代码以及实验和部署视频已开源，可在我们的项目网站上找到：https://dynamem.github.io/
2024-11-07	Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs	null	随着大型语言模型 (LLM) 和多模态模型的里程碑式发展，我们看到将 LLM 应用于生化任务的热潮。利用图特征和分子文本表示，LLM 可以处理各种任务，例如预测化学反应结果和描述分子性质。然而，目前大多数工作忽略了图特征的多层次性。不同特征层次对 LLM 的影响以及每个层次的重要性仍未得到探索，而且不同的化学任务可能需要不同的特征层次。在这项工作中，我们首先通过融合 GNN 生成的特征标记来研究特征粒度的影响，发现即使将所有标记减少到单个标记也不会显着影响性能。然后，我们探索了不同特征级别对性能的影响，发现 LLM 生成分子的质量和不同任务的性能都受益于不同的特征级别。我们总结了两个关键见解：（1）当前的分子多模态 LLM (MLLM) 缺乏对图特征的全面理解，以及（2）静态处理不足以处理分层图特征。我们的代码即将公开发布。
2024-11-07	Vision Language Models are In-Context Value Learners	null	从视觉轨迹预测时间进度对于能够学习、适应和改进的智能机器人至关重要。然而，学习这种跨不同任务和领域的进度估计器或时间值函数，需要大量多样化的数据和可扩展且可泛化的学习方法。为了应对这些挑战，我们提出了生成式值学习（GVL），一种通用的值函数估计器，它利用视觉语言模型（VLM）中嵌入的世界知识来预测任务进度。简单地让VLM预测视频序列的值表现不佳，因为连续帧之间存在强烈的时序相关性。相反，GVL将值估计视为对打乱的视频帧进行时序排序的问题；这项看似更具挑战性的任务鼓励VLM更充分地利用其潜在的语义和时序基础能力来区分帧，基于其感知的任务进度，从而产生明显更好的值预测。无需任何机器人或特定任务的训练，GVL可以在上下文零样本和少样本情况下，对跨不同机器人平台的300多个不同的真实世界任务（包括具有挑战性的双手操作任务）预测有效值。此外，我们证明了GVL允许通过来自异构任务和实施例（例如人类视频）的示例进行灵活的多模态上下文学习。GVL的通用性使其能够应用于各种与视觉运动策略学习相关的下游应用，包括数据集过滤、成功检测和优势加权回归——所有这些都无需任何模型训练或微调。
2024-11-06	Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?	null	最近的一些工作致力于开发专门用于医疗应用的基础模型，通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能，例如回答医学执照考试问题。在本文中，我们将七个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较，得出了不同的结论：所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 任务的零样本/少样本提示机制下，均未能始终如一地改进其基准模型。例如，在我们考虑的 3 样本设置中的任务和模型对中，医学 LLM 仅在 12.1% 的情况下优于其基准模型，在 49.8% 的情况下达到（统计）持平，并且在其余 38.2% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较；(ii) 分别为每个模型优化提示；以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中始终如一地采用，但我们的消融研究表明，它们会对结论产生重大影响。我们的研究结果表明，最先进的通用领域模型可能已经展现出强大的医学知识和推理能力，并为加强未来研究的结论提供了建议。
2024-11-06	RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models	link	微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联，导致零样本测试性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作，而不是直接干预细粒度的图像特征，并且 (ii) 主要为单模态设置而设计。在这项工作中，我们提出了 RaVL，它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联，从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM，RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征，从而发现虚假关联。然后，RaVL 通过一种新颖的区域感知损失函数来减轻已识别的虚假关联，该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明，RaVL 能够准确地发现（比最接近的基线提高 191%）和减轻（最差组图像分类准确率提高 8.2%）虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。
2024-11-06	DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model	null	构思是基于视频的设计 (VBD) 的关键组成部分，其中视频是设计探索和灵感的首要媒介。生成式人工智能的出现为增强这一过程提供了巨大的潜力，它可以简化视频分析并促进创意生成。在本文中，我们提出了 DesignMinds，这是一个将最先进的视觉语言模型 (VLM) 与上下文增强的语言大模型 (LLM) 相结合的原型，以支持 VBD 中的构思。为了评估 DesignMinds，我们对 35 位设计从业者进行了一项受试者间研究，将其性能与基线条件进行了比较。我们的结果表明，DesignMinds 显着增强了构思的灵活性和原创性，同时也提高了任务参与度。重要的是，这项技术的引入并没有对用户体验、技术接受度或可用性产生负面影响。
2024-11-06	Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction	null	几何尺寸和公差 (GD&T) 通过定义零件特征的可接受偏差来确保组件质量和功能，在制造业中起着至关重要的作用。然而，从 2D 工程图中提取 GD&T 信息是一项耗时且劳动密集型的任务，通常依赖于手动工作或半自动化工具。为了应对这些挑战，本研究提出了一种通过微调 Florence-2（一种开源视觉语言模型 (VLM)）来自动化且高效地提取 GD&T 信息的方法。该模型在包含 400 张工程图的数据集上进行训练，其中真实标注由领域专家提供。为了进行比较，两个最先进的闭源 VLM，GPT-4o 和 Claude-3.5-Sonnet，也在同一数据集上进行了评估。所有模型均使用精确率、召回率、F1 值和幻觉指标进行评估。由于针对特定领域任务微调大型闭源 VLM 的计算成本和不切实际性，GPT-4o 和 Claude-3.5-Sonnet 在零样本设置下进行了评估。相比之下，Florence-2 拥有 2.3 亿个参数，是一个较小的模型，它通过在三个不同的实验中进行全参数微调来进行优化，每个实验都使用了不同程度增强的数据集。结果表明，与性能最佳的闭源模型相比，Florence-2 的精确率提高了 29.95%，召回率提高了 37.75%，F1 值提高了 52.40%，幻觉率降低了 43.15%。这些发现突出了微调较小的开源 VLM（如 Florence-2）的有效性，为自动化 GD&T 提取提供了一种实用且高效的解决方案，以支持下游制造任务。
2024-11-05	Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset	link	机器遗忘学习已成为一种在训练数据中遗忘特定信息的有效策略。然而，随着视觉数据集成度的提高，视觉语言模型 (VLM) 中的隐私问题仍未得到充分探索。为了解决这个问题，我们引入了面部身份遗忘基准 (FIUBench)，这是一个新颖的 VLM 遗忘学习基准，旨在稳健地评估“被遗忘权”设置下遗忘算法的有效性。具体来说，我们通过构建虚拟面部身份VQA数据集来制定VLM遗忘学习任务，并应用一个两阶段评估流程，旨在精确控制信息来源及其暴露程度。在评估方面，由于VLM支持使用具有相同语义的各种提问方式，我们还提供强大的评估指标，包括成员推理攻击和精心设计的对抗性隐私攻击，以评估算法的性能。通过在FIUBench内评估四个基线VLM遗忘学习算法，我们发现所有方法的遗忘学习性能仍然有限，在模型效用和遗忘质量之间存在显著的权衡。此外，我们的研究结果还强调了隐私攻击对于稳健评估的重要性。我们希望FIUBench能够推动开发更有效的VLM遗忘学习算法。
2024-11-05	VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation	link	随着大型语言模型 (LLM)、视觉语言模型 (VLM) 和其他通用基础模型的兴起，能够仅通过自然语言输入就在不同环境中运行的多模态、多任务具身代理的潜力越来越大。室内导航便是这种应用领域之一，它使用自然语言指令进行导航。然而，尽管最近取得了进展，但由于所需的空间推理和语义理解，这个问题仍然具有挑战性，尤其是在可能包含许多属于细粒度类别的物体的任意场景中。为了应对这一挑战，我们构建了用于三维场景视觉和语言引导动作的最大真实世界数据集 (VLA-3D)，其中包含来自现有数据集的超过 11.5K 个扫描三维室内房间、23.5M 个启发式生成的物体间语义关系和 9.7M 个综合生成的指称语句。我们的数据集包含处理过的三维点云、语义对象和房间注释、场景图、可导航自由空间注释以及专门关注用于消除对象歧义的视图无关空间关系的指称语言语句。这些特征旨在辅助下游导航任务，尤其是在真实世界系统中，在不断变化的场景和不完美语言的开放世界中必须保证一定程度的鲁棒性。我们使用当前最先进的模型对我们的数据集进行基准测试，以获得性能基线。生成和可视化数据集的所有代码都已公开发布，请参阅 https://github.com/HaochenZ11/VLA-3D。我们希望通过发布此数据集，为在对变化具有鲁棒性的语义三维场景理解方面取得进展提供资源，并有助于开发交互式室内导航系统。
2024-11-05	MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning	null	近年来，通用领域的多模态基准指导了通用任务多模态模型的快速发展。然而，金融领域具有其特殊性。它以独特的图形图像（例如， candlestick 图表、技术指标图表）为特征，并拥有丰富的专业金融知识（例如，期货、换手率）。因此，来自通用领域的基准通常无法衡量金融领域多模态模型的性能，从而无法有效指导大型金融模型的快速发展。为了促进大型金融多模态模型的发展，我们提出了 MME-Finance，一个面向实际应用的双语开放式视觉问答 (VQA) 基准。我们的基准的特点是金融性和专业性，其中包括构建反映用户实际使用需求的图表（例如，计算机屏幕截图和手机摄影）、根据金融领域查询的偏好创建问题，以及由具有 10 年以上金融行业经验的专家注释问题。此外，我们开发了一个定制的金融评估系统，在多模态评估过程中首先引入视觉信息。我们对 19 个主流多模态大语言模型 (MLLM) 进行了广泛的实验评估，以测试它们的感知、推理和认知能力。结果表明，在通用基准上表现良好的模型在 MME-Finance 上表现不佳；例如，表现最佳的开源和闭源模型分别获得 65.69 (Qwen2VL-72B) 和 63.18 (GPT-4o)。它们在与金融最相关的类别（例如 candlestick 图表和技术指标图表）中表现尤其差。此外，我们还提出了一个中文版本，有助于比较 MLLM 在中文语境下的性能。
2024-11-05	Inference Optimal VLMs Need Only One Visual Token but Larger Models	link	视觉语言模型 (VLM) 在各种视觉理解和推理任务中展现出强大的能力。然而，由于大型语言模型 (LLM) 处理大量输入标记（主要来自图像）所需的计算量巨大，导致推理过程中延迟较高，这常常限制了它们在现实世界的部署。为了降低推理成本，可以缩小 LLM 的规模或减少输入图像标记的数量，后者是最近许多关于标记压缩工作的重点。然而，由于这两个因素都直接影响 VLM 的性能，因此最佳的权衡策略尚不清楚。我们首先通过建立捕捉这两个因素的性能变化的缩放法则来描述视觉标记数量和 LLM 参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势：对于视觉推理任务，VLM 中推理最优的行为，即在任何给定的固定推理计算量下，下游误差最小，是在使用推理预算内最大的 LLM 的同时最小化视觉标记数量（通常减少到单个标记）时实现的。虽然标记减少的文献主要关注于通过适度减少标记数量（例如 5-10 倍）来保持基础模型的性能，但我们的结果表明，计算最优的推理机制需要在更高的标记压缩比下运行。基于这些见解，我们初步尝试构建针对高标记压缩设置的方法。代码可在 https://github.com/locuslab/llava-token-compression 获取。
2024-11-05	HumanVLM: Foundation for Human-Scene Vision-Language Model	null	人景视觉语言任务在各种社会应用中日益普及，但最近的进展主要依赖于专门为单个任务定制的模型。新兴研究表明，大型视觉语言模型 (VLM) 可以增强各种下游视觉语言理解任务的性能。然而，通用领域模型在特定领域通常表现不佳。本研究介绍了一个特定领域的大型视觉语言模型，即人景视觉语言模型 (HumanVLM)，旨在为人景视觉语言任务提供基础。具体而言，(1) 我们创建了一个大规模的人景多模态图文数据集 (HumanCaption-10M)，数据源自互联网，以促进特定领域的对齐；(2) 开发了一种以人为中心的图像的描述方法，捕捉人脸、身体和背景，并构建了一个高质量的人景图文数据集 (HumanCaptionHQ，约 31.1 万对)，其中包含尽可能详细的人物信息；(3) 使用 HumanCaption-10M 和 HumanCaptionHQ，我们训练了一个 HumanVLM。在实验中，我们随后在各种下游任务中评估了我们的 HumanVLM，它在同等规模的多模态模型中展现出优越的整体性能，尤其在与人类相关的任务中表现出色，并显著优于类似模型，包括 Qwen2VL 和 ChatGPT-4o。HumanVLM 以及引入的数据将促进人类相关领域的研究。
2024-11-05	Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning	null	多模态情感分析（MSA）是一项重要的研究领域，旨在通过多种模态理解和识别人类情感。多模态融合提供的补充信息促进了情感分析，使其比仅利用单一模态更有效。然而，在实际应用中，许多不可避免的因素可能导致模态不确定缺失的情况，从而阻碍多模态建模的有效性并降低模型的性能。为此，我们针对模态不确定缺失情况下的MSA任务提出了一种分层表示学习框架（HRLF）。具体来说，我们提出了一个细粒度的表示分解模块，通过跨模态翻译和情感语义重建将模态分解为情感相关和模态特定的表示，从而充分提取有价值的情感信息。此外，我们引入了一种分层互信息最大化机制，以增量方式最大化多尺度表示之间的互信息，从而对齐和重建表示中的高层语义。最后，我们提出了一种分层对抗学习机制，进一步对齐和调整情感相关表示的潜在分布，以生成鲁棒的联合多模态表示。在三个数据集上的综合实验表明，HRLF在模态不确定缺失的情况下显著提高了MSA性能。
2024-11-05	DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark	link	随着大型视觉语言模型（LVLMs）的快速发展，这些模型在各种多模态任务中展现出优异的成果。由于LVLMs容易出现幻觉，且目前针对遥感的专用数据集和评估方法较少，因此它们在应用于遥感任务时的性能通常较差。为了解决这些问题，本文介绍了一个高质量的遥感LVLMs数据集DDFAV，该数据集是使用数据增强和数据混合策略创建的。接下来，基于从所提出的数据集中选择的一些高质量遥感图像生成了一套训练指令集。最后，我们基于所提出的数据集开发了一种遥感LVLMs幻觉评估方法RSPOPE，并评估了不同LVLMs的零样本能力。我们提出的数据集、指令集和评估方法文件可在https://github.com/HaodongLi2024/rspope获取。
2024-11-04	INQUIRE: A Natural World Text-to-Image Retrieval Benchmark	link	我们推出了INQUIRE，这是一个文本到图像检索基准测试，旨在挑战多模态视觉语言模型在专家级查询上的能力。INQUIRE包含iNaturalist 2024 (iNat24)，这是一个包含五百万张自然世界图像的新数据集，以及250个专家级检索查询。这些查询与iNat24中所有相关的图像进行了全面配对和标注，总共包含33,000个匹配项。查询涵盖物种识别、环境、行为和外观等类别，强调需要细致的图像理解和领域专业知识的任务。我们的基准测试评估了两个核心检索任务：(1) INQUIRE-Fullrank，一个全数据集排序任务，以及 (2) INQUIRE-Rerank，一个用于改进top-100检索结果的重排序任务。对一系列最新多模态模型的详细评估表明，INQUIRE提出了一个重大挑战，即使是最佳模型也未能达到50%以上的mAP@50。此外，我们还展示了使用更强大的多模态模型进行重排序可以提高检索性能，但仍有很大的改进空间。INQUIRE专注于具有科学动机的生态挑战，旨在弥合人工智能能力与现实世界科学探究需求之间的差距，鼓励开发能够协助加速生态和生物多样性研究的检索系统。我们的数据集和代码可在https://inquire-benchmark.github.io获取。
2024-11-04	One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	null	视觉语言模型（VLMs）在利用网络规模多模态数据集的视觉问答（VQA）任务中展现出巨大的潜力。然而，这些模型在适应新任务时，由于灾难性遗忘，往往难以进行持续学习。作为缓解灾难性遗忘的有效补救措施，复习策略在学习新任务时会使用过去任务的数据。然而，这种策略需要存储过去的数据，这由于硬件限制或隐私问题可能并不可行。在这项工作中，我们提出了第一个无数据方法，它利用VLM的语言生成能力（而不是依赖外部模型）来生成伪复习数据，以解决持续VQA问题。我们的方案名为GaB，它通过对新任务数据提出先前任务的问题来生成伪复习数据。然而，尽管有效，但由于训练数据有限且特定于任务，生成问题的分布会偏向于最常提出的问题。为了缓解这个问题，我们引入了一个伪复习平衡模块，它使用问题元统计或无监督聚类方法将生成的数据与真实数据分布对齐。我们在两个最近的基准测试集上评估了我们提出的方法，即VQACL-VQAv2和CLOVE-function基准测试集。GaB 的性能优于所有无数据基线，在跨不断变化的任务中保持 VQA 性能方面有了实质性的改进，同时与可以访问过去数据的方法不相上下。
2024-11-04	TableGPT2: A Large Multimodal Model with Tabular Data Integration	link	像GPT、Claude、LLaMA和Qwen这样的模型的出现重塑了人工智能应用，为各行各业带来了巨大的新机遇。然而，尽管表格数据在众多现实领域中发挥着基础性作用，但其与这些模型的集成仍然明显不足。这种差距之所以至关重要，主要有三个原因。首先，数据库或数据仓库的数据集成对于高级应用至关重要；其次，大量且很大程度上尚未开发的表格数据资源提供了巨大的分析潜力；第三，商业智能领域尤其需要适应性强、精确的解决方案，而许多目前的LLM可能难以提供。为此，我们推出了TableGPT2，这是一个经过严格预训练和微调的模型，使用了超过593.8万个表格和236万个高质量的查询-表格-输出元组，其表格相关数据的规模在以往的研究中是前所未有的。这种广泛的训练使TableGPT2能够在以表格为中心的任务中表现出色，同时保持强大的通用语言和编码能力。TableGPT2的关键创新之一是其新颖的表格编码器，专门设计用于捕获模式级和单元格级信息。这种编码器增强了模型处理现实应用中常见的歧义查询、缺失列名和不规则表格的能力。与视觉语言模型类似，这种开创性的方法与解码器集成，形成了一个强大的大型多模态模型。我们相信结果令人信服：在23个基准测试指标中，TableGPT2在7B模型和72B模型上分别比之前的基准中性LLM平均性能提高了35.20%和49.32%，同时保持了强大的通用能力。
2024-11-04	Foundations and Recent Trends in Multimodal Mobile Agents: A Survey	link	移动代理是复杂和动态移动环境中自动化任务的关键。随着基础模型的发展，对能够实时适应和处理多模态数据的代理的需求也在增长。本综述全面回顾了移动代理技术，重点关注增强实时适应性和多模态交互的最新进展。最近开发的评估基准可以更好地捕捉移动任务的静态和交互环境，从而更准确地评估代理的性能。我们将这些进展分为两种主要方法：基于提示的方法，它利用大型语言模型（LLM）进行基于指令的任务执行；以及基于训练的方法，它对多模态模型进行微调以适应移动特定应用。此外，我们还探讨了增强代理性能的补充技术。通过讨论关键挑战并概述未来的研究方向，本综述为推进移动代理技术提供了宝贵的见解。综合资源列表可在 https://github.com/aialt/awesome-mobile-agents 获取。
2024-11-03	EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark	null	近期对大型语言模型 (LLM) 和大型多模态模型 (LMM) 的研究表明，它们在科学和数学等各个领域都展现出 promising 的技能。然而，它们在更具挑战性和现实世界相关场景（如工程）中的能力尚未得到系统研究。为了弥合这一差距，我们提出了 EEE-Bench，这是一个多模态基准测试，旨在评估 LMM 解决实际工程任务的能力，使用电气与电子工程 (EEE) 作为测试平台。我们的基准测试包含 2860 个精心策划的问题，涵盖 10 个重要子领域，例如模拟电路、控制系统等。与其他领域的基准测试相比，工程问题的本质是 1) 视觉上更复杂和多样化，2) 解决方案更不确定。成功解决这些问题通常需要比以往更严格地整合视觉和文本信息，因为模型需要理解复杂的图像（如抽象电路和系统图），同时还要考虑专业指令，这使得它们成为 LMM 评估的绝佳候选者。除了 EEE-Bench，我们还提供了对 17 种广泛使用的开源和闭源 LLM 和 LMM 的广泛定量评估和细粒度分析。我们的结果表明，当前基础模型在 EEE 方面存在显著缺陷，平均性能范围为 19.48% 至 46.78%。最后，我们揭示并探讨了 LMM 的一个关键缺点，我们称之为“懒惰”：在对技术图像问题进行推理时，倾向于走捷径，依赖文本而忽略视觉上下文。总之，我们相信 EEE-Bench 不仅揭示了 LMM 的一些值得注意的局限性，而且为推进其在实际工程任务中应用的研究提供了宝贵的资源，推动其处理复杂现实场景的能力的未来改进。
2024-10-31	$π_0$ : A Vision-Language-Action Flow Model for General Robot Control	null	机器人学习拥有巨大潜力，可以释放灵活、通用和灵巧机器人系统的全部潜能，并解决人工智能领域一些最深层次的问题。然而，要将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着重大障碍。在本文中，我们讨论了通才机器人策略（即机器人基础模型）如何应对这些挑战，以及我们如何为复杂且高度灵巧的任务设计有效的通才机器人策略。我们提出了一种构建于预训练视觉语言模型 (VLM) 之上的新型流匹配架构，以继承互联网规模的语义知识。然后，我们讨论了如何使用来自多个灵巧机器人平台（包括单臂机器人、双臂机器人和移动机械手）的大型多样化数据集来训练该模型。我们评估了模型在预训练后零样本执行任务的能力、遵循来自人类和高级 VLM 策略的语言指令的能力，以及通过微调获取新技能的能力。我们的结果涵盖了各种各样的任务，例如叠衣服、清洁桌子和组装盒子。
2024-10-31	Exploring Vision Language Models for Facial Attribute Recognition: Emotion, Race, Gender, and Age	null	人脸属性识别技术，例如种族、性别、年龄和情绪识别，在监控、广告内容、情感分析以及人口趋势和社会行为研究等领域拥有广泛的应用。基于图像分析人口统计特征和面部表情分析由于人脸属性的复杂性而面临诸多挑战。传统方法采用卷积神经网络（CNN）和其他各种深度学习技术，并在大量标记图像上进行训练。虽然这些方法展现出有效性能，但仍有进一步提升的空间。在本文中，我们提议利用视觉语言模型（VLM），例如生成式预训练Transformer（GPT）、GEMINI、大型语言和视觉助手（LLAVA）、PaliGemma和Microsoft Florence2，从人脸图像中识别种族、性别、年龄和情绪等面部属性。我们使用了各种数据集，如FairFace、AffectNet和UTKFace来评估这些方案。结果表明，VLM与传统技术相比，即使不优越，也具有竞争力。此外，我们提出了“FaceScanPaliGemma”——一个微调的PaliGemma模型——用于种族、性别、年龄和情绪识别。结果显示，在种族、性别、年龄组和情绪分类方面，其准确率分别为81.1%、95.8%、80%和59.4%，优于预训练版本的PaliGemma、其他VLM和SotA方法。最后，我们提出了“FaceScanGPT”，这是一个GPT-4o模型，用于在图像中存在多个人时，使用针对具有特定面部和/或身体属性的人设计的提示来识别上述属性。结果强调了FaceScanGPT卓越的多任务处理能力，仅使用提示即可驱动检测和识别任务，检测个体的属性，如发型、服装颜色、姿势等。
2024-10-31	Nearest Neighbor Normalization Improves Multimodal Retrieval	link	多模态模型利用大规模预训练在图像描述、视觉问答和跨模态检索等任务上取得了显著但仍不完美的性能。本文提出了一种简单有效的方法，无需额外训练即可纠正已训练的对比图像-文本检索模型中的错误，称为最近邻归一化 (NNN)。我们展示了在我们测试的所有对比模型（CLIP、BLIP、ALBEF、SigLIP、BEiT）以及我们使用的两个数据集（MS-COCO 和 Flickr30k）上，文本检索和图像检索指标均有所改进。NNN 需要一个参考数据库，但不需要对该数据库进行任何训练，甚至可以在模型微调后提高其检索精度。
2024-10-31	Bayesian-guided Label Mapping for Visual Reprogramming	link	视觉重编程（VR）利用预训练视觉模型的内在能力，通过调整其输入或输出接口来解决下游任务，这些任务的标签（即下游标签）可能与预训练模型相关的标签（即预训练标签）完全不同。在调整输出接口时，标签映射方法通过在下游标签和预训练标签之间建立一个无梯度的一对一对应关系，将预训练标签转换为下游标签。然而，在本文中，我们揭示了一对一映射可能忽略了预训练标签和下游标签之间的复杂关系。基于这一观察，我们提出了一种贝叶斯引导的标签映射（BLM）方法。BLM构建了一个迭代更新的概率标签映射矩阵，其中每个元素量化了预训练标签和下游标签之间的成对关系。该矩阵值的分配由贝叶斯条件概率引导，考虑了预训练模型对下游样本预测的标签和下游标签的联合分布。在预训练视觉模型（例如ResNeXt）和视觉语言模型（例如CLIP）上进行的实验表明，BLM的性能优于现有的标签映射方法。BLM的成功也提供了一个概率视角，可以用来理解和分析VR的有效性。我们的代码可在https://github.com/tmlr-group/BayesianLM获取。
2024-10-31	EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection	link	在零样本设置下检测人与物体交互 (HOI) 是一个巨大的挑战，模型必须处理未见过的类别。现有方法依赖于将视觉编码器与大型视觉语言模型 (VLM) 对齐以利用 VLM 的广泛知识，这需要大型的、计算成本高的模型，并且会遇到训练困难。使用提示学习调整 VLM 提供了直接对齐的替代方案。然而，由于缺乏未见类别的标签，在特定任务数据集上进行微调通常会导致对已见类别的过拟合以及对未见类别的次优性能。为了应对这些挑战，我们引入了一种新的基于提示学习的框架，用于高效的零样本 HOI 检测 (EZ-HOI)。首先，我们引入了大型语言模型 (LLM) 和 VLM 指导的可学习提示，整合详细的 HOI 描述和视觉语义，以使 VLM 适应 HOI 任务。然而，由于训练数据集仅包含已见类别的标签，因此在此类数据集上微调 VLM 往往会针对已见类别而不是未见类别优化可学习提示。因此，我们利用来自相关已见类别信息的提示学习来处理未见类别，并利用 LLM 突出显示未见类别与相关已见类别之间的差异。在基准数据集上的定量评估表明，我们的 EZ-HOI 在各种零样本设置下均实现了最先进的性能，与现有方法相比，仅使用了 10.35% 到 33.95% 的可训练参数。代码可在 https://github.com/ChelsieLei/EZ-HOI 获取。
2024-10-31	Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP	null	像CLIP这样的大型预训练视觉语言模型已展现出良好的泛化能力，但在专业领域（例如卫星图像）或细粒度分类（例如汽车型号）中可能会遇到困难，因为这些视觉概念在预训练期间未出现或未得到充分体现。提示学习提供了一种参数高效的微调框架，即使在标注数据有限的情况下也能使CLIP适应下游任务。在本文中，我们通过从自然语言提示（人工生成或LLM生成）中提取文本知识来改进提示学习，从而为这些未得到充分体现的概念提供丰富的先验知识。我们首先通过学习的提示聚合器获得与每个输入图像对齐的提示“摘要”。然后，我们联合训练一个提示生成器，使其生成的提示嵌入尽可能接近聚合的摘要，同时最小化任务损失。我们将这种提示嵌入称为聚合和自适应提示嵌入（AAPE）。AAPE被证明能够泛化到不同的下游数据分布和任务，包括视觉语言理解任务（例如，少样本分类、VQA）和生成任务（图像描述），并在这些任务中取得了具有竞争力的性能。我们还表明，AAPE对于处理非规范和OOD样本特别有帮助。此外，AAPE学习消除了基线方法所需的基于LLM的推理成本，并且可以更好地扩展数据和LLM模型规模。
2024-10-31	SuctionPrompt: Visual-assisted Robotic Picking with a Suction Cup Using Vision-Language Models and Facile Hardware Design	null	大型语言模型和视觉语言模型 (VLM) 的发展使得机器人在各个领域的应用日益增多。然而，如何将这些模型有效地整合到现实世界的机器人任务中是一个关键挑战。我们开发了一个名为 SuctionPrompt 的多功能机器人系统，该系统利用 VLM 的提示技术结合 3D 检测来执行在多样化和动态环境中的产品拾取任务。我们的方法强调了将 3D 空间信息与自适应行动规划相结合的重要性，使机器人能够在新的环境中接近和操纵物体。在验证实验中，该系统准确选择了 75.4% 的吸取点，并在拾取常见物品方面达到了 65.0% 的成功率。这项研究突出了 VLM 在机器人操纵任务中的有效性，即使只进行简单的 3D 处理。
2024-10-30	CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP	null	机器遗忘（MU）作为一种无需完全重新训练即可从训练模型中移除特定数据的方法，受到了广泛关注。尽管在文本和图像分类等单模态领域取得了进展，但多模态模型中的遗忘研究仍然相对不足。本研究致力于解决CLIP（一种对齐视觉和文本表示的杰出多模态模型）中遗忘带来的独特挑战。我们引入了CLIPErase，这是一种新颖的方法，可以解开并选择性地遗忘视觉和文本关联，确保遗忘不会损害模型性能。CLIPErase由三个关键模块组成：遗忘模块，用于破坏遗忘集中样本的关联；保留模块，用于保持模型在保留集上的性能；以及一致性模块，用于维护与原始模型的一致性。在CIFAR-100和Flickr30K数据集上，针对四个CLIP下游任务进行的大量实验表明，CLIPErase可以有效地遗忘零样本任务中多模态样本的指定关联，同时在遗忘后保持模型在保留集上的性能。
2024-10-30	EMMA: End-to-End Multimodal Model for Autonomous Driving	null	我们推出了EMMA，一个用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上，可将原始摄像头传感器数据直接映射到各种驾驶专用输出，包括规划轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入（例如导航指令和车辆自身状态）和输出（例如轨迹和3D位置）表示为自然语言文本，最大限度地利用了预训练大型语言模型的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用特定于任务的提示生成每个任务的输出。根据经验，我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo Open Motion Dataset (WOMD) 上取得有竞争力的结果来证明EMMA的有效性。EMMA还在Waymo Open Dataset (WOD) 上的摄像头主要3D目标检测中取得了有竞争力的结果。我们表明，使用规划轨迹、目标检测和道路图任务对EMMA进行联合训练可以在所有三个领域带来改进，突出了EMMA作为自动驾驶应用通用模型的潜力。然而，EMMA也存在某些局限性：它只能处理少量图像帧，不包含LiDAR或雷达等精确的3D传感模态，并且计算成本高昂。我们希望我们的研究结果能够激励进一步的研究来缓解这些问题，并进一步发展自动驾驶模型架构的最新技术。
2024-10-30	Keypoint Abstraction using Large Models for Object-Relative Imitation Learning	null	泛化到不同任务和环境中的新颖物体配置和实例是机器人技术中的一个关键挑战。基于关键点的表示已被证明是一种有效且简洁的表示方法，可以捕获重要的物体特征，并在动作预测中建立参考框架，从而实现数据高效的机器人技能学习。然而，它们的手动设计性质以及对额外人工标签的依赖限制了它们的可扩展性。在本文中，我们提出了KALM，一个利用大型预训练视觉语言模型 (LM) 自动生成与任务相关且跨实例一致的关键点的框架。KALM 通过使用 LM 生成关键点提议并根据少量机器人演示数据验证它们，从而提取跨视图和物体的鲁棒且一致的关键点。基于生成的关键点，我们可以训练以关键点为条件的策略模型，该模型可以在以关键点为中心的框架中预测动作，使机器人能够有效地泛化到不同的物体姿态、相机视角和具有相似功能形状的物体实例。我们的方法在现实世界中展现出强大的性能，只需少量演示即可适应不同的任务和环境，并且不需要额外的标签。网站：https://kalm-il.github.io/
2024-10-29	Natural Language Inference Improves Compositionality in Vision-Language Models	null	视觉语言模型 (VLM) 的组合推理仍然具有挑战性，因为这些模型通常难以关联对象、属性和空间关系。最近的方法旨在通过依赖文本描述的语义来解决这些限制，使用大型语言模型 (LLM) 将其分解为问题和答案的子集。然而，这些方法主要在表面层面运作，未能融入更深层次的词汇理解，同时引入了由 LLM 生成的错误假设。为了应对这些问题，我们提出了“基于矛盾和蕴涵的标题扩展 (CECE)”方法，这是一种利用自然语言推理 (NLI) 从给定前提生成蕴涵和矛盾的原则性方法。CECE 生成词汇多样化的句子，同时保持其核心含义。通过广泛的实验，我们表明 CECE 增强了可解释性并减少了对有偏差或肤浅特征的过度依赖。通过平衡 CECE 和原始前提，我们在无需额外微调的情况下实现了比先前方法的显著改进，在用于评估图像-文本对齐一致性的人类判断基准测试中取得了最先进的结果，并在 Winoground 上实现了 +19.2%（组得分）的性能提升，在 EqBen 上实现了 +12.9%（组得分）的性能提升，超过了之前的最佳工作（使用目标数据进行微调）。
2024-10-29	Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving	link	端到端自动驾驶凭借大规模数据展现出强大的规划能力，但在复杂和罕见场景下仍因缺乏常识而难以应对。相比之下，大型视觉语言模型（LVLM）擅长场景理解和推理。未来的方向在于融合两者的优势。以往使用LVLM预测轨迹或控制信号的方法效果欠佳，因为LVLM不适合进行精确的数值预测。本文提出Senna，一个结合了LVLM（Senna-VLM）和端到端模型（Senna-E2E）的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM用自然语言生成规划决策，而Senna-E2E预测精确的轨迹。Senna-VLM利用多图像编码方法和多视角提示词来实现高效的场景理解。此外，我们引入了面向规划的问答以及三阶段训练策略，这增强了Senna-VLM的规划性能，同时保留了常识。在两个数据集上的大量实验表明，Senna实现了最先进的规划性能。值得注意的是，通过在大型数据集DriveX上进行预训练并在nuScenes上进行微调，Senna相比未经预训练的模型显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们相信Senna的跨场景泛化能力和可迁移性对于实现完全自动驾驶至关重要。代码和模型将在https://github.com/hustvl/Senna发布。
2024-10-29	ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	link	多模态系统在辅助人类执行程序性活动方面具有巨大潜力，在这些活动中，人们遵循指令以实现其目标。尽管应用场景多种多样，但系统通常在传统的分类任务上进行评估，例如动作识别或时间动作分割。在本文中，我们提出了一个新的评估数据集ProMQA，用于衡量系统在面向应用场景中的进展。ProMQA包含401个多模态程序性问答对，基于用户录制的程序性活动及其相应的指令。对于问答标注，我们采用了一种经济高效的人机协作方法，其中利用LLM生成的、随后经人工验证的问答对来扩充现有标注。然后，我们提供了基准测试结果，以设定ProMQA的基线性能。我们的实验揭示了人类表现与当前系统（包括具有竞争力的专有多模态模型）之间存在显著差距。我们希望我们的数据集能够揭示模型多模态理解能力的新方面。
2024-10-29	Active Learning for Vision-Language Models	null	像CLIP这样的预训练视觉语言模型（VLM）在一系列下游计算机视觉任务中展现了令人印象深刻的零样本性能。然而，这些模型与在下游数据集上训练的有监督深度模型之间仍然存在相当大的性能差距。为了弥合这一差距，我们提出了一种新的主动学习（AL）框架，通过仅从未标记数据中选择少量信息丰富的样本进行标注来增强VLM的零样本分类性能。为了实现这一点，我们的方法首先校准VLM的预测熵，然后利用自不确定性和邻居感知不确定性的组合来计算可靠的不确定性度量，用于主动样本选择。我们的大量实验表明，所提出的方法在多个图像分类数据集上优于现有的AL方法，并显著提高了VLM的零样本性能。
2024-10-29	Are VLMs Really Blind	link	视觉语言模型擅长处理各种复杂任务，包括光学字符识别 (OCR)、视觉问答 (VQA) 和高级几何推理。然而，这些模型在人类特别容易掌握的低级基本视觉任务中表现不佳。我们这项工作的目标是确定这些模型是否真的对几何推理“视而不见”，或者是否存在增强其在这方面能力的方法。我们的工作提出了一种新颖的自动流水线，旨在根据特定问题从图像中提取关键信息。我们没有仅仅依赖直接的 VQA，而是使用从问题中提取的关键词来创建一个标题，突出显示图像中与问题相关的重要的细节。然后，语言模型使用此标题来提供对问题的精确答案，而无需外部微调。
2024-10-29	Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications	link	大型语言模型 (LLM) 在回答问题方面展现出令人印象深刻的能力，但它们缺乏特定领域的知识，并且容易出现幻觉。检索增强生成 (RAG) 是解决这些挑战的一种方法，而多模态模型正在成为处理文本和图像方面很有前途的 AI 助手。在本文中，我们描述了一系列实验，旨在确定如何将多模态模型最好地集成到工业领域的 RAG 系统中。这些实验的目的是确定在工业领域的文件中包含图像以及文本是否会提高 RAG 性能，并找到这种多模态 RAG 系统的最佳配置。我们的实验包括两种图像处理和检索方法，以及两种用于答案合成的 LLM（GPT4-Vision 和 LLaVA）。这些图像处理策略涉及使用多模态嵌入和从图像生成文本摘要。我们使用 LLM 作为评判者的方法来评估我们的实验。我们的结果表明，多模态 RAG 可以胜过单模态 RAG 设置，尽管图像检索比文本检索更具挑战性。此外，利用图像的文本摘要与使用多模态嵌入相比，提供了一种更有希望的方法，为未来的进步提供了更多机会。
2024-10-29	Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models	link	由于预训练视觉语言模型（例如CLIP）令人印象深刻的零样本能力，它们吸引了广泛关注并在各个领域得到应用。然而，CLIP已被观察到容易受到对抗样本的攻击。通过实验分析，我们观察到一个现象：对抗扰动会导致文本引导的注意力发生偏移。基于这一观察，我们提出了一个简单而有效的策略：文本引导注意力零样本鲁棒性（TGA-ZSR）。该框架包含两个组件：注意力细化模块和基于注意力的模型约束模块。我们的目标是保持CLIP模型的泛化能力并增强其对抗鲁棒性：注意力细化模块将通过对抗样本从目标模型获得的文本引导注意力与通过干净样本从原始模型获得的文本引导注意力对齐。这种对齐增强了模型的鲁棒性。此外，基于注意力的模型约束模块使用干净样本从目标模型和原始模型获取文本引导注意力。其目标是保持模型在干净样本上的性能，同时增强整体鲁棒性。实验验证，我们的方法在16个数据集上，将零样本鲁棒精度比当前最先进的技术提高了9.58%。我们的代码可在https://github.com/zhyblue424/TGA-ZSR获取。
2024-10-29	AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	link	大型视觉语言模型（LVLMs）已成为推进视觉和语言信息融合的关键，促进了各种复杂应用和任务的发展。然而，LVLMs 的评估面临着重大挑战，因为评估基准的构建总是需要大量的人力成本，并且一旦构建完成就保持静态，缺乏灵活性。尽管在文本模态中已经探索了自动评估，但视觉模态仍然缺乏研究。因此，在这项工作中，我们提出了一个问题：“LVLMs 能否成为自动基准测试的途径？”. 我们引入了 AutoBench-V，这是一个用于按需进行评估的自动化框架，即基于模型能力的特定方面对 LVLMs 进行基准测试。在接收到评估能力后，AutoBench-V 利用文本到图像模型生成相关的图像样本，然后利用 LVLMs 来编排视觉问答（VQA）任务，从而高效灵活地完成评估过程。通过对七个流行的 LVLMs 在五个用户输入（即评估能力）上的广泛评估，该框架展现了有效性和可靠性。我们观察到以下几点：（1）我们构建的基准准确地反映了不同的任务难度；（2）随着任务难度的增加，模型之间的性能差距会扩大；（3）虽然模型在抽象层面的理解上表现出很强的性能，但在细节推理任务中表现不佳；（4）构建具有不同难度级别的 datasets 对于全面彻底的评估至关重要。总的来说，AutoBench-V 不仅成功地利用 LVLMs 进行自动基准测试，还揭示了 LVLMs 作为评估者的巨大潜力。
2024-10-28	Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines	link	搜索引擎能够通过文本检索未知信息。然而，传统方法在理解不熟悉的视觉内容方面存在不足，例如识别模型从未见过的物体。对于大型视觉语言模型 (VLM) 来说，这一挑战尤为突出：如果模型没有接触过图像中描绘的物体，它就难以针对用户关于该图像的问题生成可靠的答案。此外，由于新的物体和事件不断涌现，频繁更新VLM由于沉重的计算负担而变得不切实际。为了解决这一限制，我们提出了视觉搜索助手 (Vision Search Assistant)，一个促进VLM和网络代理之间协作的新框架。该方法利用VLM的视觉理解能力和网络代理的实时信息访问能力，通过网络执行开放世界检索增强生成。通过这种协作集成视觉和文本表示，即使图像对系统来说是新颖的，模型也可以提供有根据的响应。在开放集和封闭集问答基准上进行的大量实验表明，视觉搜索助手显著优于其他模型，并且可以广泛应用于现有的VLM。
2024-10-28	Zero-Shot Action Recognition in Surveillance Videos	null	公共场所日益增长的监控需求对人力资源短缺带来了重大挑战。当前基于人工智能的视频监控系统严重依赖需要大量微调的核心计算机视觉模型，而由于数据集有限且设置困难（视角、低质量等），这在监控环境中尤其困难。在本研究中，我们提出利用以强大的零样本和小样本泛化能力而闻名的大型视觉语言模型 (LVLM) 来处理监控中的视频理解任务。具体来说，我们探索了最先进的 LVLM VideoLLaMA2 和一种改进的标记级采样方法——自反射采样 (Self-ReS)。我们在 UCF-Crime 数据集上的实验表明，VideoLLaMA2 代表了零样本性能的显著飞跃，比基线提高了 20%。Self-ReS 还将零样本动作识别性能提高到 44.6%。这些结果突出了 LVLM 与改进的采样技术相结合在推进各种场景下的监控视频分析方面的潜力。
2024-10-25	Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models	null	大型视觉语言模型 (LVLM) 擅长跨模态任务，但在长上下文推理中表现不佳，因为它过度依赖文本信息而降低了对视觉的依赖。在本研究中，我们对 LVLM 在长上下文推理中的表现进行了实证分析，结果表明，随着上下文长度的增加，模型对语言的依赖程度会提高，而对视觉的依赖程度会降低。为了解决这个问题，我们提出了一种新的无需训练的上下文剪枝方法，该方法可以有选择地删除不太重要的文本信息。我们的方法增强了视觉依赖性并减少了文本噪声，从而提高了 LVLM 在长上下文推理中的性能。我们通过构建一个长上下文数据集来验证我们方法的有效性，并在各种 LVLM 上证明了其有效性。此外，进一步的分析证实了不同标记剪枝策略的鲁棒性，并初步探讨了剪枝率与上下文长度之间的比例关系。
2024-10-25	OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization	link	大型语言和多模态模型的快速发展引发了人们对使用 GPT-4o 等专有模型开发能够处理现实世界场景（如网页导航）的自主代理的浓厚兴趣。尽管最近的开源工作试图赋予代理探索环境并随着时间的推移不断改进的能力，但他们是在奖励信号明确定义的合成环境中构建纯文本代理。此类代理难以泛化到需要多模态感知能力且缺乏真实信号的现实环境中。在本文中，我们介绍了一个开源框架，旨在促进多模态 Web 代理的开发，该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型以获得基本能力。然后，我们让代理探索开放网络并收集对其轨迹的反馈。之后，它通过学习另一个通用模型判断的良好表现轨迹来进一步改进其策略。这种探索-反馈-优化循环可以持续多次迭代。实验结果表明，我们的 Web 代理在每次迭代后都成功地自我改进，在多个测试集中表现出强大的性能。
2024-10-25	GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing	link	探测地理景观中的时间变化对于环境监测和城市规划等应用至关重要。虽然遥感数据丰富，但现有的视觉语言模型 (VLM) 通常无法有效捕捉时间动态。本文通过引入一个带注释的视频帧对数据集来解决这些限制，以跟踪随时间推移而演变的地理模式。通过在 Video-LLaVA 和 LLaVA-NeXT-Video 等模型上使用低秩自适应 (LoRA)、量化 LoRA (QLoRA) 和模型剪枝等微调技术，我们显著提高了 VLM 处理遥感时间变化的性能。结果表明，性能得到显著提升，最佳性能的 BERT 得分为 0.864，ROUGE-1 得分为 0.576，在描述土地利用转变方面表现出卓越的准确性。
2024-10-25	COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training	link	FP8训练已成为提高训练效率的一种很有前景的方法。现有框架通过将FP8计算应用于线性层来加速训练，同时将优化器状态和激活保持在更高的精度，但这未能完全优化内存使用。本文介绍了COAT（压缩优化器状态和激活以进行FP8训练），这是一种新颖的FP8训练框架，旨在显着减少训练大型模型时的内存占用。COAT通过两项关键创新解决了当前的局限性：(1) 动态范围扩展，它使优化器状态分布更接近FP8表示范围，从而减少量化误差，以及(2) 混合粒度激活量化，它结合每张量和每组量化策略来优化激活内存。实验表明，与BF16相比，COAT有效地将端到端训练内存占用减少了1.54倍，同时在各种任务（如大型语言模型预训练和微调以及视觉语言模型训练）中实现了几乎无损的性能。与BF16相比，COAT还实现了1.43倍的端到端训练加速，性能与TransformerEngine的加速相当或优于后者。COAT能够在更少的GPU上对大型模型进行高效的全参数训练，并在分布式训练环境中将批大小翻倍，为扩展大规模模型训练提供了一种实用的解决方案。代码可在https://github.com/NVlabs/COAT获取。
2024-10-25	Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting	null	视觉语言模型，例如 CLIP，在使用适当的文本描述时表现出令人印象深刻的泛化能力。虽然在下游标记数据上优化提示已被证明可以有效提高性能，但这些方法需要承担注释的人工成本，并且受其质量的限制。此外，由于 CLIP 是在高度不平衡的网络规模数据上预先训练的，因此它存在固有的标签偏差，导致性能欠佳。为了应对上述挑战，我们提出了一个免标签的提示分布学习和偏差校正框架，称为 Frolic，它可以在不需要标记数据的情况下提高零样本性能。具体来说，我们的 Frolic 学习提示原型的分布以捕获不同的视觉表示，并通过置信度匹配自适应地将这些表示与原始 CLIP 融合。通过免标签的 logits 调整来校正标签偏差，进一步增强了这个融合模型。值得注意的是，我们的方法不仅无需训练，而且还避免了超参数调整的必要性。跨 16 个数据集的大量实验结果证明了我们方法的有效性，特别是使用 CLIP ViT-B/16 在 10 个数据集上的性能平均优于最先进方法 2.6%，并在 ImageNet 及其五个分布偏移上使用 CLIP ViT-B/16 实现了平均 1.5% 的优势。代码可在 https://github.com/zhuhsingyuu/Frolic 获取。
2024-10-24	Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant	link	我们重新审视了基于知识的文本视觉问答，也称为 Text-KVQA，并结合大型多模态模型 (LMM) 的最新进展，做出了以下贡献：(i) 我们提出了 VisTEL——一种执行视觉文本实体链接的原则性方法。所提出的 VisTEL 模块利用最先进的视觉文本识别引擎和大规模多模态模型的能力，使用从图像中的周围线索获得的文本和视觉上下文进行联合推理，将视觉文本实体链接到正确的知识库实体。(ii) 我们介绍了 KaLMA——一种知识感知的大型多模态助手，它使用与图像中的视觉文本实体相关的知识来增强 LMM，以获得准确的答案。此外，我们还提供了我们的方法与传统视觉问答、大型多模态模型之前的模型、大型多模态模型以及先前表现最佳的方法的全面实验分析和比较。在 Text-KVQA 的三个拆分上的平均值，我们提出的方法比之前的最佳方法在绝对规模上大幅提高了 23.3%，并建立了新的最先进水平。我们将公开我们的实现。
2024-10-24	VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks	null	视频常被用于学习或提取完成任务所需的信息，其方式不同于仅凭文本和静态图像所能提供的。然而，许多现有的智能体基准测试忽略了长上下文视频理解，而是专注于文本或静态图像输入。为了弥合这一差距，我们引入了 VideoWebArena (VideoWA)，这是一个用于评估长上下文多模态智能体视频理解能力的基准测试。VideoWA 由 2,021 个基于人工制作的视频教程的网络智能体任务组成，总计近四个小时的内容。对于我们的基准测试，我们定义了长上下文视频智能体任务的分类法，主要关注两个方面：技能保留和事实保留。技能保留任务评估智能体是否可以使用给定的人类演示有效地完成任务，而事实保留任务评估智能体是否可以从视频中检索与指令相关的信息以完成任务。我们发现，最佳模型在事实保留任务上的成功率为 13.3%，在事实保留问答对上的成功率为 45.8%，远低于人类分别为 73.9% 和 79.3% 的表现。在技能保留任务上，长上下文模型在使用教程的情况下比不使用教程的情况下表现更差，WebArena 任务的性能下降了 5%，VisualWebArena 任务的性能下降了 10.3%。我们的工作强调了提高长上下文多模态模型的智能体能力的必要性，并为未来长上下文视频智能体的开发提供了一个测试平台。
2024-10-24	CAMEL-Bench: A Comprehensive Arabic LMM Benchmark	link	近年来，开发能够执行各种视觉推理和理解任务的大型多模态模型 (LMM) 引起了人们的极大兴趣。这导致引入了多个 LMM 基准来评估 LMM 在不同任务上的表现。然而，大多数现有的 LMM 评估基准主要以英语为中心。在这项工作中，我们为阿拉伯语开发了一个全面的 LMM 评估基准，以代表超过 4 亿人口。拟议的基准测试名为 CAMEL-Bench，包括八个不同的领域和 38 个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害和基于遥感的土地利用理解，以评估广泛的场景泛化性。我们的 CAMEL-Bench 包含大约 29,036 个问题，这些问题是从更大的样本池中筛选出来的，其质量由母语人士手动验证，以确保可靠的模型评估。我们对闭源（包括 GPT-4 系列）和开源 LMM 进行了评估。我们的分析表明，需要进行重大改进，尤其是在最佳开源模型中，即使是闭源 GPT-4o 也仅获得了 62% 的总体得分。我们的基准测试和评估脚本是开源的。
2024-10-24	Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques	null	认知能力下降是衰老的自然组成部分，通常会导致认知能力下降。然而，在某些情况下，这种下降更为明显，通常是由于阿尔茨海默病等疾病。早期发现异常的认知能力下降至关重要，因为它可以促进及时的专业干预。虽然医学数据可以帮助进行这种检测，但它通常涉及侵入性程序。另一种方法是采用非侵入性技术，例如语音或笔迹分析，这些技术不一定会影响日常活动。本综述回顾了使用深度学习技术来自动化认知能力下降估计任务的最相关方法，包括音频、文本和视觉处理。我们讨论了每种模式和方法的关键特征和优势，包括最先进的方法，如Transformer架构和基础模型。此外，我们还介绍了整合不同模态以开发多模态模型的工作。我们还重点介绍了最重要的数据集以及使用这些资源的研究的量化结果。从这次审查中得出了一些结论。在大多数情况下，文本模态取得了最佳结果，并且与检测认知能力下降最相关。此外，将来自单个模态的各种方法组合成多模态模型始终如一地提高了几乎所有场景下的性能。
2024-10-24	Zero-shot Object Navigation with Vision-Language Models Reasoning	null	物体导航对于机器人至关重要，但传统方法需要大量的训练数据，并且无法泛化到未知环境。零样本物体导航 (ZSON) 旨在解决这一挑战，使机器人能够在没有特定训练数据的情况下与未知物体进行交互。语言驱动的零样本物体导航 (L-ZSON) 是 ZSON 的扩展，它结合了自然语言指令来指导机器人导航和与物体交互。在本文中，我们提出了一种新颖的视觉语言模型，该模型具有用于 L-ZSON 的思维树网络 (VLTNet)。VLTNet 包含四个主要模块：视觉语言模型理解、语义映射、思维树推理和探索以及目标识别。在这些模块中，思维树 (ToT) 推理和探索模块作为核心组件，创新地使用 ToT 推理框架在机器人探索过程中进行导航边界选择。与没有推理的传统边界选择相比，使用 ToT 推理的导航涉及多路径推理过程并在必要时进行回溯，从而能够进行全局信息的决策，并具有更高的准确性。在 PASTURE 和 RoboTHOR 基准测试上的实验结果表明，我们的模型在 LZSON 中表现出色，特别是在涉及复杂自然语言作为目标指令的场景中。
2024-10-24	Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data	null	视觉语言模型（VLM）最近取得了显著进展，但开源指令数据的规模和质量有限，阻碍了它们的性能，使其与闭源模型相比存在差距。在这项工作中，我们通过引入 Infinity-MM 来解决这个限制，Infinity-MM 是一个包含 4000 万个样本的大规模多模态指令数据集，通过严格的质量过滤和去重进行了增强。我们还提出了一种基于开源 VLM 的合成指令生成方法，使用详细的图像标注和多样化的问题生成。利用这些数据，我们训练了一个 20 亿参数的 VLM，Aquila-VL-2B，在类似规模的模型中实现了最先进的（SOTA）性能。这表明扩大指令数据和生成合成数据可以显著提高开源模型的性能。
2024-10-24	Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics	null	传统上，风格主要从颜色、笔触和光照等艺术元素方面来考虑。然而，相同的语义主题，例如人、船和房屋，在不同的艺术传统中可以有很大的差异，这表明风格也包含了潜在的语义。因此，在本研究中，我们提出了一种用于协调语义的图像变化的零样本方案。具体来说，我们的方案将图像到图像的问题转化为图像到文本到图像的问题。图像到文本的操作采用视觉语言模型（例如BLIP）来生成描述输入图像内容的文本，包括对象及其位置。随后，将输入的风格关键词详细描述，然后使用ChatGPT的推理能力将其与内容文本合并。最后，文本到图像的操作利用Diffusion模型根据文本提示生成图像。为了使Diffusion模型能够适应更多风格，我们提出了一种微调策略，将文本和风格约束注入到交叉注意力中。这确保了输出图像在所需的风格中展现出相似的语义。为了验证所提出方案的性能，我们构建了一个包含各种风格和场景图像的基准，并引入了两个新的指标。尽管简单，但我们的方案以零样本的方式产生了高度合理的结果，尤其是在生成具有高保真语义的风格化图像方面。
2024-10-23	R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models	link	现有的多模态大模型 (LMMs) 在数学几何推理方面表现不佳，原因是缺乏高质量的图文配对数据。当前的几何数据生成方法，无论是应用预设模板生成几何数据还是使用大型语言模型 (LLMs) 改写问答 (Q&A)，都不可避免地限制了数据的准确性和多样性。为了合成更高质量的数据，我们提出了一个两阶段逆向思维链 (R-CoT) 几何问题生成流程。首先，我们引入了 GeoChain 来生成高保真几何图像以及相应的描述，突出几何元素之间的关系。然后，我们设计了一种逆向问答方法，该方法基于描述逐步推理，并从推理结果反向生成问题。实验表明，所提出的方法为多个 LMM 基准模型带来了显著且一致的改进，在 2B、7B 和 8B 设置中均达到了新的性能记录。值得注意的是，R-CoT-8B 在 MathVista 和 GeoQA 上分别显著优于先前最先进的开源数学模型 16.6% 和 9.2%，同时还超过了闭源模型 GPT-4o 在这两个数据集上的平均性能 13%。代码可在 https://github.com/dle666/R-CoT 获取。
2024-10-23	Lightweight Neural App Control	null	本文介绍了一种名为“app agents”的新型手机控制架构，用于在各种安卓应用之间进行高效的交互和控制。所提出的轻量多模态应用控制 (LiMAC) 将文本目标和一系列过去的移动观察（例如屏幕截图和相应的 UI 树）作为输入，以生成精确的操作。为了解决智能手机固有的计算限制，我们在 LiMAC 中引入了一个小型动作转换器 (AcT)，并将其与微调的视觉语言模型 (VLM) 集成，以实现实时决策和任务执行。我们在两个开源移动控制数据集上评估了 LiMAC，证明了我们的小尺寸方法优于开源 VLM（例如 Florence2 和 Qwen2-VL）的微调版本。它也明显优于利用闭源基础模型（如 GPT-4o）的提示工程基线。更具体地说，与微调的 VLM 相比，LiMAC 将整体动作准确率提高了 19%，与提示工程基线相比提高了 42%。
2024-10-23	MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models	link	视觉偏好对齐涉及训练大型视觉语言模型 (LVLM) 来预测人类对视觉输入的偏好。这通常是通过使用已标记的选中/拒绝图像对数据集并采用直接偏好优化 (DPO) 等优化算法来实现的。现有的视觉对齐方法主要针对单图像场景而设计，由于缺乏多样化的训练数据以及标注选中/拒绝图像对的高成本，难以有效处理多图像任务的复杂性。我们提出了多图像增强直接偏好优化 (MIA-DPO)，这是一种可以有效处理多图像输入的视觉偏好对齐方法。MIA-DPO 通过使用以网格拼贴或画中画格式排列的无关图像来扩展单图像数据，从而缓解了多样化多图像训练数据的稀缺性，显著降低了与多图像数据标注相关的成本。我们的观察表明，LVLM 的注意力值在不同图像之间存在很大差异。我们使用注意力值来识别和过滤掉模型可能错误关注的已拒绝响应。我们基于注意力值的策略选择构建选中/拒绝图像对，无需依赖 (i) 人工标注，(ii) 额外数据，以及 (iii) 外部模型或 API。MIA-DPO 与各种架构兼容，并且在五个多图像基准测试中优于现有方法，在 LLaVA-v1.5 上平均性能提升 3.0%，在最近的 InternLM-XC2.5 上平均性能提升 4.3%。此外，MIA-DPO 对模型理解单图像的能力的影响微乎其微。
2024-10-22	JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation	null	加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。在本文中，我们介绍了 JMMMU（日语 MMMU），这是第一个基于日本文化背景、旨在评估 LMM 在专家级任务上表现的大规模日语基准测试。为了促进全面的文化感知评估，JMMMU 包含两个互补的子集：(i) 文化无关 (CA) 子集，其中选择与文化无关的学科（例如数学）并将其翻译成日语，以便与对应的英语 MMMU 进行一对一比较；以及 (ii) 文化特定 (CS) 子集，包含反映日本文化背景的新创建学科。使用 CA 子集，我们观察到许多 LMM 在日语评估中性能下降，这完全归因于语言差异。使用 CS 子集，我们揭示了它们对日本文化理解的不足。此外，通过结合两个子集，我们发现一些 LMM 在 CA 子集上表现良好，但在 CS 子集上表现不佳，这暴露了它们对日语的理解肤浅，缺乏文化深度的理解。我们希望这项工作不仅有助于提升 LMM 在日语方面的性能，还能作为创建用于多语言 LMM 开发的高标准、文化多样化基准测试的指南。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。
2024-10-22	PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction	link	在大型视觉语言模型 (LVLMs) 中，图像作为输入承载着丰富的信息。正如谚语“一图胜千言”所言，在当前的 LVLMs 中表示单个图像可能需要数百甚至数千个标记。这导致了巨大的计算成本，并且随着输入图像分辨率的增加呈二次方增长，从而严重影响训练和推理的效率。以前的方法试图在 LVLMs 的早期层之前或之内减少图像标记的数量。然而，这些策略不可避免地会导致关键图像信息的丢失，最终降低模型性能。为了应对这一挑战，我们进行了一项实证研究，表明所有视觉标记对于 LVLMs 的浅层都是必要的，而标记冗余在模型的深层逐渐增加。为此，我们提出了 PyramidDrop，一种 LVLMs 的视觉冗余减少策略，以提高其训练和推理效率，且性能损失可忽略不计。具体来说，我们将 LVLM 划分为几个阶段，并在每个阶段的末尾以预定义的比率丢弃部分图像标记，从而在模型层中创建金字塔状的视觉标记。丢弃操作基于轻量级的相似度计算，时间开销可以忽略不计。大量实验表明，PyramidDrop 可以使 LLaVA-NeXT 的训练时间缩短 40%，推理 FLOPs 减少 55%，且性能相当。此外，PyramidDrop 还可以作为即插即用的推理加速策略，无需训练，即可获得比同类方法更好的性能和更低的推理成本。我们希望 PyramidDrop 引入的见解和方法能够激励未来的研究，进一步探索图像标记在 LVLMs 中的作用。
2024-10-22	An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions	null	CG（计算机图形学）是 CS（计算机科学）中的一个热门领域，但许多学生发现这门课程很难，因为它需要大量的技能，如数学、编程、几何推理和创造力。在过去几年中，研究人员一直在探索利用生成式人工智能 (GenAI) 的力量来改进教学的方法。在计算机科学领域，许多研究都集中在计算机入门教育上。最近一项评估大型语言模型 (LLM) GPT-4（仅限文本）在 CG 问题上的表现的研究表明，GPT-4 的表现不佳，并且依赖于对图像内容的详细描述，这通常需要用户具备相当多的洞察力才能返回合理的结果。到目前为止，还没有研究调查过大型多模态模型 (LMM) 或多模态 LLM 解决 CG 问题的能力，以及如何利用这些能力来改进教学。在本研究中，我们构建了两个 CG 问题数据集，这些问题需要不同程度的视觉感知能力和几何推理能力，并评估了当前最先进的 LMM GPT-4o 在这两个数据集上的表现。我们发现，尽管 GPT-4o 在独立解决带有视觉信息的问题方面展现出巨大潜力，但在生成结果的准确性和质量方面仍然存在重大局限性。我们为 CG 教育工作者提出了一些新颖的方法，以便将生成式人工智能融入到 CG 教学中，尽管存在这些限制。我们希望，我们的指导方针能进一步鼓励 CG 课堂的学习和参与。
2024-10-22	MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model	null	电影海报对于吸引观众、传达主题和推动电影行业的市场竞争至关重要。虽然传统的设计费时费力，但智能生成技术可以提高效率并增强设计效果。尽管图像生成取得了令人兴奋的进展，但目前的模型在生成令人满意的海报结果方面往往存在不足。主要问题在于缺乏专门的海报数据集来进行有针对性的模型训练。在这项工作中，我们提出了一个电影海报数据集 (MPDS)，专为文本到图像生成模型量身定制，旨在彻底改变海报制作。MPDS 专注于海报，据我们所知，它是第一个图像-文本对数据集，由 37.3 万多个图像-文本对和 8 千多张演员图像（涵盖 4 千多名演员）组成。详细的海报描述，例如电影标题、类型、演员阵容和概要，都根据公开的电影概要（也称为电影概要提示）进行了精心组织和标准化。为了充实海报描述并减少与电影概要的差异，我们进一步利用大型视觉语言模型自动为每个海报生成视觉感知提示，然后进行手动校正并与电影概要提示相结合。此外，我们引入了海报标题提示，以展示海报中的文本元素，如演员姓名和电影标题。对于电影海报生成，我们开发了一个多条件扩散框架，将海报提示、海报标题和演员图像（用于个性化）作为输入，通过学习扩散模型产生出色的结果。实验表明，我们提出的 MPDS 数据集在推进个性化电影海报生成方面具有重要价值。MPDS 可在 https://anonymous.4open.science/r/MPDS-373k-BD3B 获取。
2024-10-21	DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding	null	文档结构编辑涉及根据用户请求操作文档图像中的局部文本、视觉和布局组件。过去的研究表明，用户请求在文档图像中的多模态 grounding 以及准确识别结构组件及其相关属性仍然是这项任务的关键挑战。为了解决这些问题，我们引入了 DocEdit-v2，这是一个利用大型多模态模型 (LMM) 执行端到端文档编辑的新框架。它包含三个新组件：(1) Doc2Command，它同时定位感兴趣的编辑区域 (RoI) 并将用户编辑请求分解为编辑命令；(2) 基于 LLM 的命令重构提示，将最初为专业软件设计的编辑命令定制为适合通才 LMM 的编辑指令。(3) 此外，DocEdit-v2 通过 GPT-4V 和 Gemini 等大型多模态模型处理这些输出，以解析文档布局、对 grounded 感兴趣区域 (RoI) 执行编辑并生成编辑后的文档图像。在 DocEdit 数据集上的大量实验表明，DocEdit-v2 在编辑命令生成 (2-33%)、RoI 边界框检测 (12-31%) 和整体文档编辑 (1-12%) 任务上明显优于强大的基线。
2024-10-21	Promoting cross-modal representations to improve multimodal foundation models for physiological signals	null	许多医疗保健应用本质上是多模态的，涉及多种生理信号。随着这些信号的传感器变得越来越普遍，改进针对多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是取得成功的有希望的途径。然而，在医疗保健领域开发基础模型的方法仍处于早期探索阶段，并且尚不清楚鉴于生理信号的多样性，哪种预训练策略最有效。这在一定程度上是由于多模态健康数据方面的挑战：获取许多患者的数据既困难又昂贵，受试者之间存在很大差异，并且模态在下游任务中的信息量通常存在异质性。在这里，我们在 PhysioNet 2018 数据集中探讨了这些挑战。我们使用掩蔽自动编码目标来预训练多模态模型。我们证明了该模型学习到的表示可以被线性探测用于各种下游任务。我们假设跨模态重建目标对于成功的多模态训练很重要，因为它们鼓励模型整合跨模态的信息。我们证明了输入空间中的模态丢失可以提高下游任务的性能。我们还发现，使用对比学习目标预训练的后期融合模型在多个任务中的效果较差。最后，我们分析了模型的表示，表明注意力权重通过我们的预训练策略变得更加跨模态和时间对齐。就每个单元编码的模态而言，学习到的嵌入也变得更加分散。总的来说，我们的工作证明了多模态基础模型对健康数据的效用，即使是在不同的生理数据源中也是如此。我们进一步认为，用于诱导跨模态的显式方法可以增强多模态预训练策略。
2024-10-21	VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use	null	虽然视觉语言模型 (VLM) 在结合文本和视觉信息的各种任务中表现出卓越的性能，但它们在需要详细像素级分析的细粒度视觉感知任务中仍然面临挑战。如何有效地从 VLM 中引出对此类复杂视觉元素的全面推理仍然是一个开放的挑战。在本文中，我们提出了 VipAct，这是一个通过集成多智能体协作和视觉专家模型来增强 VLM 的智能体框架，从而实现更精确的视觉理解和更全面的推理。VipAct 由一个协调器智能体和一些专门的智能体组成，协调器智能体负责任务需求分析、规划和协调，而专门的智能体则处理图像字幕等特定任务，以及提供高精度感知信息的视觉专家模型。这种多智能体方法允许 VLM 通过协同规划、推理和工具使用来更好地执行细粒度视觉感知任务。我们在具有一组不同视觉感知任务的基准测试中评估了 VipAct，实验结果表明，在所有任务中，与最先进的基线相比，性能都有显著提高。此外，全面的消融研究揭示了多智能体协作在引出更详细的系统 2 推理中的关键作用，并强调了图像输入对任务规划的重要性。此外，我们的错误分析确定了 VLM 在视觉感知方面固有局限性的模式，为未来潜在的改进提供了见解。VipAct 提供了一个灵活且可扩展的框架，为各种现实应用中更先进的视觉感知系统铺平了道路。
2024-10-21	Improve Vision Language Model Chain-of-thought Reasoning	link	视觉语言模型 (VLM) 中的思维链 (CoT) 推理对于提高模型的可解释性和可信度至关重要。然而，目前的训练方法缺乏强大的 CoT 推理数据，依赖于以简短注释和少量推理过程为主的数据集。在这项工作中，我们发现，在简短答案上训练 VLM 并不能很好地泛化到需要更详细回答的推理任务。为了解决这个问题，我们提出了一种双重方法。首先，我们从 GPT-4o 模型中提取推理过程，以丰富训练数据并微调 VLM，从而提高其 CoT 性能。其次，我们应用强化学习来进一步校准推理质量。具体来说，我们通过将模型生成的推理链的预测结果与带注释的简短答案进行比较，构建正（正确）和负（错误）样本对。利用这些成对数据，我们应用直接偏好优化算法来改进模型的推理能力。我们的实验表明，在基准数据集上，CoT 推理得到了显著改进，并且对直接答案预测的泛化能力也更强。这项工作强调了在训练中纳入详细推理过程以及利用强化学习来增强 VLM 推理能力的重要性。
2024-10-21	Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models	link	大型多模态模型 (LMM) 在基于自回归建模的各种视觉语言和以视觉为中心的的任务中取得了重大突破。然而，这些模型通常侧重于以视觉为中心的的任务，例如视觉定位和区域描述，或者视觉语言任务，例如图像描述和多场景视觉问答 (VQA)。目前还没有哪个 LMM 能够像自然语言处理领域的大型语言模型那样，将这两种类型的任务全面统一在一个模型中。此外，即使有丰富的多任务指令遵循数据，直接堆叠这些数据来扩展通用能力仍然具有挑战性。为了解决这些问题，我们引入了一个名为 CCMD-8M 的新型多维度策划和整合的多模态数据集，它通过多级数据策划和多任务整合克服了统一以视觉为中心的任务和视觉语言任务的数据障碍。更重要的是，我们提出了 Griffon-G，这是一个通用的 LMM，它在单个端到端范式中同时解决了以视觉为中心的任务和视觉语言任务。Griffon-G 解决了在这些任务的联合优化过程中遇到的训练崩溃问题，实现了更好的训练效率。跨多模态基准、通用视觉问答 (VQA) 任务、场景文本中心 VQA 任务、文档相关 VQA 任务、指称表达式理解和目标检测的评估表明，Griffon-G 优于先进的 LMM，并在复杂的以视觉为中心的的任务中达到了专家级的性能。
2024-10-21	Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning	null	视觉语言模型 (VLM) 在各种下游任务中表现出了令人印象深刻的性能。然而，尽管空间推理在涉及导航和与物理环境交互的任务中起着至关重要的作用，但VLM在这方面的能力仍然有限。具体来说，这些任务中的大部分空间推理发生在二维 (2D) 环境中，我们的评估表明，最先进的 VLM 经常对复合空间推理问题生成不合理和错误的响应，包括人类一眼就能轻松解决的简单寻路任务。为了解决这个问题，我们探索了一种有效的方法，通过训练模型的基本空间能力来增强 VLM 中的 2D 空间推理能力。我们首先将 2D 空间推理的关键组成部分分解为：方向理解、距离估计和定位。我们的核心假设是，掌握这些基本的空间能力可以显着提高模型在需要高级空间理解和组合问题解决能力的复合空间任务中的性能。为了验证这一假设，我们引入了 Sparkle，这是一个通过合成数据生成和目标监督对这三种基本空间能力进行微调的 VLM 框架，以便为每种能力形成一个指令数据集。我们的实验表明，使用 Sparkle 微调的 VLM 不仅在基本任务本身中取得了显着的性能提升，而且还可以泛化到复合和分布外的空间推理任务中（例如，在最短路径问题上的性能从 13.5% 提高到 40.0%）。这些发现强调了掌握基本空间能力在增强复合空间问题解决能力方面的有效性，为提高 VLM 的空间推理能力提供了见解。
2024-10-18	NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples	null	视觉语言模型（VLM）在最近的视觉问答（VQA）基准测试中取得了重大进展，这些基准测试评估了复杂的视觉语言推理能力。然而，这些模型真的有效吗？在这项工作中，我们发现VLM仍然难以处理人类可以轻松回答的自然图像和问题，我们将其称为自然对抗样本。我们还发现，使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库中生成这些VQA样本非常容易。我们提出了一种半自动方法来收集一个新的基准测试集NaturalBench，该测试集包含10,000个经过人工验证的VQA样本，用于可靠地评估VLM。至关重要的是，我们采用以视觉为中心的设计，将每个问题与两张产生不同答案的图像配对，防止模型在不使用图像的情况下盲目作答。这使得NaturalBench比之前可以利用常识先验知识解决的基准测试更具挑战性。我们在NaturalBench上评估了53个最先进的VLM，结果表明，LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL，甚至GPT-4o等模型都比人类表现（超过90%）落后50%-70%。我们从两个角度分析了NaturalBench为何难以处理：（1）组合性：解决NaturalBench需要多种视觉语言技能，包括理解属性绑定、对象关系以及逻辑和计数等高级推理。为此，与先前的工作使用每个样本一个标签不同，我们为每个NaturalBench样本标记了1到8个技能标签，以便进行细粒度评估。（2）偏差：NaturalBench揭示了VLM中存在的严重偏差，因为模型通常会选择相同的答案，而不管图像如何。最后，我们将基准测试集构建方法应用于不同的数据源，包括长标题（超过100字）和中文、印地语等非英语语言，突出了其对VLM进行动态评估的潜力。
2024-10-18	Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension	link	近年来，大型语言模型（LLM）的进步推动了大型多模态模型（LMM）的发展。然而，现有的研究主要集中在调整语言和图像指令上，而忽略了模型学习联合处理文本和视觉模态的关键预训练阶段。在本文中，我们提出了一种新的LMM预训练范式，通过引入一种新颖的跨模态理解阶段来增强LLM的视觉理解能力。具体来说，我们设计了一个动态可学习的提示标记池，并采用匈牙利算法用最相关的提示标记替换部分原始视觉标记。然后，我们将视觉标记概念化为LLM的“外语”，并提出了一种混合注意力机制，结合双向视觉注意力和单向文本注意力，以全面增强对视觉标记的理解。同时，我们整合了详细的图像描述生成任务，利用丰富的描述来进一步促进LLM理解视觉语义信息。在150万条公开数据上进行预训练后，我们提出了一个名为Croc的新基础模型。实验结果表明，Croc在大型视觉语言基准测试中取得了新的最先进性能。为了支持可 reproducibility 并促进进一步的研究，我们在https://github.com/deepglint/Croc 上发布了训练代码和预训练模型权重。
2024-10-18	E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model	null	三维医学视觉语言模型的开发在疾病诊断和患者治疗方面具有巨大潜力。然而，与二维医学图像相比，三维医学图像（如CT扫描）面临着训练数据有限和维度高等挑战，这严重限制了三维医学视觉语言模型的进展。为了解决这些问题，我们收集了大量未标记的三维CT数据，并利用自监督学习构建了一个用于提取三维视觉特征的三维视觉基础模型。然后，我们应用三维空间卷积来聚合和投影高级图像特征，在降低计算复杂度的同时保留空间信息。我们还基于BIMCV-R和CT-RATE构建了两个指令微调数据集，用于微调三维视觉语言模型。我们的模型在报告生成、视觉问答和疾病诊断方面表现出优于现有方法的性能。代码和数据将很快公开发布。
2024-10-18	LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	null	实验室事故对人类生命和财产构成重大风险，凸显了健全安全规程的重要性。尽管安全培训有所进步，但实验室人员仍可能在不知不觉中进行不安全的操作。随着各领域（包括实验室环境）越来越依赖大型语言模型 (LLM) 进行指导，人们越来越担心LLM在关键安全相关决策中的可靠性。与受过训练的人类研究人员不同，LLM缺乏正式的实验室安全教育，这引发了人们对其提供安全和准确指导的能力的质疑。现有关于LLM可信度的研究主要集中在道德合规性、真实性和公平性等问题上，但未能完全涵盖安全关键型现实应用，例如实验室安全。为了弥补这一差距，我们提出了实验室安全基准（LabSafety Bench），这是一个基于与职业安全与健康管理局 (OSHA) 协议相一致的新分类法的综合评估框架。该基准测试包括由人类专家验证的765道多项选择题，用于评估LLM和视觉语言模型 (VLM) 在实验室安全环境中的性能。我们的评估表明，虽然GPT-4o的表现优于人类参与者，但它仍然容易出现严重错误，这凸显了在安全关键型环境中依赖LLM的风险。我们的研究结果强调，需要专门的基准来准确评估LLM在现实安全应用中的可信度。
2024-10-18	ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom	null	大型视觉语言模型 (LVLM) 在视觉理解任务方面取得了重大进展。然而，它们在视觉推理任务中经常优先考虑语言知识而不是图像信息，从而导致性能下降。为了解决这个问题，我们首先确定了现有解决方案的缺点（即视觉描述不足且不相关，以及多模态能力有限）。然后，我们将视觉推理过程分解为两个阶段：视觉感知（即视力）和文本推理（即智慧），并介绍了一种名为 ProReason 的新型视觉推理框架。该框架具有多轮主动感知和解耦的视觉推理能力。简而言之，给定一个多模态问题，ProReason 会迭代主动信息收集和推理，直到可以用必要且充分的视觉描述得出答案。值得注意的是，能力的解耦允许无缝集成现有的大型语言模型 (LLM) 来弥补 LVLM 的推理缺陷。我们广泛的实验表明，ProReason 在开源和闭源模型的各种基准测试中都优于现有的多步推理框架和被动对等方法。此外，在 LLM 的帮助下，ProReason 在 MMMU 基准测试中实现了高达 15% 的性能提升。我们对现有解决方案的见解以及对 LLM 可行集成的解耦视角，为未来的视觉推理技术研究（尤其是 LLM 辅助技术）提供了启示。
2024-10-17	Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers	null	近年来，视觉语言模型 (VLM) 的进步扩展了其在现实世界应用中的潜力，使这些模型能够对图像进行复杂的推理。在像 LLaVA 这样广泛使用的完全自回归的基于 Transformer 的模型中，投影的视觉标记被添加到文本标记之前。通常，视觉标记比提示标记多得多，导致训练和推理过程中的计算开销增加。在本文中，我们提出了视觉压缩标记寄存器 (Victor)，这是一种通过将视觉标记汇总到一组较小的寄存器标记来减少视觉标记数量的方法。Victor 在视觉标记之后添加了一些可学习的寄存器标记，并使用 VLM 语言塔中的前几层将视觉信息汇总到这些寄存器中。在这几层之后，所有视觉标记都将被丢弃，从而显着提高了训练和推理的计算效率。值得注意的是，我们的方法易于实现，并且只需要少量新的可训练参数，对模型性能的影响最小。在我们的实验中，Victor 仅使用 8 个视觉寄存器（约占原始标记的 1%），就将准确率下降控制在 4% 以内，同时将总训练时间减少了 43%，并将推理吞吐量提高了 3.3 倍。
2024-10-17	Reproducibility study of "LICO: Explainable Models with Language-Image Consistency"	link	机器学习领域日益严重的复现性危机要求我们仔细审查研究结果。本文调查了 Lei 等人 (2023) 提出的 LICO 方法，该方法旨在增强事后可解释性技术并提高图像分类性能。LICO 利用来自视觉语言模型的自然语言监督来丰富特征表示并指导学习过程。我们进行了一项全面的可重复性研究，采用了 (Wide) ResNets 和已建立的可解释性方法，如 Grad-CAM 和 RISE。我们基本上无法复现作者的结果。特别是，我们没有发现 LICO 始终能够提高分类性能或改进可解释性的定量和定性指标。因此，我们的研究结果强调了在可解释性研究中进行严格评估和透明报告的重要性。
2024-10-17	Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations	null	大型视觉语言模型 (LVLM)，例如 LLaVA，已经展示出作为通用聊天机器人的强大能力，能够就提供的输入图像进行对话。然而，它们的响应会受到训练数据集中存在的社会偏见的影响，导致模型在处理描绘不同人群图像时产生不希望的差异。在这项工作中，我们为 LVLM 提出了一种新的去偏见框架，通过在文本生成过程中直接消融偏见属性，以避免生成与受保护属性相关的文本，甚至在内部表示它们。我们的方法不需要训练，只需要相对少量的代表性偏见输出（约 1000 个样本）。我们的实验表明，我们不仅可以最大限度地降低 LVLM 生成与受保护属性相关的文本的倾向，而且甚至可以使用合成数据来指导消融，同时保持在真实数据（如 COCO）上的字幕性能。此外，我们发现，去偏 LVLM 的结果生成表现出与基线偏见模型相似的准确性，表明可以在不牺牲模型性能的情况下实现去偏效果。
2024-10-17	Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation	link	在本文中，我们介绍了 Janus，这是一个统一了多模态理解和生成的自动回归框架。之前的研究通常依赖于单一视觉编码器来完成这两项任务，例如 Chameleon。然而，由于多模态理解和生成所需的信息粒度不同，这种方法会导致性能欠佳，尤其是在多模态理解方面。为了解决这个问题，我们将视觉编码分离成独立的路径，同时仍然利用单个统一的 Transformer 架构进行处理。这种分离不仅缓解了视觉编码器在理解和生成中角色之间的冲突，还增强了框架的灵活性。例如，多模态理解和生成组件都可以独立选择最合适的编码方法。实验表明，Janus 优于之前的统一模型，并且达到或超过了特定任务模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
2024-10-17	VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks	link	从异构输入（如图像、文本和音频）中推导出推理是人类执行日常任务的一项重要技能。对于开发先进的人工智能 (AI) 系统来说，类似的能力也是非常需要的。虽然最先进的模型在各种计算机视觉和自然语言处理任务上正在迅速缩小与人类水平性能的差距，但它们在解决需要对视觉和文本模态进行联合推理的任务时仍然很吃力。受 GLUE（Wang 等人，2018 年）的启发，GLUE 是一个用于自然语言理解的多任务基准测试，我们在本文中提出了 VL-GLUE。VL-GLUE 由跨越七个不同任务的超过 100k 个样本组成，这些任务的核心都需要视觉语言推理。此外，我们的基准测试包含了多样化的图像类型（从合成渲染的图形、日常场景到图表和复杂图表），并包含了广泛的特定领域文本（从烹饪、政治、体育到高中课程），证明了现实世界中对多模态理解的需求。我们表明，这个基准测试对于现有的大规模视觉语言模型来说相当具有挑战性，并鼓励开发具有鲁棒视觉语言推理能力的系统。
2024-10-17	H2OVL-Mississippi Vision Language Models Technical Report	null	由于能够在消费者硬件上高效运行以处理企业商业文档和图像，体积更小的视觉语言模型 (VLM) 对于注重隐私的设备上应用程序变得越来越重要。这些模型需要强大的语言理解和视觉能力来增强人机交互。为了满足这一需求，我们推出了 H2OVL-Mississippi，这是一对小型 VLM，使用 8 个 H100 GPU，在 240 小时的计算时间内，利用 3700 万个图文对进行训练。H2OVL-Mississippi-0.8B 是一款参数量为 8 亿的微型模型，专注于文本识别，在 OCRBench 的文本识别部分实现了最先进的性能，并在该领域超越了许多更大的模型。此外，我们还发布了 H2OVL-Mississippi-2B，这是一个包含 20 亿个参数的通用模型，在各种学术基准测试中均表现出极具竞争力的指标。这两个模型都建立在我们之前使用 H2O-Danube 语言模型的工作基础之上，将其功能扩展到视觉领域。我们将它们在 Apache 2.0 许可下发布，使所有人都可以使用 VLM，从而使文档 AI 和视觉 LLM 民主化。
2024-10-17	GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models	null	几何问题解决需要高级推理能力来处理多模态输入并有效地利用数学知识。视觉语言模型（VLM）在各种多模态任务中取得了重大进展。然而，它们仍然难以解决几何问题，并且由于无法执行预训练期间未见过的数学运算（例如计算任意角度的余弦）以及难以正确应用相关几何公式而受到很大限制。为了克服这些挑战，我们提出了 GeoCoder，它利用模块化代码微调来使用预定义的几何函数库生成和执行代码。通过执行代码，我们实现了准确和确定的计算，与自回归标记预测的随机性形成对比，而函数库最大限度地减少了公式使用中的错误。我们还提出了 GeoCoder 的多模态检索增强变体，名为 RAG-GeoCoder，它结合了一个非参数内存模块来从几何库中检索函数，从而减少对参数内存的依赖。我们的模块化代码微调方法增强了 VLM 的几何推理能力，与其他微调方法相比，在 GeomVerse 数据集上的各种问题复杂性方面平均提高了 16% 以上。
2024-10-17	Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR	null	由于缺乏标注的训练数据，低资源语言的自动语音识别 (ASR) 仍然是一个挑战。参数高效的微调和纯文本自适应是两种常用的方法，用于解决这种低资源环境下的问题。在这项工作中，我们研究了如何使用像 SeamlessM4T 这样的多语言多模态模型有效地结合这些技术。多模态模型能够通过纯文本自适应利用未标注的文本，并进一步进行参数高效的 ASR 微调，从而提高 ASR 性能。我们还展示了从高资源语言进行跨语言迁移，在没有任何标注语音的零样本设置中，相对于基线实现了高达 17% 的词错误率 (WER) 降低。
2024-10-17	Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding	null	大型视觉语言模型 (LVLM) 在根据视觉输入生成详细且连贯的响应方面表现出令人印象深刻的能力。然而，由于过度依赖语言先验，它们容易产生幻觉。为了解决这个问题，我们研究了 LVLM 中的语言先验，并得出两个关键观察结果：(1) 即使在预测与图像相关的词性 (POS) 相关的标记时，随着标记序列的增长，模型越来越依赖语言先验，从而放大了幻觉。(2) 直接校准 LVLM 的输出分布以减轻语言先验的方法可能会导致文本质量下降，甚至加剧幻觉。基于这些发现，我们提出了一种新方法，即摘要引导解码 (SGD)。该方法通过摘要减少文本上下文，自然地鼓励模型更多地关注图像信息，同时仅控制与图像相关的词性标记以保持文本质量。通过实验，我们证明了 SGD 在物体幻觉基准测试中实现了最先进的性能。此外，在精确率和召回率的权衡方面，SGD 在现有方法中实现了帕累托最优。最后，我们观察到，尽管现有方法难以在减少物体幻觉和保持文本质量之间取得平衡，但 SGD 在应对这一挑战方面表现出稳健性。
2024-10-17	Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead	link	随着视觉语言模型 (VLM) 得到广泛应用，其公平性仍然缺乏探索。在本文中，我们分析了五个模型和六个数据集的人口统计学偏差。我们发现，像 UTKFace 和 CelebA 这样的肖像数据集是检测偏差的最佳工具，可以发现 LLaVa 和 CLIP 模型之间在性能和公平性方面的差距。然而，像 PATA、VLStereoSet 这样的场景数据集由于其构建方式，无法成为有效的偏差基准。至于像 VisoGender 这样的基于代词的数据集，我们收到了混合信号，因为只有一部分数据子集对提供见解有用。为了缓解这个问题，我们引入了更难版本的 VisoGender，作为更严格的评估标准。基于这些结果，我们呼吁建立更有效、设计更仔细的数据集，以确保 VLM 的公平性和可靠性。
2024-10-16	Sensitivity of Generative VLMs to Semantically and Lexically Altered Prompts	null	尽管用于生成式视觉语言模型 (VLM) 的提示调整技术大量涌现，但这些模型对提示中的词汇和语义变化的敏感程度仍不清楚。在本文中，我们使用 SugarCrepe++ 数据集评估了生成式 VLM 理解文本中词汇和语义变化的能力。我们分析了 VLM 对提示中词汇变化的敏感性，而这些变化不对应于语义变化。我们的研究结果表明，生成式 VLM 对此类更改高度敏感。此外，我们还发现，这种脆弱性会影响旨在实现其输出一致性的技术性能。
2024-10-16	Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models	null	端到端学习将感官输入直接映射到动作，为复杂的机器人任务创建高度集成和高效的策略。然而，此类模型难以有效训练，并且通常难以泛化到其训练场景之外，从而限制了对新环境、任务和概念的适应性。在这项工作中，我们研究了在看不见的文本指令和视觉分布变化下，基于视觉的控制策略实现稳健的闭环性能所需的最小数据要求和架构适应。为此，我们设计了具有不同数据表示丰富度的数据库，通过利用多模态基础模型编码器来改进特征提取协议，并评估不同策略网络头的适用性。我们的研究结果在 Flex（Fly-lexically）中得到综合，这是一个使用预训练的视觉语言模型（VLM）作为冻结的逐块特征提取器的框架，生成整合语义和视觉信息的具有空间感知的嵌入。这些丰富的特征构成了训练高度稳健的下游策略的基础，这些策略能够跨平台、环境和文本指定的任务进行泛化。我们展示了这种方法在四旋翼飞行器飞往目标任务中的有效性，其中通过行为克隆在小型模拟数据库上训练的代理成功地泛化到现实世界场景，处理不同的新目标和命令公式。
2024-10-16	The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio	null	近年来，大型多模态模型 (LMM) 的进步显著提高了其在各种任务中的性能，并且人们一直在努力进一步整合视频和音频等其他模态。然而，大多数现有的 LMM 仍然容易出现幻觉，即事实上的多模态输入与生成的文本输出之间存在差异，这限制了它们在各种现实场景中的适用性。本文首次系统地研究了涉及三种最常见模态（语言、视觉和音频）的 LMM 中的幻觉问题。我们的研究揭示了导致幻觉的两个关键因素：过度依赖单模态先验和虚假的模态间相关性。为了应对这些挑战，我们引入了多模态诅咒 (CMM) 基准测试，该基准全面评估了 LMM 中的幻觉，并详细分析了其根本问题。我们的研究结果突出了关键的漏洞，包括模态整合的不平衡和训练数据的偏差，强调了平衡跨模态学习和增强幻觉缓解策略的必要性。根据我们的观察和发现，我们提出了一些潜在的研究方向，可以提高 LMM 的可靠性。
2024-10-15	Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories	link	一个概念的视觉表征会因其含义和出现语境的不同而发生显著变化，这对视觉和多模态模型都提出了多重挑战。我们的研究侧重于具象性，这是一个经过充分研究的词汇语义变量，并以此作为案例研究来检验视觉表征的可变性。我们依赖于从两个不同数据集（Bing 和 YFCC）中提取的与大约 1000 个抽象和具体概念相关的图像。我们的目标是：(i) 评估概念描述中的视觉多样性是否可以可靠地区分具体概念和抽象概念；(ii) 通过最近邻分析来分析同一概念的多幅图像的视觉特征的可变性；(iii) 通过对图像进行分类和注释来识别导致这种可变性的挑战性因素。我们的研究结果表明，对于抽象概念和具体概念图像的分类，颜色和纹理等基本视觉特征的组合比视觉Transformer（ViT）等更复杂模型提取的特征更有效。然而，ViT 在最近邻分析中表现出更好的性能，这强调了在通过文本以外的模态分析概念变量时，需要谨慎选择视觉特征。
2024-10-15	On-the-fly Modulation for Balanced Multimodal Learning	link	多模态学习旨在通过整合来自不同模态的信息来提升模型性能。然而，由于广泛使用的联合训练策略对所有模态采用统一目标，导致单模态表征不平衡和欠优化，因此多模态学习的潜力并未得到充分发挥。具体来说，我们指出通常存在具有更多判别信息的模态，例如踢足球的视觉和刮风的听觉。它们可能在联合训练过程中占据主导地位，导致其他模态严重欠优化。为了缓解这个问题，我们首先从优化的前馈和反向传播阶段分析了欠优化现象。然后，提出了动态预测调制（OPM）和动态梯度调制（OGM）策略，通过在训练过程中监控模态间的判别差异来调节每个模态的优化。具体而言，OPM在前馈阶段通过动态概率丢弃主导模态的特征来削弱其影响，而OGM在反向传播阶段减轻其梯度。在实验中，我们的方法在各种多模态任务中都表现出相当大的改进。这些简单而有效的策略不仅增强了普通和面向任务的多模态模型的性能，而且在更复杂的多模态任务中也表现出色，展示了它们的有效性和灵活性。源代码可在\url{https://github.com/GeWu-Lab/BML_TPAMI2024}获取。
2024-10-15	Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference	null	多模态变分自编码器 (VAE) 旨在通过整合来自不同数据模态的信息来捕获共享的潜在表示。一个重大挑战是在不需要为所有可能的模态组合训练不切实际数量 (2^M) 个推理网络的情况下，准确地从任何模态子集推断表示。基于混合的模型通过仅需要与模态数量一样多的推理模型来简化这一过程，从而聚合单模态推理。然而，当模态缺失时，它们会遭受信息丢失的困扰。基于对齐的 VAE 通过最小化 Kullback-Leibler (KL) 散度将单模态推理模型与多模态模型对齐来解决这个问题，但由于摊销差距导致推理精度下降，因此面临着问题。为了解决这些问题，我们在多模态 VAE 框架内引入了多模态迭代摊销推理，这是一种迭代细化机制。该方法通过使用所有可用模态迭代地细化多模态推理，从而克服了缺失模态造成的信息丢失，并最大程度地减少了摊销差距。通过将单模态推理与这种细化的多模态后验对齐，我们实现了单模态推理，该推理有效地结合了多模态信息，同时在推理过程中仅需要单模态输入。在基准数据集上的实验表明，我们的方法提高了推理性能，更高的线性分类精度和竞争性余弦相似性证明了这一点，并增强了跨模态生成，FID 得分较低表明了这一点。这表明我们的方法增强了从单模态输入推断的表示。
2024-10-15	LargePiG: Your Large Language Model is Secretly a Pointer Generator	null	最近关于查询生成的研究集中在使用大型语言模型（LLM）上，虽然LLM带来了最先进的性能，但也引入了生成查询中的幻觉问题。在这项工作中，我们将相关性幻觉和事实性幻觉作为一种新的类型学来描述基于LLM的查询生成带来的幻觉问题。我们提出了一种有效的方法来分离LLM生成查询中的内容和形式，该方法保留了从输入中提取和集成的 factual knowledge，并利用LLM强大的语言能力编译了句法结构，包括功能词。具体来说，我们介绍了一种与模型无关且无需训练的方法，将大型语言模型转换为指针生成器（LargePiG），其中指针注意力分布利用了LLM固有的注意力权重，并且复制概率源自模型高层和最后一层的词汇分布差异。为了验证LargePiG的有效性，我们构建了两个数据集，用于评估查询生成中的幻觉问题，涵盖了文档和视频场景。对各种LLM的实证研究表明，LargePiG在两个数据集上都具有优越性。额外的实验还验证了LargePiG可以减少大型视觉语言模型中的幻觉，并提高基于文档的问答和事实性评估任务的准确性。
2024-10-15	CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification	null	近年来，像CLIP这样的预训练视觉语言模型的进步，已经显示出其在行人重识别（ReID）应用中的潜力。然而，它们在通用行人重识别任务中的性能仍然欠佳。CLIP预训练中使用的大规模多样化的图像-文本对可能导致某些细粒度特征的缺失或不足。针对这些挑战，我们提出了一种名为DFGS（深度优先图采样器）的困难样本挖掘方法，该方法基于深度优先搜索，旨在提供足够具有挑战性的样本，以增强CLIP提取细粒度特征的能力。DFGS可以应用于CLIP中的图像编码器和文本编码器。通过利用CLIP强大的跨模态学习能力，我们的目标是应用DFGS方法提取具有挑战性的样本，并形成具有高判别难度的mini-batches，为图像模型提供更有效、更具挑战性的难以区分的样本，从而增强模型区分个体的能力。我们的结果表明，与其他方法相比，DFGS有显著的改进，证实了DFGS在提供具有挑战性的样本以增强CLIP在通用行人重识别中的性能方面的有效性。
2024-10-14	Locality Alignment Improves Vision-Language Models	null	近年来，视觉语言模型 (VLM) 得到越来越多的应用，但许多模型仍然难以解决基本的 spatial reasoning 错误。我们假设这是由于 VLM 采用了预训练的视觉骨干网络，特别是使用图像级监督和最小归纳偏差训练的视觉变换器 (ViT)。此类模型可能无法编码图像中每个位置的类别内容，我们的目标是通过确保视觉骨干网络有效捕获局部和全局图像语义来解决此问题。我们的主要见解是，我们不需要新的监督来学习这种能力——预训练模型包含大量的局部语义知识，我们可以提取这些知识并将其用于可扩展的自监督。我们为 ViT 提出了一种新的高效的训练后阶段，称为局部性对齐，以及一种新的微调程序，称为 MaskEmbed，它使用掩蔽重建损失来学习每个图像块的语义贡献。我们首先使用仅视觉基准评估局部性对齐，发现它提高了模型在块级语义分割任务中的性能，特别是对于使用图像-标题对（例如，CLIP 和 SigLIP）训练的强骨干网络。然后，我们训练了一系列使用和不使用局部性对齐的 VLM，并表明局部性对齐的骨干网络提高了各种基准测试的性能，特别是那些涉及空间理解的基准测试（例如，RefCOCO、OCID-Ref、TallyQA、VSR、AI2D）。总的来说，我们证明了我们可以通过局部性对齐阶段有效地学习局部语义提取，并且此过程补充了使用现成视觉骨干网络的现有 VLM 训练方法。
2024-10-14	Towards Foundation Models for 3D Vision: How Close Are We?	null	构建用于 3D 视觉的基础模型是一个尚未解决的复杂挑战。为了实现这一目标，重要的是了解当前模型的 3D 推理能力，并确定这些模型与人类之间的差距。因此，我们构建了一个新的 3D 视觉理解基准，该基准涵盖了视觉问答 (VQA) 格式的基本 3D 视觉任务。我们评估了最先进的视觉语言模型 (VLM)、专门模型和人类受试者。我们的结果表明，VLM 的性能普遍较差，而专门模型虽然准确但不稳健，在几何扰动下会失败。相比之下，人类视觉仍然是最可靠的 3D 视觉系统。我们进一步证明，与经典计算机视觉方法相比，神经网络与人类 3D 视觉机制的一致性更高，并且基于 Transformer 的网络（如 ViT）比 CNN 与人类 3D 视觉机制的一致性更高。我们希望我们的研究能够有利于未来 3D 视觉基础模型的开发。
2024-10-14	VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents	link	检索增强生成（RAG）是一种有效的技术，它使大型语言模型（LLM）能够利用外部知识源进行生成。然而，当前的RAG系统完全基于文本，无法利用在现实世界多模态文档中起着至关重要作用的视觉信息，如布局和图像。在本文中，我们介绍了VisRAG，它通过建立一个基于视觉语言模型（VLM）的RAG流程来解决这个问题。在这个流程中，不是先解析文档以获取文本，而是使用VLM将文档作为图像直接嵌入，然后检索以增强VLM的生成。与传统的基于文本的RAG相比，VisRAG最大限度地保留和利用了原始文档中的数据信息，消除了解析过程中引入的信息损失。我们收集了开源数据和合成数据来训练VisRAG中的检索器，并探索了各种生成方法。实验表明，VisRAG在检索和生成阶段都优于传统的RAG，相较于传统的基于文本的RAG流程，实现了25%-39%的端到端性能提升。进一步的分析表明，VisRAG可以有效地利用训练数据并表现出强大的泛化能力，这使其成为多模态文档上RAG的一个很有前景的解决方案。我们的代码和数据可在https://github.com/openbmb/visrag 获取。
2024-10-14	LG-CAV: Train Any Concept Activation Vector with Language Guidance	null	概念激活向量（CAV）通过将模型预测优雅地归因于特定概念，在可解释人工智能领域引起了广泛的研究兴趣。然而，CAV 的训练通常需要大量高质量的图像，这些图像的整理成本很高，因此仅限于一组预定义的概念。为了解决这个问题，我们提出了语言引导的 CAV（LG-CAV），以利用某些预训练的视觉语言模型（例如 CLIP）中丰富的概念知识。该方法允许在没有标记数据的情况下训练任何 CAV，方法是利用相应的概念描述作为指导。为了弥合视觉语言模型与目标模型之间的差距，我们使用视觉语言模型计算了一组通用图像（探测图像）上概念描述的激活值，并利用它们作为语言指导来训练 LG-CAV。此外，在训练了与目标模型中所有预测类别相关的高质量 LG-CAV 后，我们提出了激活样本重新加权（ASR）作为一种模型校正技术，以反过来提高目标模型的性能。在四个数据集上跨越九种架构的实验表明，LG-CAV 在给定任何概念的情况下，相较于以前的 CAV 方法实现了显著的质量提升，并且我们的模型校正方法与现有的基于概念的方法相比，实现了最先进的性能。我们的代码可在 https://github.com/hqhQAQ/LG-CAV 获取。
2024-10-14	Saliency Guided Optimization of Diffusion Latents	null	随着扩散模型的快速发展，从文本提示生成高质量图像已不再是挑战。文本到图像生成的重点是如何优化生成结果，使其更好地与人类意图或提示保持一致。现有的优化方法通常将整个图像视为一个整体，进行全局优化。这些方法忽略了一个事实：当人类观察图像时，视觉系统会自然地将注意力集中在显著区域，而忽略不太重要或不显著的区域。也就是说，人类很可能忽略对非显著区域的优化。因此，尽管在大型多模态模型的指导下进行了模型微调，但现有进行全局优化的方法得到的结果并不理想。为了有效且高效地解决这种对齐挑战，我们提出了显著性引导的扩散潜在空间优化方法（SGOOL）。我们首先使用显著性检测器来模拟人类视觉注意力系统，并标记出显著区域。为了避免重新训练额外的模型，我们的方法直接优化扩散模型的潜在空间。此外，SGOOL 利用了可逆扩散过程，并具有恒定内存实现的优点。因此，我们的方法成为了一种参数高效且即插即用的微调方法。我们使用多种指标和人工评估进行了大量实验。实验结果表明，SGOOL 在图像质量和提示对齐方面具有优越性。
2024-10-11	SegGrasp: Zero-Shot Task-Oriented Grasping via Semantic and Geometric Guided Segmentation	null	面向任务的抓取，即根据物体功能抓取其特定部位，对于开发能够在动态环境中执行复杂任务的先进机器人系统至关重要。在本文中，我们提出了一个免训练框架，该框架结合了语义和几何先验，用于零样本面向任务的抓取生成。所提出的框架名为 SegGrasp，首先利用 GLIP 等视觉语言模型进行粗分割。然后，它使用来自凸分解的详细几何信息，通过名为 GeoFusion 的融合策略来提高分割质量。通过改进分割的抓取网络可以生成有效的抓取姿态。我们在分割基准和真实世界机器人抓取上进行了实验。实验结果表明，SegGrasp 在抓取和分割性能方面均优于基线 15% 以上。
2024-10-11	Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation	null	基于缓存的方法在适应视觉语言模型 (VLM) 方面表现出色且高效。然而，现有的缓存模型忽略了三个关键方面。1) 预训练的 VLM 主要针对图像-文本相似性进行优化，忽略了图像-图像相似性的重要性，导致预训练和适应之间存在差距。2) 当前的缓存模型基于 Nadaraya-Watson (N-W) 估计器，它在构建权重函数时忽略了训练样本之间错综复杂的关系。3) 在样本有限的情况下，缓存模型生成的 logits 具有很高的不确定性，直接使用这些 logits 而不考虑置信度可能会有问题。为了解决上述挑战，本工作提出了三个校准模块。相似性校准通过使用未标记的图像来改进图像-图像相似性。我们在 CLIP 的预训练图像编码器之上添加了一个带有残差连接的可学习投影层，并通过最小化自监督对比损失来优化参数。权重校准在权重函数中引入了一个精度矩阵，以充分模拟训练样本之间的关系，将现有的缓存模型转换为高斯过程 (GP) 回归器，这可能比 N-W 估计器更准确。置信度校准利用 GP 回归计算的预测方差来动态地重新调整缓存模型的 logits，确保缓存模型的输出根据其置信度进行适当调整。此外，为了降低 GP 的高复杂度，我们进一步提出了一种基于组的学习策略。整合上述设计，我们提出了免训练和需要训练的两种变体。在 11 个少样本分类数据集上的大量实验表明，所提出的方法可以达到最先进的性能。
2024-10-11	RoRA-VLM: Robust Retrieval-Augmented Vision Language Models	null	目前的视觉语言模型 (VLM) 在知识密集型任务中仍然表现不佳，这主要是由于难以将视觉对象和场景与其对应的实体和背景知识之间的所有关联进行准确编码。虽然检索增强方法提供了一种集成外部知识的有效方法，但将其扩展到视觉语言领域存在着独特的挑战：(1) 由于多模态查询中固有的差异，难以从外部来源准确检索相关信息；(2) 难以抵抗检索到的多模态知识片段中包含的无关、多余和嘈杂的信息。在这项工作中，我们介绍了 RORA-VLM，这是一个专为 VLM 量身定制的新颖且强大的检索增强框架，它具有两项关键创新：(1) 一种采用图像锚定文本查询扩展的两阶段检索过程，以协同组合查询中的视觉和文本信息，并检索最相关的多模态知识片段；(2) 一种鲁棒的检索增强方法，通过在检索增强训练过程中注入对抗性噪声，增强 VLM 对检索到的多模态知识中无关信息的抵抗力，并通过面向查询的视觉标记优化策略过滤掉无关的视觉信息，例如图像中呈现的无关实体。我们进行了广泛的实验，以验证我们提出的方法在三个广泛采用的基准数据集上的有效性和鲁棒性。我们的结果表明，只需极少的训练实例，RORA-VLM 就可以使基础模型实现显著的性能提升，并在所有基准测试中始终优于最先进的检索增强 VLM，同时还展现出新颖的零样本域迁移能力。
2024-10-11	VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model	null	视觉语言模型 (VLM) 近期因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令生成任务和运动规划，以及为机器人学习模拟训练数据。在本工作中，我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到一个管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划，以便机器人“执行”。为了验证我们的方法，我们收集了一组长时程人类视频，演示了三种不同类别中的拾放任务，并设计了一套指标，以全面比较 SeeDo 与几种基线方法（包括最先进的视频输入 VLM）的性能。实验结果表明 SeeDo 具有优越的性能。我们进一步在仿真环境和真实的机器人手臂上部署了生成的的任务计划。
2024-10-11	Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models	link	机器学习模型的快速发展，特别是在自然语言处理和计算机视觉领域，给在资源有限的硬件上运行这些模型带来了挑战。本文介绍了 Superpipeline，这是一个旨在优化大型 AI 模型在训练和推理过程中在受限硬件上执行的新框架。我们的方法涉及通过将模型划分为单独的层并有效地在 GPU 和 CPU 内存之间传输这些层来动态管理模型执行。在我们的实验中，Superpipeline 在保持模型精度和可接受的处理速度的同时，将 GPU 内存使用量减少了高达 60%。这使得原本会超出可用 GPU 内存的模型能够有效运行。与主要关注推理或特定模型类型的现有解决方案不同，Superpipeline 可以应用于大型语言模型 (LLM)、视觉语言模型 (VLM) 和基于视觉的模型。我们在各种模型和硬件设置中测试了 Superpipeline 的性能。该方法包括两个关键参数，允许微调 GPU 内存使用量和处理速度之间的平衡。重要的是，Superpipeline 不需要重新训练或更改模型参数，确保原始模型的输出保持不变。Superpipeline 的简单性和灵活性使其对在有限硬件上使用高级 AI 模型的研究人员和专业人士非常有用。它允许在现有硬件上使用更大的模型或更大的批次大小，从而有可能加快许多机器学习应用的创新。这项工作标志着朝着使高级 AI 模型更易于访问并在资源有限的环境中优化其部署迈出了重要一步。Superpipeline 的代码可在 https://github.com/abbasiReza/super-pipeline 获取。
2024-10-11	Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping	null	大型视觉语言模型（LVLM）在视觉感知和推理等多模态任务中表现出非凡的能力，在各种多模态评估基准测试中均取得了良好的性能。然而，这些基准测试保持着静态性，并且与预训练数据重叠，导致复杂度限制固定和数据污染问题。这引发了对评估有效性的担忧。为了应对这两项挑战，我们引入了一种称为视觉语言自举（VLB）的动态多模态评估协议。VLB 为 LVLM 提供了一个稳健且全面的评估，减少了数据污染，并具有灵活的复杂性。为此，VLB 通过多模态自举模块动态生成新的视觉问答样本，该模块修改图像和语言，同时通过判断模块确保新生成的样本与原始样本保持一致。通过组合各种自举策略，VLB 提供了具有不同复杂性的现有基准测试的动态变体，使评估能够随着 LVLM 不断发展的能力而共同发展。跨多个基准测试（包括 SEEDBench、MMBench 和 MME）的大量实验结果表明，VLB 显着减少了数据污染，并暴露了 LVLM 的性能局限性。
2024-10-11	Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models	link	零样本分布外 (OOD) 检测的直接 pipeline 涉及从广泛的语义库中选择潜在的 OOD 标签，然后利用预训练的视觉语言模型对分布内 (ID) 和 OOD 标签执行分类。在本文中，我们提出理论，认为提高性能需要扩展语义库，同时增加 OOD 样本激活所选 OOD 标签的预期概率，并确保这些 OOD 标签的激活之间相互依赖性低。一种自然的扩展方式是采用更大的词库；然而，不可避免地引入大量同义词和不常用词无法满足上述要求，这表明可行的扩展方式不仅仅是从词库中选择词语。由于 OOD 检测旨在将输入图像正确分类到 ID/OOD 类别组中，我们可以“编造”OOD 标签候选，这些候选不是标准类别名称，但有利于该过程。观察到原始语义库由未修改的特定类别名称组成，我们相应地构建了一个共轭语义库 (CSP)，它由修改后的超类别名称组成，每个名称都充当跨不同类别共享相似属性的样本的聚类中心。与我们建立的理论一致，使用 CSP 扩展 OOD 标签候选满足要求，并且在 FPR95 中的性能比现有工作提高了 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 中获得。
2024-10-11	ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression	null	大型视觉语言模型 (LVLMs) 的效率受到预填充阶段注意力机制的计算瓶颈和解码阶段获取键值 (KV) 缓存的内存瓶颈的限制，尤其是在涉及高分辨率图像或视频的情况下。视觉内容通常表现出大量的冗余，导致 LVLMs 中的注意力图高度稀疏。可以利用这种稀疏性，通过各种方法来加速注意力计算或压缩 KV 缓存。然而，大多数研究只关注解决这些瓶颈中的一个，并且没有充分支持根据不同的层或任务动态调整稀疏性。在本文中，我们提出了 ZipVL，这是一个为 LVLMs 设计的高效推理框架，它通过重要标记的动态比率分配策略来解决计算和内存瓶颈。该比率是根据特定层的注意力分数分布自适应确定的，而不是固定的超参数，从而在较简单的任务中提高效率，同时在更具挑战性的任务中保持高性能。然后我们根据归一化后的注意力分数选择重要的标记，并仅对这些重要的标记执行注意力机制，以加速预填充阶段。为了缓解解码阶段的内存瓶颈，我们对 KV 缓存采用混合精度量化，其中对重要标记的缓存使用高比特量化，而对不那么重要的标记的缓存使用低比特量化。我们的实验表明，ZipVL 可以将预填充阶段的速度提高 2.6 倍，并将 GPU 内存使用量减少 50.0%，在 LongVA-7B 模型上的 Video-MME 基准测试中，准确率仅下降了 0.2%，有效地提高了 LVLMs 的生成效率。
2024-10-10	LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts	null	大规模视觉语言预训练 (VLP) 模型（例如 CLIP）以其多功能性而闻名，因为它们可以在零样本设置中应用于各种应用。然而，当这些模型用于特定领域时，由于领域差距或训练数据中这些领域的代表性不足，它们的性能往往不尽如人意。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决这个问题，但即使是标注小规模数据集（例如，100k 个样本）也可能是一项昂贵的工作，如果任务复杂，通常需要专家标注员。为了应对这些挑战，我们提出了 LatteCLIP，这是一种无监督方法，用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调，而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成富有表现力的文本描述。这些信息提供了额外的上下文信息，以指导自定义领域中的微调过程。由于 LMM 生成的描述容易出现幻觉或细节缺失，我们引入了一种新策略，仅提取有用信息并稳定训练过程。具体来说，我们从噪声生成的文本和双重伪标签中学习丰富的每类原型表示。我们在 10 个特定领域数据集上的实验表明，LatteCLIP 的性能优于预训练的零样本方法，平均提高了 +4.74 个百分点的 top-1 准确率，并且优于其他最先进的无监督方法 +3.45 个百分点。
2024-10-10	Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision	null	当前的大型多模态模型 (LMM) 面临着 grounding 的挑战， grounding 要求模型将语言成分与视觉实体相关联。与使用额外的 grounding 监督微调 LMM 的常见做法相反，我们发现 grounding 能力实际上可以在没有明确 grounding 监督的情况下训练的 LMM 中出现。为了揭示这种新兴的 grounding 能力，我们引入了一种“attend-and-segment”方法，该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外，为了增强 grounding 能力，我们提出了 DIFFLMM，这是一种利用基于扩散的视觉编码器（而不是标准 CLIP 视觉编码器）的 LMM，并使用相同的弱监督进行训练。我们的方法不受限于 grounding 特定监督数据的偏差和规模限制，因此更具通用性和可扩展性。与 grounding LMM 和通才 LMM 相比，我们在 grounding 特定和一般视觉问答基准测试中均取得了有竞争力的性能。值得注意的是，我们在没有任何 grounding 监督的情况下，在 grounded 对话生成方面实现了 44.2 的 grounding 掩码召回率，优于经过广泛监督的模型 GLaMM。项目页面：https://groundLMM.github.io。
2024-10-10	MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models	null	现有的多模态检索基准主要侧重于评估模型是否能够检索和利用外部文本知识来回答问题。然而，在某些情况下，检索视觉信息比文本数据更有益或更容易获取。在本文中，我们介绍了一个多模态检索增强生成基准 MRAG-Bench，在该基准中，我们系统地识别和分类了视觉增强知识优于文本知识的场景，例如，来自不同视角的更多图像。MRAG-Bench 由 16,130 张图像和 1,353 个人工标注的多项选择题组成，涵盖 9 个不同的场景。借助 MRAG-Bench，我们对 10 个开源和 4 个专有的超大型视觉语言模型 (LVLM) 进行了评估。我们的结果表明，与文本知识相比，所有 LVLM 在使用图像增强时都表现出更大的改进，这证实了 MRAG-Bench 以视觉为中心的特点。此外，我们使用 MRAG-Bench 进行了广泛的分析，为了解检索增强型 LVLM 提供了宝贵的见解。值得注意的是，表现最佳的模型 GPT-4o 在有效利用检索到的知识方面面临挑战，在使用真实信息的情况下仅实现了 5.82% 的改进，而人类参与者观察到的改进为 33.16%。这些发现突出了 MRAG-Bench 在鼓励社区增强 LVLM 更有效地利用检索到的视觉知识方面的能力的重要性。
2024-10-10	Q-VLM: Post-training Quantization for Large Vision-Language Models	link	在本文中，我们提出了一种针对大型视觉语言模型 (LVLMs) 的训练后量化框架，以实现高效的多模态推理。传统的量化方法通过最小化激活离散化误差来顺序搜索逐层舍入函数，这种方法由于没有考虑跨层依赖性，因此无法获得最佳量化策略。相反，我们挖掘了对整个视觉语言模型的离散化误差有显著影响的跨层依赖性，并将这种依赖性嵌入到低搜索成本的最佳量化策略搜索中。具体来说，我们观察到激活熵和跨层依赖性之间存在强相关性，这与输出离散化误差有关。因此，我们采用熵作为代理来优化分区块，旨在在离散化误差和搜索成本之间取得令人满意的平衡。此外，我们优化了视觉编码器以解耦跨层依赖性，从而对搜索空间进行细粒度分解，从而在不损害量化精度的情况下进一步降低搜索成本。实验结果表明，我们的方法在不降低各种多模态推理任务性能的情况下，将大约 13B LLaVA 模型的内存压缩了 2.78 倍，并将生成速度提高了 1.44 倍。代码可在 https://github.com/ChangyuanWang17/QVLM 获取。
2024-10-10	Unsupervised Data Validation Methods for Efficient Model Training	null	本文探讨了改进低资源语言机器学习系统所面临的挑战和潜在解决方案。自然语言处理 (NLP)、文本到语音 (TTS)、语音到文本 (STT) 和视觉语言模型 (VLM) 中的最新模型严重依赖于大型数据集，而这些数据集通常不适用于低资源语言。本研究探讨了关键领域，例如定义“高质量数据”、开发生成适当数据的方法以及增强模型训练的可访问性。对当前方法的全面回顾，包括数据增强、多语言迁移学习、合成数据生成和数据选择技术，突出了进步和局限性。确定了几个开放的研究问题，为未来旨在优化数据利用、减少所需数据量和保持高质量模型性能的研究提供了框架。通过应对这些挑战，本文旨在使低资源语言更容易获得先进的机器学习模型，从而增强其在各个领域的效用和影响力。
2024-10-10	HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter	null	基于适配器的调优方法在将知识从预训练的视觉语言模型迁移到下游任务方面已显示出巨大潜力。然而，在回顾现有的适配器后，我们发现它们通常无法充分探索构建特定任务知识时不同模态之间的交互。此外，现有工作通常只关注正文本提示之间的相似性匹配，这使得区分具有高度相似视觉内容的类别变得具有挑战性。为了解决这些问题，在本文中，我们提出了一种新颖的异构图适配器来实现下游任务的视觉语言模型微调。具体来说，我们首先构建了一个统一的异构图模式，它包含 i) 视觉节点、正文本节点和负文本节点，以及 ii) 几种类型的边连接，以全面地对模态内、模态间和类间结构知识进行建模。接下来，我们采用特定的异构图神经网络来挖掘多模态结构知识，以便为下游任务调整视觉和文本特征。最后，在HeGraphAdapter之后，我们同时构建基于文本和基于视觉的分类器，以全面提升CLIP模型的性能。在 11 个基准数据集上的实验结果证明了所提出的 HeGraphAdapter 的有效性和优势。
2024-10-10	FLIER: Few-shot Language Image Models Embedded with Latent Representations	null	随着像对比语言-图像预训练 (CLIP) 这样的大型视觉语言模型的快速发展，许多类似 CLIP 的方法在视觉识别方面表现出了令人印象深刻的能力，尤其是在低数据场景下。然而，我们注意到大多数这些方法仅限于对文本和图像编码器进行新的修改。最近，潜在扩散模型 (LDM) 在图像生成方面表现出了良好的能力。LDM 的强大能力将我们的注意力引向了 UNet 采样的潜在表示。受 CoOp 中学习到的提示编码超出现有词汇量的含义的猜想的启发，我们假设，对于深度模型，潜在表示是对图像的简洁准确的理解，其中抽象掉了高频的、不可感知的细节。在本文中，我们提出了一种融合潜在表示的少样本语言图像模型 (FLIER)，通过引入一个与 CLIP 的图像编码器联合训练的潜在编码器来进行图像识别，它结合了 CLIP 的预训练视觉语言知识和稳定扩散的潜在表示。我们首先通过稳定扩散使用 GPT-3 的文本输入生成图像和相应的潜在表示。将潜在表示作为“模型可理解的像素”，我们引入了一个具有两个卷积层的灵活卷积神经网络作为潜在编码器，它比视觉语言模型中的大多数编码器都简单。潜在编码器与 CLIP 的图像编码器联合训练，可以更好地将预训练的知识迁移到下游任务。在各种视觉分类任务上的实验和广泛的消融研究表明，FLIER 在大多数少样本分类的 11 个数据集上表现出最先进的性能。
2024-10-10	A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks	link	视觉语言模型 (VLM) 的最新进展使得通过同时处理文本和图像数据来完成复杂的多模态任务成为可能，从而显著增强了人工智能领域。然而，这些模型经常表现出偏差，这些偏差会导致输出偏向社会刻板印象，因此需要去偏差策略。现有的去偏差方法狭隘地关注特定的模态或任务，并且需要大量的再训练。为了解决这些限制，本文介绍了用于去偏差的选择性特征插补 (SFID)，这是一种集成了特征剪枝和低置信度插补 (LCI) 的新方法，可以有效减少 VLM 中的偏差。SFID 具有多种功能，可以保持输出的语义完整性，并且通过消除重新训练的需要来节省成本。我们的实验结果证明了 SFID 在各种 VLM 任务中的有效性，包括零样本分类、文本到图像检索、图像字幕和文本到图像生成，通过在不影响性能的情况下显着减少性别偏差。这种方法不仅增强了 VLM 应用的公平性，而且还保留了它们在不同场景中的效率和实用性。
2024-10-10	3D Vision-Language Gaussian Splatting	null	近年来，三维重建方法和视觉语言模型的进步推动了多模态三维场景理解的发展，这在机器人技术、自动驾驶以及虚拟/增强现实中具有至关重要的应用。然而，当前的多模态场景理解方法简单地将语义表示嵌入到三维重建方法中，而没有在视觉和语言模态之间取得平衡，这导致半透明或反射性物体的语义栅格化效果不理想，以及对颜色模态的过度拟合。为了缓解这些限制，我们提出了一种充分处理不同视觉和语义模态的解决方案，即用于场景理解的三维视觉语言高斯散射模型，以强调语言模态的表示学习。我们提出了一种新颖的跨模态栅格化器，使用模态融合以及平滑语义指示器来增强语义栅格化。我们还采用了相机视图混合技术来提高现有视图和合成视图之间的语义一致性，从而有效地减轻过度拟合。大量实验表明，我们的方法在开放词汇语义分割方面达到了最先进的性能，明显优于现有方法。
2024-10-09	The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks	null	人们越来越关注追踪通用人工智能基础模型的能力。本研究以韦氏成人智力量表（WAIS-IV）为基准，将领先的大型语言模型和视觉语言模型与人类表现进行了比较。WAIS-IV是一种全面、以人群为规范的潜在人类认知和智力能力评估，重点关注语言理解（VCI）、工作记忆（WMI）和知觉推理（PRI）领域。大多数模型在存储、检索和处理诸如字母和数字的任意序列等token方面表现出卓越的能力，与人类群体规范能力相比，工作记忆指数（WMI）的表现等于或大于99.5%。语言理解指数（VCI）衡量的是对获得信息的检索，以及对单词含义及其相互关系的语言理解，其表现也始终保持在98%或以上。尽管有这些广泛的优势，但我们观察到，多模态模型在知觉推理指数（PRI；范围0.1-10%）上的表现一直很差，这表明其在解释和推理视觉信息方面存在严重不足。较小和较旧的模型版本的表现始终较差，这表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著进步。
2024-10-07	Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia	link	我们研究了如何将像 CLIP (Radford et al., 2021) 这样的对比预训练视觉语言模型应用于少样本分类问题。现有文献通过学习冻结视觉特征的线性分类器、优化词嵌入或学习外部特征适配器来解决这个问题。本文介绍了一种无需添加“外部”参数来优化 CLIP 自适应的替代方法。我们发现，与现有的基线相比，简单地微调视觉编码器的最后一个投影矩阵就能获得强大的性能。此外，我们发现，通过微调矩阵和预训练矩阵之间的距离对训练进行正则化，可以提高通过该层自适应 CLIP 的可靠性。也许令人惊讶的是，这种被称为 ProLIP 的方法在 11 个少样本分类基准测试、少样本域泛化、跨数据集迁移和测试时自适应方面取得了与最先进水平相当或更好的性能。代码将在 https://github.com/astra-vision/ProLIP 上提供。
2024-10-07	TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens	null	阅读密集文本和定位图像中的物体是大规模视觉语言模型 (LVLM) 执行高级任务的基本能力。以前的 LVLM，包括像 GPT-4o 这样的优秀专有模型，都难以同时在这两项任务中表现出色。此外，以前具有细粒度感知能力的 LVLM 每张图像需要消耗数千个标记，这使得它们非常消耗资源。我们提出了 TextHawk2，这是一种双语 LVLM，具有高效的细粒度感知能力，并在通用、OCR 和 grounding 任务中展现出最先进的性能，同时图像标记数量减少了 16 倍。关键改进包括：(1) 标记压缩：TextHawk2 建立在其前身的有效架构之上，将每张图像的标记数量显著减少了 16 倍，从而能够以最少的资源促进 TextHawk 系列的训练和部署。(2) 视觉编码器增强：我们通过 LVLM 联合训练增强了视觉编码器，从而释放了其在中文 OCR 和 grounding 等以前未见任务中的潜力。(3) 数据多样性：我们在保持 1 亿个样本的相当规模的同时，使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2，它始终如一地提供卓越的性能，并优于类似规模的闭源模型，例如在 OCRBench 上实现了 78.4% 的准确率，在 ChartQA 上实现了 81.4% 的准确率，在 DocVQA 上实现了 89.6% 的 ANLS，以及在 RefCOCOg-test 上实现了 88.1% 的 [email protected]。
2024-10-07	TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models	link	视觉语言模型 (VLM) 在视觉任务中表现出色，但将其应用于新领域通常需要昂贵的微调。提示调整技术，包括文本、视觉和多模态提示，通过利用可学习的提示提供了有效的替代方案。然而，它们在视觉语言分割模型 (VLSM) 中的应用以及在显著领域迁移下的评估仍有待探索。本研究提出了一个开源基准测试框架 TuneVLSeg，将各种单模态和多模态提示调整技术集成到 VLSM 中，使得提示调整适用于任何类别数量的下游分割数据集。TuneVLSeg 包括在 2 个 VLSM 中使用的不同提示深度上的 6 种提示调整策略，总共 8 种不同的组合。我们在 8 个不同的医学数据集上测试了各种提示调整，包括 3 个放射学数据集（乳腺肿瘤、超声心动图、胸部 X 光片病变）和 5 个非放射学数据集（息肉、溃疡、皮肤癌），以及两个自然领域分割数据集。我们的研究发现，文本提示调整在从自然领域图像到医学数据的显著领域迁移下表现不佳。此外，与多模态提示调整相比，视觉提示调整具有更少的超参数，通常可以实现与多模态方法相当的性能，使其成为一种有价值的首次尝试。我们的工作促进了对不同提示调整技术在鲁棒的特定领域分割中的理解和适用性。源代码可在 https://github.com/naamiinepal/tunevlseg 获取。
2024-10-07	LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation	null	基于大型语言模型（LLMs）和视觉语言模型（VLMs）的进步，近期的研究引入了视觉-语言-动作（VLA）模型作为机器人操作任务的集成解决方案。这些模型将相机图像和自然语言任务指令作为输入，直接生成机器人的控制动作来执行指定任务，极大地提高了决策能力和与人类用户的交互。然而，VLA模型的数据驱动特性，加上其缺乏可解释性，使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此，在这项工作中，我们提出了LADEV，这是一个专门为评估VLA模型而设计的综合高效平台。我们首先提出了一种语言驱动的方法，可以根据自然语言输入自动生成仿真环境，从而减少了手动调整的需求，并显著提高了测试效率。然后，为了进一步评估语言输入对VLA模型的影响，我们实现了一种释义机制，可以生成不同的自然语言任务指令进行测试。最后，为了加快评估过程，我们引入了一种批量式方法来对VLA模型进行大规模测试。使用LADEV，我们对几种最先进的VLA模型进行了实验，证明了其作为评估这些模型的工具的有效性。我们的结果表明，LADEV不仅提高了测试效率，而且为评估VLA模型建立了坚实的基础，为开发更智能、更先进的机器人系统铺平了道路。
2024-10-07	HE-Drive: Human-Like End-to-End Driving with Vision Language Models	null	本文提出了HE-Drive：第一个以类人为中心的端到端自动驾驶系统，用于生成时间一致且舒适的轨迹。最近的研究表明，基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的精确轨迹。然而，这种轨迹规划器和评分器面临着生成时间不一致和不舒适轨迹的困境。为了解决上述问题，我们的HE-Drive首先通过稀疏感知提取关键的3D空间表示，然后将其作为基于条件去噪扩散概率模型（DDPMs）的运动规划器的条件输入，以生成时间一致的多模态轨迹。随后，视觉语言模型（VLMs）引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆，确保类人的端到端驾驶。实验表明，HE-Drive不仅在具有挑战性的nuScenes和OpenScene数据集上实现了最先进的性能（即将平均碰撞率降低了71%比VAD）和效率（即比SparseDrive快1.9倍），而且在真实世界的数据上提供了最舒适的驾驶体验。更多信息请访问项目网站：https://jmwang0117.github.io/HE-Drive/。
2024-10-07	Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models	null	视觉语言预训练 (VLP) 模型在各个领域都取得了显著成功，但它们仍然容易受到对抗性攻击。解决这些对抗性漏洞对于增强多模态学习的安全性至关重要。传统上，针对 VLP 模型的对抗性方法涉及同时扰动图像和文本。然而，这种方法面临着显著的挑战：首先，对抗性扰动通常无法有效地转化为现实场景；其次，对文本的直接修改非常明显。为了克服这些限制，我们提出了一种新策略，该策略专门使用图像补丁进行攻击，从而保持原始文本的完整性。我们的方法利用来自扩散模型的先验知识来增强扰动的真实性和自然性。此外，为了优化补丁放置并提高攻击的效率，我们利用了交叉注意力机制，该机制通过生成注意力图来封装模态间交互，以指导战略性补丁放置。在图像到文本场景的白盒设置中进行的综合实验表明，我们提出的方法明显优于现有技术，实现了 100% 的攻击成功率。此外，它在涉及文本到图像配置的迁移任务中表现出 commendable 的性能。
2024-10-05	TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions	link	大型视觉语言模型 (LVLM) 在视觉感知和语言理解方面取得了显著进展。尽管它们在各种任务中表现出色，但 LVLM 仍然存在幻觉问题，即生成与视觉或文本输入不正确或不忠实的内容。传统的基准测试，如 MME 和 POPE，使用可回答的问题在视觉问答 (VQA) 范围内评估 LVLM 中的幻觉。然而，由于图像中信息不足，有些问题无法回答，而 LVLM 在此类无法回答的问题上的表现仍未得到充分探索。为了弥合这一研究差距，我们提出了 TUBench，这是一个专门用于使用无法回答的问题评估 LVLM 可靠性的基准测试。TUBench 包含大量高质量的、无法回答的问题，这些问题是使用十种不同的策略精心制作的。为了全面评估 LVLM，TUBench 中的无法回答的问题基于来自四个不同领域的图像作为视觉上下文：代码片段的屏幕截图、自然图像、几何图形和统计表的屏幕截图。这些无法回答的问题分别用于测试 LVLM 在代码推理、常识推理、几何推理和与表格相关的数学推理方面的可信度。我们对 TUBench 上的 28 个领先基础模型进行了全面的定量评估，其中表现最佳的模型 Gemini-1.5-Pro 在确定问题是否可回答方面达到了 69.2% 的平均准确率，排名第三的模型 GPT-4o 则达到了 66.7% 的平均准确率。TUBench 可在 https://github.com/NLPCode/TUBench 获取。
2024-10-05	Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks	link	虽然视觉语言模型 (VLM) 在视觉和语言推理任务中表现出非凡的能力，但它们也不可避免地会产生错误的响应。自我纠正，即指导模型改进其输出，为解决这个问题提供了一种很有前景的解决方案。以往的研究主要集中在大型语言模型 (LLM) 上，而 VLM 的自我纠正能力，特别是在视觉和语言信息方面的能力，在很大程度上仍未得到检验。本研究调查了 VLM 在推理和微调阶段的自我纠正能力。我们介绍了一种自我纠正学习 (SCL) 方法，该方法使 VLM 能够通过直接偏好优化 (DPO) 从其自我生成的自我纠正数据中学习，而无需依赖外部反馈，从而促进自我改进。具体来说，我们根据初始和改进响应的正确性收集偏好和不偏好的样本，这些样本是通过在推理阶段使用 VLM 进行两轮自我纠正获得的。实验结果表明，虽然 VLM 在没有额外微调和外部反馈的情况下难以在迭代推理过程中有效地进行自我纠正，但当它们自我生成的自我纠正数据被分类为偏好和不偏好样本时，它们可以通过偏好微调来提高性能并避免以前的错误。这项研究强调，自我纠正不仅仅是一个改进过程；相反，它应该通过额外的训练来增强模型的推理能力，使其能够直接生成高质量的响应，而无需进一步改进。
2024-10-05	Gamified crowd-sourcing of high-quality data for visual fine-tuning	null	本文介绍了游戏化对抗提示 (GAP)，这是一个为大型多模态模型的视觉指令微调进行众包高质量数据的框架。GAP 将数据收集过程转化为引人入胜的游戏，激励玩家提供针对模型知识差距的细粒度、具有挑战性的问题和答案。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法，这些问答对直接针对模型知识中的弱点，(2) 一种评估和奖励玩家的方法，该方法成功地激励他们提供高质量的提交内容，以及 (3) 一个可扩展的游戏化平台，该平台成功地在几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显着提高了小型多模态模型 MiniCPM-Llama3-V-2.5-8B 的准确性，将其在我们数据集上的 GPT 分数从 0.147 提高到 0.477，接近更大的 GPT-4V 所设定的基准。此外，我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的数据也增强了其在其他基准测试中的性能，并展现出跨模型的优势。具体来说，相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准测试中的性能。
2024-10-04	Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models	link	在现实世界中，学习型系统通常会经历多个模型开发周期，以增强系统处理困难或新出现任务的能力。这种持续的模型开发过程提出了一个重要问题，即为获取新能力或改进现有能力而进行的模型开发可能会无意中失去旧模型的能力，也称为灾难性遗忘。现有的持续学习研究侧重于通过权衡先前任务和新任务的性能来减轻灾难性遗忘，以确保良好的平均性能。然而，它们不足以用于许多应用，特别是在安全关键领域，因为未能严格保持旧模型的性能不仅会带来安全风险和不确定性，还会在重新改进和重新验证现有属性方面造成巨大开销。为了解决这个问题，我们引入了模型开发安全作为学习系统的保证，即在模型开发过程中，新模型应严格保留旧模型现有的受保护能力，同时提高其在目标任务上的性能。为了确保模型开发安全，我们提出了一个以安全为中心的框架，将模型开发安全制定为依赖于数据的约束。在这个框架下，我们研究了如何开发一个预训练的视觉语言模型（又称 CLIP 模型），以获得新的能力或改进现有的图像分类能力。我们提出了一种具有理论保证的高效约束优化算法，并利用其见解微调具有任务依赖头的 CLIP 模型，以促进模型开发安全。我们在自动驾驶和场景识别数据集上改进视觉感知能力的实验结果证明了该方法的有效性。
2024-10-04	Generalizable Prompt Tuning for Vision-Language Models	null	针对诸如 CLIP 等视觉语言模型的提示调优涉及优化用于为特定下游任务生成图像-文本对的文本提示。虽然手工制作或基于模板的提示通常适用于更广泛的未见类别，但它们在下游任务（即已见类别）中往往表现不佳。另一方面，可学习的软提示通常在下游任务中表现良好，但缺乏泛化性。此外，先前的研究主要集中在文本模态上，很少有研究试图从视觉模态探索提示的泛化潜力。考虑到这些限制，我们研究了如何进行提示调优以获得具有竞争力的下游性能和泛化能力。研究表明，通过将软提示和手工提示视为文本模态的双重视图，并最大化它们的互信息，我们可以更好地集成特定任务的语义信息和通用语义信息。此外，为了生成更具表达力的提示，该研究引入了来自视觉模态的类别增强，从而显著提高了对更广泛的未见类别的鲁棒性。对多个基准的广泛评估表明，所提出的方法在特定任务性能和泛化能力方面都取得了具有竞争力的结果。
2024-10-04	Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models	link	大型视觉语言模型 (LVLM) 已经取得了令人瞩目的性能，但研究指出，这些模型存在严重的物体幻觉问题。然而，对于这些幻觉源自模型的哪个部分，目前还没有明确的结论。在本文中，我们深入研究了 CLIP 模型中的物体幻觉问题，CLIP 模型是许多最先进的视觉语言系统的支柱。我们揭示了即使是单独使用，CLIP 模型也容易出现物体幻觉，这表明幻觉问题不仅仅是由于视觉和语言模态之间的交互造成的。为了解决这个问题，我们提出了一种反事实数据增强方法，通过创建具有各种幻觉问题的负样本来实现。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉，并且我们展示了增强后的模型可以用作视觉编码器，有效地缓解了 LVLMs 中的物体幻觉问题。
2024-10-04	AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	null	视频详细字幕生成是一项关键任务，旨在生成对视频内容全面而连贯的文本描述，有利于视频理解和生成。在本文中，我们提出了 AuroraCap，一个基于大型多模态模型的视频字幕生成器。我们遵循最简单的架构设计，没有为时间建模添加额外的参数。为了解决长视频序列带来的开销，我们实施了标记合并策略，减少了输入视觉标记的数量。令人惊讶的是，我们发现这种策略几乎没有造成性能损失。AuroraCap 在各种视频和图像字幕基准测试中表现出色，例如，在 Flickr30k 上获得了 88.9 的 CIDEr 分数，超过了 GPT-4V (55.3) 和 Gemini-1.5 Pro (82.2)。然而，现有的视频字幕基准测试只包含简单的描述，由几十个词组成，这限制了该领域的研究。因此，我们开发了 VDC，这是一个包含一千多个精心标注的结构化字幕的视频详细字幕基准测试。此外，我们提出了一种新的 LLM 辅助指标 VDCscore，用于改进评估，该指标采用分治策略将长字幕评估转化为多个简短的问答对。在人工 Elo 排名的帮助下，我们的实验表明，该基准测试与人类对视频详细字幕质量的判断具有更好的相关性。
2024-10-03	CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification	null	在短视频分类中，针对不同业务场景定制的密集特征至关重要。然而，它们的复杂性、特定的适应性要求和高计算成本使得它们在在线推理过程中资源密集且难以访问。因此，这些密集特征被称为“特权密集特征”。同时，端到端多模态模型在众多计算机视觉任务中显示出良好的效果。在工业应用中，优先考虑端到端多模态特征可以提高效率，但往往会导致丢失历史特权密集特征中的宝贵信息。为了在保持效率和可管理的资源成本的同时整合这两种特征，我们提出了置信度感知的特权特征蒸馏（CPFD），它通过在训练过程中自适应地提取特权特征来增强端到端多模态模型的特征。与现有的特权特征蒸馏（PFD）方法不同，CPFD不会在蒸馏过程中对所有实例应用统一的权重（这可能会导致不同业务场景下的性能不稳定，以及教师模型（密集特征增强的多模态模型DF-X-VLM）和学生模型（仅使用多模态模型X-VLM）之间存在显著的性能差距），而是利用从教师模型中获得的置信度分数来自适应地减轻学生模型的性能差异。我们在五个不同的任务上进行了广泛的离线实验，结果表明，与端到端多模态模型（X-VLM）相比，CPFD将视频分类的F1分数提高了6.76%，与普通的PFD相比平均提高了2.31%。它将性能差距缩小了84.6%，并取得了与教师模型DF-X-VLM相当的结果。在线实验进一步证实了CPFD的有效性，我们的框架已经部署到生产系统中，用于十多个模型。
2024-10-03	MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection	null	多模态学习旨在结合来自多个输入源的数据，以提高不同下游任务的性能。在现实场景中，如果缺少某些输入模态，性能可能会大幅下降。现有的可以处理缺失模态的方法包括针对每个输入模态组合进行定制训练或适应步骤。这些方法要么绑定到特定的模态，要么随着输入模态数量的增加而变得计算成本高昂。在本文中，我们提出了掩蔽模态投影（MMP），这是一种旨在训练单个模型的方法，该模型对任何缺失模态场景都具有鲁棒性。我们通过在训练期间随机掩蔽一部分模态并学习投影可用的输入模态来估计掩蔽模态的标记来实现这一点。这种方法使模型能够有效地学习利用来自可用模态的信息来补偿缺失的模态，从而增强缺失模态的鲁棒性。我们使用各种基线模型和数据集进行了一系列实验，以评估该策略的有效性。实验表明，我们的方法提高了对不同缺失模态场景的鲁棒性，优于为缺失模态或特定模态组合设计的现有方法。
2024-10-03	Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL	null	尽管机器人烹饪行为的需求日益增长，但基于机器人在现实世界中对新食谱描述的一系列烹饪行为尚未实现。在本研究中，我们提出了一种机器人系统，该系统集成了使用大型语言模型 (LLM) 和 PDDL 描述的经典规划的可执行的真实世界机器人烹饪行为规划，以及使用视觉语言模型 (VLM) 从少量数据中学习食物成分状态识别。我们成功地进行了实验，在实验中，双臂轮式机器人 PR2 在真实环境中根据安排的新食谱进行烹饪，并确认了所提出系统的有效性。
2024-10-03	Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos	null	最近，越来越多的人认为现代大型多模态模型 (LMM) 已经解决了与短视频理解相关的大多数关键挑战。因此，学术界和工业界都逐渐将注意力转向理解长视频带来的更复杂挑战。然而，事实真的如此吗？我们的研究表明，即使在处理短视频时，LMM 仍然缺乏许多基本的推理能力。我们介绍了 Vinoground，这是一个包含 1000 个短而自然的视频-字幕对的时间反事实 LMM 评估基准。我们证明，现有的 LMM 很难区分不同动作和对象转换之间的时间差异。例如，最佳模型 GPT-4o 在我们的文本和视频得分中仅获得约 50% 的分数，与约 90% 的人类基线相比存在较大差距。所有开源多模态模型和基于 CLIP 的模型表现更差，产生的结果大多是随机的。通过这项工作，我们揭示了短视频中的时间推理是一个尚未完全解决的问题。数据集和评估代码可在 https://vinoground.github.io 获取。
2024-10-03	Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations	link	我们研究了视觉语言模型 (VLM) 的内部表征，以解决幻觉问题，尽管模型规模和训练方面取得了进步，但这仍然是一个持续的挑战。我们将 VLM 的内部图像表征投影到它们的语言词汇表中，并观察到真实物体的输出概率比幻觉物体更有信心。我们还使用这些输出概率来对真实物体进行空间定位。在此方法的基础上，我们引入了一种知识擦除算法，通过线性正交化图像特征和幻觉物体特征来消除幻觉。我们表明，对模型潜在表征的有针对性的编辑可以将 COCO2014 数据集上的幻觉减少高达 25.7%，同时保持性能。我们的研究结果表明，更深入地理解 VLM 的潜在表征可以增强可靠性并实现新的功能，例如零样本分割。
2024-10-03	Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models	null	多模态模型的最新进展突出了重写图像描述对于提高性能的价值，但也存在一些关键挑战。例如，虽然合成图像描述通常提供更高的质量和图文对齐性，但尚不清楚它们是否可以完全替代 AltTexts：合成图像描述的作用及其与原始网络抓取的 AltTexts 在预训练中的交互作用仍不清楚。此外，不同的多模态基础模型可能对特定的图像描述格式有独特的偏好，但确定每个模型的最佳图像描述的努力仍然有限。在这项工作中，我们提出了一种新颖的、可控的和可扩展的图像描述生成流程，旨在生成适合各种多模态模型的不同图像描述格式。通过以简短合成图像描述 (SSC) 和密集合成图像描述 (DSC+) 作为案例研究，我们系统地探索了它们对 CLIP、多模态 LLM 和扩散模型等模型的影响以及与 AltTexts 的交互作用。我们的研究结果表明，保留合成图像描述和 AltTexts 的混合方法可以优于单独使用合成图像描述，从而提高对齐性和性能，并且每个模型都表现出对特定图像描述格式的偏好。这种全面的分析为优化图像描述策略提供了宝贵的见解，从而推进了多模态基础模型的预训练。
2024-10-03	DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects	link	在未知环境中进行物体导航对于在现实世界应用中部署具身代理至关重要。虽然由于大规模场景数据集、更快的模拟器和更强大的模型，我们已经目睹了巨大的进步，但之前的研究主要集中在有限的场景类型和目标物体上。在本文中，我们研究了在大量场景类型中导航到不同目标物体的新任务。为了对该问题进行基准测试，我们提出了一个大规模场景数据集 DivScene，其中包含跨越 81 种不同类型的 4,614 个场景。利用该数据集，我们通过模仿学习微调大型视觉语言模型 (LVLM)，构建了一个端到端的具身代理 NatVLM。LVLM 被训练用于获取来自环境的先前观察结果并生成下一步动作。我们还引入了动作预测的思维链 (CoT) 解释轨迹，以便在调整 LVLM 时获得更好的性能。我们广泛的实验发现，我们可以通过对由 BFS 规划器构建的最短路径进行模仿学习来构建性能良好的基于 LVLM 的代理，而无需任何人工监督。我们的代理实现了超过 GPT-4o 20% 以上的成功率。同时，我们进行了各种分析，展示了我们代理的泛化能力。
2024-10-03	Video Instruction Tuning With Synthetic Data	null	视频大型多模态模型 (LMM) 的发展一直受到从网络获取大量高质量原始数据的难度的阻碍。为了解决这个问题，我们提出了一种替代方法，即创建一个专门用于视频指令遵循的高质量合成数据集，即 LLaVA-Video-178K。该数据集包括关键任务，例如详细字幕、开放式问答 (QA) 和多项选择 QA。通过结合现有的视觉指令调整数据对该数据集进行训练，我们推出了一个新的视频 LLM，即 LLaVA-Video。我们的实验表明，LLaVA-Video 在各种视频基准测试中均取得了出色的性能，突出了我们数据集的有效性。我们计划发布数据集、其生成管道和模型检查点。
2024-10-03	LLaVA-Critic: Learning to Evaluate Multimodal Models	null	我们推出了 LLaVA-Critic，这是第一个开源的大型多模态模型 (LMM)，它被设计成一个通用的评估器，用于评估各种多模态任务的性能。LLaVA-Critic 使用高质量的批评指令遵循数据集进行训练，该数据集包含不同的评估标准和场景。我们的实验结果证明了该模型在两个关键领域的有效性：(1) LMM 作为评判者，LLaVA-Critic 提供可靠的评估分数，在多个评估基准上表现与 GPT 模型相当或更优；(2) 偏好学习，它为偏好学习生成奖励信号，增强模型对齐能力。这项工作强调了开源 LMM 在自我批评和评估方面的潜力，为未来研究 LMM 可扩展的、超人的对齐反馈机制奠定了基础。
2024-10-03	Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models	null	置信度校准对于机器学习模型在现实世界中的安全部署至关重要。然而，像 CLIP 这样的视觉语言模型，特别是在微调之后，尚未完全解决这个问题。本研究表明，现有的提示微调方法通常会导致基础类别和新类别之间校准的权衡：CoOp 中的交叉熵损失通过增加文本标签差异导致对新类别的过度自信，而 KgCoOp 的正则化保持了置信度水平，但由于准确性的提高，导致对基础类别的不自信。受这些观察结果的启发，我们引入了动态异常值正则化 (DOR) 来确保微调后对基础类别和新类别的置信度校准。特别是，我们建议最小化从大型词汇表中采样的新文本标签（而不是基础类别）的特征偏差。实际上，DOR 阻止了新标签的文本差异的增加，同时放宽了对基础类别的限制。大量实验表明，DOR 可以增强当前微调方法在基础类别和新类别上的校准性能。
2024-10-03	Guiding Long-Horizon Task and Motion Planning with Vision Language Models	null	视觉语言模型 (VLM) 能够在被提示目标、上下文、场景图像和任何规划约束时生成看似合理的高级计划。但是，无法保证预测的动作对于特定的机器人实施方案在几何和运动学上是可行的。因此，在他们的计划中，许多先决条件步骤（例如打开抽屉以获取物体）经常被省略。机器人任务和运动规划器可以生成尊重动作几何可行性的运动轨迹，并插入物理上必要的动作，但无法扩展到需要常识知识并涉及由许多变量组成的大状态空间的日常问题。我们提出了 VLM-TAMP，这是一种分层规划算法，它利用 VLM 生成语义上有意义且减少范围的中间子目标，从而指导任务和运动规划器。当子目标或动作无法细化时，将再次查询 VLM 以进行重新规划。我们在厨房任务中评估 VLM-TAMP，其中机器人必须完成需要按顺序执行 30-50 个动作并与多达 21 个物体交互的烹饪目标。VLM-TAMP 的性能大大优于严格且独立地执行 VLM 生成的动作序列的基线，无论是在成功率（50% 到 100% 对比 0%）还是平均任务完成百分比（72% 到 100% 对比 15% 到 45%）。有关更多信息，请参阅项目网站 https://zt-yang.github.io/vlm-tamp-robot/。
2024-10-02	Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations	null	多模态学习在使机器学习模型能够融合和利用文本、图像和音频等不同数据源以支持各种下游任务方面发挥着至关重要的作用。跨各种模态的统一表示对于提高效率和性能尤为重要。最近的绑定方法，如ImageBind（Girdhar等人，2023），通常使用固定的锚点模态来对齐锚点模态嵌入空间中的多模态数据。在本文中，我们对固定锚点绑定方法进行了数学分析，并发现了其显著的局限性：（1）过度依赖于锚点模态的选择，（2）无法捕获模态内信息，以及（3）无法解释非锚点模态之间的模态间相关性。为了解决这些局限性，我们提出了CentroBind，这是一种简单而强大的方法，它消除了对固定锚点的需求；相反，它采用从所有可用模态生成的动态可调的基于质心的锚点，从而产生平衡且丰富的表示空间。我们从理论上证明了我们的方法捕获了多模态学习的三个关键属性：模态内学习、模态间学习和多模态对齐，同时还在所有模态中构建了一个稳健的统一表示。我们在合成数据集和真实世界数据集上的实验都证明了该方法的优越性，表明动态锚点方法优于所有固定锚点绑定方法，因为前者捕获了更细微的多模态交互。
2024-10-02	Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning	null	自主智能体在自动化复杂的多步决策任务中展现出巨大潜力。然而，即使是最先进的视觉语言模型（VLM），例如GPT-4o，在复杂网络环境和长期规划任务中仍未达到人类水平。为了解决这些限制，我们引入了反射蒙特卡洛树搜索（R-MCTS），这是一种新颖的测试时算法，旨在增强人工智能体（例如由GPT-4o驱动的智能体）动态探索决策空间的能力。R-MCTS通过以下方式扩展了传统的MCTS：1）结合对比反射，使智能体能够从过去的交互中学习并动态提高其搜索效率；2）使用多智能体辩论来提供可靠的状态评估。此外，我们通过自我学习微调GPT-4o来提高智能体的性能，使用R-MCTS生成的树遍历，无需任何人工提供的标签。在具有挑战性的VisualWebArena基准测试中，我们基于GPT-4o的R-MCTS智能体在各种任务中比之前的最先进技术实现了6%到30%的相对改进。此外，我们还表明，从测试时搜索中获得的知识可以通过微调有效地转移回GPT-4o。经过微调的GPT-4o在测试时可以达到R-MCTS性能的97%，同时计算量减少了四倍。此外，定性结果表明，经过微调的GPT-4o模型能够探索环境、评估状态，并在检测到当前状态无法导致成功时回溯到可行的状态。此外，我们的工作展示了训练（使用R-MCTS收集数据）和测试时的计算扩展特性。这些结果为通过测试时搜索和自我学习来增强VLM的推理和规划能力，以用于智能体应用，提出了一个有希望的研究方向。
2024-09-30	HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding	null	大型视觉语言模型 (LVLM) 在许多视觉语言任务中都表现出了非凡的性能。然而，这些模型仍然受到多模态幻觉的影响，这意味着会生成违反图像内容的对象或内容。许多现有工作通过直接判断一个对象是否存在于图像中来检测幻觉，而忽略了对象与语义之间的关联。为了解决这个问题，我们提出了视觉增强惩罚解码的分层反馈学习 (HELPD)。该框架在对象和句子语义层面都纳入了幻觉反馈。值得注意的是，即使训练程度不高，这种方法也可以减少 15% 以上的幻觉。同时，HELPD 根据图像注意力窗口惩罚输出 logits，以避免过度受生成文本的影响。HELPD 可以无缝集成到任何 LVLMs 中。我们的实验表明，所提出的框架在多个幻觉基准测试中产生了良好的结果。它有效地减轻了不同 LVLMs 的幻觉，同时提高了它们的文本生成质量。
2024-09-30	CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset	link	机器学习模型正越来越多地部署在现实环境中。然而，关于其对特定和关键应用的可迁移性的系统研究在研究文献中却鲜有报道。一个重要的例子是用于机器人电力线巡检的视觉异常检测 (VAD)。虽然现有的 VAD 方法在受控环境中表现良好，但现实场景中存在着当前数据集无法捕捉到的各种意外异常。为了弥补这一差距，我们推出了 $\textit{CableInspect-AD}$，这是一个由加拿大公用事业公司 Hydro-Qu'ebec 的领域专家创建和标注的高质量、公开可用的数据集。该数据集包含具有挑战性的现实世界异常的高分辨率图像，涵盖了不同严重程度的缺陷。为了解决为设置检测阈值而收集各种异常和正常样本的挑战，我们建议对著名的 PatchCore 算法进行增强。这种增强使其能够在标记数据有限的情况下使用。我们还提出了一个基于交叉验证的综合评估方案，以评估模型的性能。我们评估了我们的 $\textit{Enhanced-PatchCore}$ 在少样本和多样本检测方面的性能，以及视觉语言模型在零样本检测方面的性能。虽然这些模型很有前景，但它们难以检测所有异常，这突出了该数据集作为一个具有挑战性的基准对更广泛研究群体的价值。项目页面：https://mila-iqia.github.io/cableinspect-ad/。
2024-09-30	Visual Context Window Extension: A New Perspective for Long Video Understanding	null	大型多模态模型 (LMM) 在短视频理解任务中表现出色，但在应用于长视频理解时面临巨大挑战。相比之下，大型语言模型 (LLM) 在建模长文本方面表现出色。现有工作试图通过在训练期间引入长视频-文本对来解决这个问题。然而，这些方法需要大量的计算和数据资源。在本文中，我们从上下文窗口的角度来应对长视频理解的挑战，旨在将 LMM 应用于长视频任务，而无需在长视频数据集上重新训练。我们首先深入分析了预训练的 LMM 难以理解长视频内容的原因，发现视觉和语言模态之间的差异导致视觉和语言标记的上下文窗口不同，这使得直接扩展视觉标记以匹配语言上下文窗口变得困难。基于此，我们建议通过扩展视觉上下文窗口来调整 LMM 以适应长视频理解任务，从而无需在大型长视频数据集上重新训练。为了进一步减少长序列导致的大量内存消耗，我们引入了一种渐进式池化推理策略，该策略选择性地调整帧嵌入的空间分辨率，在保留重要空间信息的同时减少视觉标记的数量。在多个长视频理解基准测试中，我们的方法随着视频帧数量的增加而持续提高性能。在 MLVU 基准测试中，我们的方法优于 GPT-4o，即使我们的模型大小只有 7B。此外，在 256 帧设置中，与基线相比，我们的方法将内存使用量减少了大约 45%，而不会导致任何性能损失。
2024-09-30	Towards Robust Multimodal Sentiment Analysis with Incomplete Data	link	多模态情感分析（MSA）领域最近出现了一个新兴方向，旨在解决数据不完整性问题。认识到语言模态通常包含密集的情感信息，我们将其视为主要模态，并提出了一种创新的语言主导抗噪学习网络（LNLN），以实现稳健的MSA。所提出的LNLN具有主要模态校正（DMC）模块和基于主要模态的多模态学习（DMML）模块，通过确保主要模态表示的质量，增强了模型在各种噪声场景下的鲁棒性。除了方法论设计之外，我们还在随机数据缺失场景下进行了全面的实验，在几个流行的数据集（例如MOSI、MOSEI和SIMS）上使用了多样化且有意义的设置，与文献中的现有评估相比，提供了额外的统一性、透明度和公平性。根据经验，LNLN始终优于现有的基线，在这些具有挑战性和广泛的评估指标中表现出卓越的性能。
2024-09-30	Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels	null	像 CLIP 这样的大规模视觉语言模型在图像级任务中表现出了令人印象深刻的开放词汇能力，在识别物体方面表现出色。然而，它们在语义分割等像素级识别任务中却表现不佳，因为这些任务还需要理解物体的位置。在这项工作中，我们提出了一种名为 PixelCLIP 的新方法，通过使用从 SAM 和 DINO 等视觉基础模型生成的未标记图像和掩码来指导模型识别物体的位置，从而使 CLIP 图像编码器适应像素级理解。为了解决在没有语义标签的情况下利用掩码的挑战，我们设计了一种使用可学习类名的在线聚类算法来获取一般的语义概念。PixelCLIP 在开放词汇语义分割方面比 CLIP 显示出显著的性能提升，并且与字幕监督方法相比具有竞争力的结果。项目页面：https://cvlab-kaist.github.io/PixelCLIP
2024-09-29	PALM: Few-Shot Prompt Learning for Audio Language Models	null	音频语言模型（ALM）最近在零样本音频识别任务中取得了显著成果，其灵感来自视觉语言模型（VLM）的进步，将音频波形的特征与特定类别的文本提示特征相匹配。鉴于零样本性能对人工设计文本提示选择的敏感性，已经为VLM开发了许多提示学习技术。我们探索了这些方法在ALM中的有效性，并提出了一种名为“音频语言模型中的提示学习”（PALM）的新方法，该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同，我们的方法实现了更高的训练效率。我们在11个音频识别数据集上证明了我们方法的有效性，这些数据集涵盖了各种语音处理任务，并在少样本学习设置中将结果与三个基线进行了比较。我们的方法在计算量较小的同时，其性能与其他方法相当或更优。代码可在https://asif-hanif.github.io/palm/获取。
2024-09-29	Vision-Language Models are Strong Noisy Label Detectors	link	最近关于视觉语言模型微调的研究表明，其在下游任务中表现出色。然而，在实际应用中获取准确标记数据的挑战给微调过程带来了重大障碍。为了应对这一挑战，本文提出了一种名为 DeFT 的去噪微调框架，用于视觉语言模型的适应性训练。DeFT 利用在数百万个辅助图像-文本对上预训练的文本和视觉特征的鲁棒对齐来筛选噪声标签。所提出的框架通过学习每个类别的正负文本提示来建立噪声标签检测器。正提示旨在揭示该类别的独特特征，而负提示则作为可学习的阈值，用于区分干净样本和噪声样本。我们采用参数高效的微调方法来调整预训练的视觉编码器，以促进其与学习到的文本提示对齐。作为一个通用框架，DeFT 可以通过利用精心挑选的干净样本，将许多预训练模型无缝地微调到下游任务。在七个合成和真实噪声数据集上的实验结果验证了 DeFT 在噪声标签检测和图像分类方面的有效性。
2024-09-29	MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	link	医学本质上是多模态和多任务的，具有涵盖文本、影像等多种数据模态。然而，目前大多数医学领域模型都是单模态单任务的，缺乏良好的泛化性和可解释性。在本研究中，我们介绍了MedViLaM，这是一个通用的医学数据视觉语言模型，它可以使用相同的模型权重灵活地编码和解释各种形式的医学数据，包括临床语言和影像。为了促进这种多任务模型的创建，我们策划了MultiMedBench，这是一个全面的预训练数据集和基准，包含多个不同的任务，即连续问答、多标签疾病分类、疾病定位、放射学报告的生成和总结。MedViLaM在所有MultiMedBench任务中都表现出色，经常大幅超越其他通用模型。此外，我们还展示了零样本泛化到新的医学概念和任务、跨不同任务的有效迁移学习以及零样本医学推理的出现。
2024-09-29	Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method	link	将CLIP等预训练的视觉语言基础模型整合到联邦学习中，以增强跨不同任务的泛化能力，引起了广泛关注。通常，视觉语言模型的联邦学习采用提示学习来降低通信和计算成本，即基于提示的联邦学习。然而，目前对基于提示的联邦学习性能的理论分析还很有限。在这项工作中，我们通过特征学习理论构建了一个基于提示的联邦学习的理论分析框架。具体来说，我们监控了基于提示的联邦学习中信号学习和噪声记忆的演变，证明了可以通过与任务相关和与任务无关的系数之比来评估性能。此外，我们将投资组合优化中的收益和风险与特征学习中的任务相关和任务无关项进行了类比。受投资组合优化理论的启发，即组合两种独立资产将保持收益，同时降低风险，我们引入了两种提示：全局提示和局部提示，以构建一个提示组合来平衡泛化性和个性化。因此，我们展示了提示组合的性能优势，并推导出了最佳混合系数。这些理论主张得到了进一步的实证实验的支持。
2024-09-28	FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models	link	尽管视觉语言模型取得了重大进展并得到广泛应用，但很少有研究探讨其伦理含义。这些模型通常需要大量的训练数据，而这些数据往往来自仓促审查的文本和图像数据集，导致数据集高度失衡并引发伦理问题。此外，最初用英语训练的模型经常针对其他语言进行微调，例如 CLIP 模型，可以通过添加更多数据来增强其功能，但也可能引入新的偏差。CAPIVARA 是一种基于 CLIP 模型并适用于葡萄牙语的模型，在零样本任务中表现出色。在本文中，我们评估了视觉语言模型中的四种不同类型的歧视性做法，并介绍了 FairPIVARA，这是一种通过移除特征嵌入中受影响最大的维度来减少这些做法的方法。FairPIVARA 的应用显著减少了高达 98% 的观察到的偏差，同时促进了模型中更平衡的词语分布。我们的模型和代码可在以下网址获取：https://github.com/hiaac-nlp/FairPIVARA。
2024-09-27	Image-guided topic modeling for interpretable privacy classification	link	用人类可理解的术语预测和解释图像中包含的隐私信息是一项复杂且依赖于上下文的的任务。即使对于大型语言模型来说，这项任务也具有挑战性。为了促进对隐私决策的理解，我们建议根据一组自然语言内容描述符来预测图像隐私。这些内容描述符与隐私分数相关联，这些分数反映了人们如何看待图像内容。我们使用我们新颖的图像引导主题建模（ITM）方法生成描述符。ITM 通过多模态对齐，利用来自视觉语言模型的视觉信息和图像文本描述。我们使用 ITM 生成的描述符来学习隐私预测器 Priv×ITM，其决策在设计上是可解释的。我们的 Priv×ITM 分类器在准确率方面比参考的可解释方法高出 5 个百分点，并且性能与当前最先进的不可解释模型相当。
2024-09-26	LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness	null	大型多模态模型 (LMM) 近期的进步极大地提高了其在 2D 视觉理解任务中的能力，使其能够有效地处理和理解图像和视频。然而，由于缺乏大规模 3D 视觉语言数据集和强大的 3D 编码器，具有 3D 感知能力的 LMM 在 3D 场景理解方面的开发一直受到阻碍。在本文中，我们介绍了一种简单而有效的框架，称为 LLaVA-3D。LLaVA-3D 利用 LLaVA 强大的 2D 理解先验知识，有效地将 LLaVA 应用于 3D 场景理解，而不会影响其 2D 理解能力。为了实现这一点，我们采用了一种简单有效的表示方法，即 3D Patch，它将 2D CLIP 图像块特征与其在 3D 空间中的对应位置连接起来。通过将 3D Patch 集成到 2D LMM 中，并采用联合 2D 和 3D 视觉语言指令微调，我们建立了一个用于 2D 图像理解和 3D 场景理解的统一架构。实验结果表明，在 3D 视觉语言数据集上训练时，LLaVA-3D 的收敛速度比现有 3D LMM 快 3.5 倍。此外，LLaVA-3D 不仅在各种 3D 任务上实现了最先进的性能，而且还保持了与 LLaVA 相当的 2D 图像理解和视觉语言对话能力。
2024-09-26	EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions	null	GPT-4o，一个能够进行带有不同情感和语调的语音对话的多模态模型，标志着多模态基础模型的一个里程碑。然而，在开源社区中，使用公开可用的数据赋予大型语言模型以端到端的方式感知和生成图像、文本和语音仍然具有挑战性。现有的视觉语言模型依赖于外部工具进行语音处理，而语音语言模型仍然存在视觉理解能力有限甚至没有的问题。为了解决这个问题，我们提出了EMOVA（情感无所不在的语音助手），它使大型语言模型具备端到端的语音能力，同时保持领先的视觉语言性能。利用语义-声学解耦的语音标记器，我们惊奇地发现，与相应的双模态对齐模型相比，多模态对齐可以进一步增强视觉语言和语音能力。此外，我们还提出了一个轻量级的风格模块，用于灵活控制语音风格（例如情感和音调）。EMOVA首次在视觉语言和语音基准测试中均实现了最先进的性能，同时支持具有生动情感的多模态语音对话。
2024-09-26	DARE: Diverse Visual Question Answering with Robustness Evaluation	null	视觉语言模型 (VLM) 扩展了仅文本大型语言模型和仅视觉模型的卓越能力，并且能够从多模态视觉文本输入中学习和处理。虽然现代 VLM 在许多标准图像分类和图像文本匹配任务中表现良好，但它们仍然难以应对许多关键的视觉语言 (VL) 推理能力，例如计数和空间推理。此外，虽然它们可能对指令和/或评估协议的微小变化非常脆弱，但现有基准测试未能评估它们的稳健性（或者更确切地说是缺乏稳健性）。为了将具有挑战性的 VL 场景与全面的稳健性评估相结合，我们引入了 DARE，即具有稳健性评估的多样化视觉问答，这是一个精心创建和策划的多项选择 VQA 基准。DARE 评估 VLM 在五个不同类别上的性能，并包括四个基于以下变化的面向稳健性的评估：提示、答案选项子集、输出格式和正确答案的数量。在一系列其他发现中，我们报告说，最先进的 VLM 仍然难以回答大多数类别中的问题，并且无法在测试的稳健性评估中始终如一地提供其峰值性能。选项子集的最差情况性能比标准情况下的性能低 34%。诸如 LLaVA 1.6 和 Idefics2 等开源 VLM 的稳健性无法与 GPT-4 和 Gemini 等闭源模型相提并论，但即使是后者仍然非常容易受到不同变化的影响。
2024-09-26	The Hard Positive Truth about Vision-Language Compositionality	link	多项基准测试得出结论，我们最好的视觉语言模型（例如 CLIP）缺乏组合性。给定一张图像，这些基准测试会探测模型从一组组合干扰项中识别其关联标题的能力。作为回应，最近涌现出大量提案，表明通过使用干扰项作为强负例对 CLIP 进行微调可以改进模型。我们的调查表明，这些改进实际上被严重夸大了——因为现有的基准测试没有探究微调后的视觉语言模型是否对强正例保持不变。通过使用 112,382 个强负例和强正例整理评估数据集，我们发现包含强正例会使 CLIP 的性能降低 12.9%，而人类则可以毫不费力地达到 99% 的准确率。使用强负例微调 CLIP 会导致更大的性能下降，高达 38.7%。基于这一发现，我们制作了一个包含 1,775,259 个图像文本的训练集，其中包含强负例和强正例标题。通过同时使用两者进行训练，我们看到现有基准测试的性能有所提高，同时强正例的性能也有所提高，这表明组合性得到了更稳健的改进。我们的工作表明，未来的研究需要严格测试和改进 CLIP 对相关“正”概念之间语义关系的理解。
2024-09-26	A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios	link	大多数推荐系统采用协同过滤 (CF) 并根据过去的集体交互提供推荐。因此，当可用交互很少或没有交互时，CF 算法的性能会下降，这种情况称为冷启动。为了解决这个问题，以前的工作依赖于利用协作数据和用户或项目辅助信息的模型。类似于多模态学习，这些模型旨在将协作和内容表示组合到共享嵌入空间中。在这项工作中，我们提出了一种新的多模态推荐技术，它依赖于用于推荐的多模态单分支嵌入网络 (SiBraR)。SiBraR 利用权重共享，在不同模态上使用相同的单分支嵌入网络对交互数据以及多模态辅助信息进行编码。这使得 SiBraR 在缺少模态的情况下（包括冷启动）非常有效。我们对来自三个不同推荐域（音乐、电影和电子商务）并提供多模态内容信息（音频、文本、图像、标签和交互）的大规模推荐数据集进行了广泛实验，结果表明，SiBraR 在冷启动场景下明显优于 CF 以及最先进的基于内容的 RS，并且在热启动场景下也具有竞争力。我们证明了 SiBraR 的推荐在缺少模态的情况下是准确的，并且该模型能够将不同的模态映射到共享嵌入空间的同一区域，从而减少了模态差距。
2024-09-26	Cascade Prompt Learning for Vision-Language Model Adaptation	link	提示学习已成为一种有效的方法，可以提高视觉语言模型 (VLM)（如 CLIP）在下游任务中的性能。然而，当前的可学习提示标记主要用于适应任务的单一阶段（即，调整提示），容易导致过拟合风险。在这项工作中，我们提出了一种新颖的级联提示学习 CasPL 框架，使提示学习能够同时服务于通用和特定专业知识（即，增强和调整提示）。具体来说，CasPL 是一种新的学习范式，包括两个不同阶段的可学习提示：第一个增强提示旨在通过使用大量未标记的域图像对齐其预测的 logits，从高级更大的 CLIP 教师模型中提取域通用知识。然后，第二个调整提示与冻结的第一组级联，以微调下游任务，遵循先前研究中采用的方法。通过这种方式，CasPL 可以有效地将域通用和任务特定表示捕获到明确不同的渐进提示组中，从而潜在地缓解目标域中的过拟合问题。值得注意的是，CasPL 作为一个即插即用的模块，可以无缝集成到任何现有的提示学习方法中。CasPL 在性能和推理速度之间实现了显著更好的平衡，这对于在资源受限的环境中部署较小的 VLM 模型特别有利。与先前最先进的方法 PromptSRC 相比，CasPL 在 11 个图像分类数据集上，基本类别平均提高了 1.85%，新类别平均提高了 3.44%，调和平均值平均提高了 2.72%。代码公开地址：https://github.com/megvii-research/CasPL。
2024-09-26	Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification	link	深度多模态学习通过利用对比学习来捕捉模态之间显式的一对一关系，已经展现出显著的成果。然而，现实世界的数据往往表现出超越简单成对关联的共享关系。我们提出了M3CoL，一种多模态混合对比学习方法，用于捕捉多模态数据中固有的细微共享关系。我们的主要贡献是一种基于混合的对比损失函数，它通过将来自一种模态的混合样本与其来自其他模态的对应样本对齐来学习鲁棒的表示，从而捕捉它们之间的共享关系。对于多模态分类任务，我们引入了一个框架，该框架将融合模块与单模态预测模块相结合，以便在训练期间进行辅助监督，并辅以我们提出的基于混合的对比损失函数。通过对不同数据集（N24News、ROSMAP、BRCA 和 Food-101）的广泛实验，我们证明了 M3CoL 可以有效地捕捉共享的多模态关系并在不同领域泛化。它在 N24News、ROSMAP 和 BRCA 上的表现优于最先进的方法，同时在 Food-101 上取得了可比的性能。我们的工作突出了学习共享关系对于鲁棒的多模态学习的重要性，为未来的研究开辟了有希望的途径。
2024-09-26	Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications	null	视觉语言模型在为各种机器人应用提取有意义的特征方面发挥了关键作用。其中，对比语言-图像预训练 (CLIP) 广泛应用于需要视觉和自然语言理解的机器人任务。然而，CLIP 仅在与文本提示配对的静态图像上进行训练，尚未完全适应涉及动态动作的机器人任务。在本文中，我们介绍了 Robotic-CLIP 来增强机器人的感知能力。我们首先收集和标记大规模动作数据，然后使用对比学习在 309,433 个视频（约 740 万帧）的动作数据上微调 CLIP，构建我们的 Robotic-CLIP。通过利用动作数据，Robotic-CLIP 继承了 CLIP 强大的图像性能，同时获得了理解机器人环境中动作的能力。大量实验表明，我们的 Robotic-CLIP 在各种语言驱动的机器人任务中优于其他基于 CLIP 的模型。此外，我们还展示了 Robotic-CLIP 在现实世界抓取应用中的实际有效性。
2024-09-26	MIO: A Foundation Model on Multimodal Tokens	link	本文介绍了一种基于多模态token的新型基础模型MIO，它能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。尽管大型语言模型（LLM）和多模态大型语言模型（MM-LLM）凭借其多功能性推动了人工智能通用性的进步，但它们仍然缺乏真正的任意模态之间理解和生成的能力。最近，GPT-4o的发布展示了任意模态之间LLM在处理复杂现实世界任务方面的巨大潜力，它能够实现图像、语音和文本之间的全向输入和输出。然而，它是一个闭源模型，并且不支持生成多模态交错序列。为了解决这个问题，我们提出了MIO，它使用因果多模态建模在四种模态的离散token混合数据集上进行训练。MIO经历了四个训练阶段：（1）对齐预训练，（2）交错预训练，（3）语音增强预训练，以及（4）针对不同文本、视觉和语音任务的综合监督微调。我们的实验结果表明，与之前的双模态基线、任意模态之间模型基线，甚至是特定模态基线相比，MIO表现出具有竞争力的性能，在某些情况下甚至更胜一筹。此外，MIO还展示了其任意模态之间功能所带来的高级能力，例如交错视频文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。
2024-09-26	P4Q: Learning to Prompt for Quantization in Visual-language Models	null	大规模预训练的视觉语言模型（VLM）在各种视觉和多模态任务中取得了显著成果，但由于其对训练样本和计算资源的巨大需求，将VLM部署到下游应用平台仍然具有挑战性。对VLM进行微调和量化可以显著降低样本和计算成本，因此迫切需要这方面的研究。量化领域目前存在两种主要范式：量化感知训练（QAT）可以有效地量化大规模VLM，但会产生巨大的训练成本；而低比特位后训练量化（PTQ）则存在明显的性能下降问题。我们提出了一种平衡微调和量化的方法，称为“量化提示”（P4Q），其中我们设计了一种轻量级架构，利用对比损失监督来增强PTQ模型的识别性能。我们的方法可以有效地减少由低比特位量化引起的图像特征和文本特征之间的差距，其方法是基于可学习的提示来重组文本表示，并使用低比特位适配器重新调整图像和文本特征的分布。我们还引入了一种基于余弦相似度预测的蒸馏损失，以使用全精度教师模型对量化模型进行蒸馏。大量的实验结果表明，我们的P4Q方法优于现有技术，甚至可以达到与其全精度模型相当的结果。例如，我们的8位P4Q理论上可以将CLIP-ViT/B-32压缩4倍，同时在ImageNet数据集上实现66.94%的Top-1准确率，比可学习提示微调的全精度模型高出2.24%，而额外的参数可以忽略不计。
2024-09-18	Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution	link	我们推出了Qwen2-VL系列，这是对先前Qwen-VL模型的先进升级，它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL引入了朴素动态分辨率机制，使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。这种方法允许模型生成更高效、更准确的视觉表示，与人类的感知过程紧密一致。该模型还集成了多模态旋转位置嵌入（M-RoPE），促进了文本、图像和视频中位置信息的有效融合。我们采用统一的范式来处理图像和视频，增强了模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL研究了大型视觉语言模型（LVLM）的缩放规律。通过扩展模型规模（包括2B、8B和72B参数的版本）和训练数据量，Qwen2-VL系列实现了极具竞争力的性能。值得注意的是，Qwen2-VL-72B模型在各种多模态基准测试中取得了与GPT-4o和Claude3.5-Sonnet等领先模型相当的结果，优于其他通用模型。代码可在\url{https://github.com/QwenLM/Qwen2-VL}获取。
2024-09-18	GauTOAO: Gaussian-based Task-Oriented Affordance of Objects	null	当您的机器人使用灵巧的手或抓手抓取物体时，它应该理解物体的面向任务的可操作性 (TOAO)，因为不同的任务通常需要关注物体的特定部分。为了应对这一挑战，我们提出了 GauTOAO，这是一个基于高斯的物体面向任务可操作性框架，它以零样本的方式利用视觉语言模型，在给定自然语言查询的情况下预测物体上与可操作性相关的区域。我们的方法引入了一种新的范式：“静态相机，移动物体”，使机器人在操作过程中能够更好地观察和理解手中的物体。GauTOAO 解决了现有方法的局限性，这些方法通常缺乏有效的空间分组，它使用 DINO 特征提取完整的 3D 物体掩码。然后，该掩码用于有条件地查询高斯分布，从而生成针对特定任务的、在物体上的精细语义分布。这种方法可以更准确地提取 TOAO，增强机器人对物体的理解并提高任务性能。我们通过现实世界实验验证了 GauTOAO 的有效性，证明了它能够泛化到各种任务。
2024-09-18	LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models	null	视觉语言模型 (VLM) 在众多任务中都表现出色，但与其专用或微调模型相比，它们的零样本能力可能有限。然而，微调 VLM 存在局限性，因为它需要对模型架构和权重的“白盒”访问权限，以及设计微调目标和优化超参数的专业知识，这些都特定于每个 VLM 和下游任务。在这项工作中，我们提出了 LLM-wrapper，这是一种通过利用大型语言模型 (LLM) 来推理其输出，以“黑盒”方式调整 VLM 的新方法。我们通过指代表达理解 (REC) 证明了 LLM-wrapper 的有效性，这是一项需要空间和语义推理的具有挑战性的开放词汇任务。我们的方法显著提高了现成模型的性能，与经典微调相比获得了具有竞争力的结果。
2024-09-17	NVLM: Open Frontier-Class Multimodal LLMs	null	我们推出了 NVLM 1.0，这是一系列前沿的多模态大型语言模型 (LLM)，在视觉语言任务上取得了最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放访问模型（例如 Llama 3-V 405B 和 InternVL 2）相媲美。值得注意的是，NVLM 1.0 在多模态训练后，其纯文本性能优于其 LLM 骨干模型。在模型设计方面，我们对仅解码器多模态 LLM（例如 LLaVA）和基于交叉注意力的模型（例如 Flamingo）进行了全面比较。基于这两种方法的优缺点，我们提出了一种新颖的架构，可以提高训练效率和多模态推理能力。此外，我们为基于图块的动态高分辨率图像引入了 1-D 图块标记设计，这显着提高了多模态推理和 OCR 相关任务的性能。关于训练数据，我们精心策划并提供有关我们多模态预训练和监督微调数据集的详细信息。我们的研究结果表明，即使在预训练阶段，在所有架构中，数据集质量和任务多样性都比规模更重要。值得注意的是，我们为 NVLM-1.0 模型开发了生产级多模态，使其能够在视觉语言任务中表现出色，同时保持甚至改进与其 LLM 骨干模型相比的纯文本性能。为此，我们将高质量的纯文本数据集与大量的多模态数学和推理数据一起制作并集成到多模态训练中，从而增强了跨模态的数学和编码能力。为了推动该领域的研究，我们将发布模型权重，并将开源代码供社区使用：https://nvlm-project.github.io/。
2024-09-17	CAST: Cross-modal Alignment Similarity Test for Vision Language Models	link	视觉语言模型 (VLM) 通常通过视觉问答 (VQA) 任务进行评估，这些任务评估模型对场景的理解。良好的 VQA 性能被视为该模型能够在需要视觉和语言输入的更广泛任务中表现良好的证据。然而，场景感知 VQA 并不能完全捕捉输入偏差，也不能评估由模态之间错位引起的幻觉。为了解决这个问题，我们提出了跨模态对齐相似性测试 (CAST) 来探测 VLM 在不同模态之间的自洽性。该测试包括要求模型仅通过文本、仅通过图像或两者兼用来识别两个场景之间的相似性，然后评估它们生成的相似性的真实性。由于没有可供比较的真实情况，因此该评估的重点不是客观准确性，而是 VLM 在输出方面是否内部一致。我们认为，虽然并非所有自洽模型都具有能力或准确性，但所有有能力的 VLM 都必须是自洽的。
2024-09-17	KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	link	Exploring the narratives conveyed by fine-art paintings is a challenge in image captioning, where the goal is to generate descriptions that not only precisely represent the visual content but also offer a in-depth interpretation of the artwork's meaning. The task is particularly complex for artwork images due to their diverse interpretations and varied aesthetic principles across different artistic schools and styles. In response to this, we present KALE Knowledge-Augmented vision-Language model for artwork Elaborations), a novel approach that enhances existing vision-language models by integrating artwork metadata as additional knowledge. KALE incorporates the metadata in two ways: firstly as direct textual input, and secondly through a multimodal heterogeneous knowledge graph. To optimize the learning of graph representations, we introduce a new cross-modal alignment loss that maximizes the similarity between the image and its corresponding metadata. Experimental results demonstrate that KALE achieves strong performance (when evaluated with CIDEr, in particular) over existing state-of-the-art work across several artwork datasets. Source code of the project is available at https://github.com/Yanbei-Jiang/Artwork-Interpretation.
2024-09-16	Do Pre-trained Vision-Language Models Encode Object States?	null	For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects' physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.
2024-09-16	CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera	null	Camera-to-robot calibration is crucial for vision-based robot control and requires effort to make it accurate. Recent advancements in markerless pose estimation methods have eliminated the need for time-consuming physical setups for camera-to-robot calibration. While the existing markerless pose estimation methods have demonstrated impressive accuracy without the need for cumbersome setups, they rely on the assumption that all the robot joints are visible within the camera's field of view. However, in practice, robots usually move in and out of view, and some portion of the robot may stay out-of-frame during the whole manipulation task due to real-world constraints, leading to a lack of sufficient visual features and subsequent failure of these approaches. To address this challenge and enhance the applicability to vision-based robot control, we propose a novel framework capable of estimating the robot pose with partially visible robot manipulators. Our approach leverages the Vision-Language Models for fine-grained robot components detection, and integrates it into a keypoint-based pose estimation network, which enables more robust performance in varied operational conditions. The framework is evaluated on both public robot datasets and self-collected partial-view datasets to demonstrate our robustness and generalizability. As a result, this method is effective for robot pose estimation in a wider range of real-world manipulation scenarios.
2024-09-16	HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models	null	能够通过自然语言与人类交互的机器人可以解锁许多应用，例如参考抓取合成（RGS）。给定一个文本查询，RGS确定一个稳定的抓取姿态来操纵机器人工作空间中所指的对象。RGS包括两个步骤：视觉定位和抓取姿态估计。最近的研究利用强大的视觉语言模型（VLM）将自由流动的自然语言视觉定位到现实世界的机器人执行中。然而，在具有多个相同对象实例的复杂、杂乱环境中的比较仍然缺乏。本文介绍了HiFi-CS，它采用特征线性调制（FiLM）的分层应用来融合图像和文本嵌入，增强了机器人抓取中遇到的复杂属性丰富文本查询的视觉定位。视觉定位将二维/三维空间中的对象与自然语言输入相关联，并在两种情况下进行研究：封闭词汇和开放词汇。HiFi-CS具有一个轻量级的解码器，结合了一个冻结的VLM，在封闭词汇设置中优于竞争基线，同时尺寸缩小了100倍。我们的模型可以有效地指导像GroundedSAM这样的开放集目标检测器，以提高开放词汇性能。我们使用一个7自由度机械臂，通过真实的RGS实验验证了我们的方法，在15个桌面场景中实现了90.33%的视觉定位精度。我们在补充材料中包含了我们的代码库。
2024-09-19	IRIS: Interactive Responsive Intelligent Segmentation for 3D Affordance Analysis	null	大型语言和视觉语言模型的最新进展显著增强了多模态理解，然而将高级语言指令转换为精确的3D空间机器人动作仍然具有挑战性。本文介绍了IRIS（交互式响应智能分割），这是一种用于3D功能分割的全新免训练多模态系统，以及一个用于评估日常环境中交互式语言引导功能的基准。IRIS将大型多模态模型与专门的3D视觉网络相结合，实现了2D和3D视觉理解与语言理解的无缝融合。为了便于评估，我们提供了一个包含10个典型室内环境的数据集，每个环境包含50张标注了物体动作和3D功能分割的图像。大量实验表明，IRIS能够处理各种环境下的交互式3D功能分割任务，并在各种指标上均展现出具有竞争力的性能。我们的结果突出了IRIS在增强基于复杂室内环境中功能理解的人机交互方面的潜力，推进了更直观、更高效的机器人系统在现实世界应用中的发展。
2024-09-15	FSL-LVLM: Friction-Aware Safety Locomotion using Large Vision Language Model in Wheeled Robots	null	轮腿式机器人在移动性和多功能性方面具有显著优势，但在湿滑地形上运行时面临着巨大挑战。这些机器人的传统基于模型的控制器假设没有滑动。虽然强化学习（RL）可以帮助四足机器人适应不同的表面，但从滑动中恢复仍然具有挑战性，特别是对于接触点较少的系统。估计地面摩擦系数是另一个开放的挑战。在本文中，我们提出了一种新颖的摩擦感知安全运动框架，该框架将大型视觉语言模型（LLM）与RL策略相结合。我们的方法将估计的摩擦系数明确纳入RL策略，使机器人能够在到达表面之前根据表面类型提前调整其行为。我们引入了一个“视觉摩擦”（FFV）模块，该模块利用LLM估计地面摩擦系数，从而无需大型数据集和大量训练。该框架在定制的轮式倒立摆上进行了验证，实验结果表明，我们的框架通过根据地形类型调整速度来提高完成驾驶任务的成功率，同时与基线方法相比实现了更好的跟踪性能。我们的框架可以轻松地与任何其他RL策略集成。
2024-09-15	Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models	null	尽管近期研究表明视觉语言模型 (VLM) 能够使用自然语言描述图像中的复杂关系，但其对物体大小和距离进行定量推理的能力仍有待探索。在这项工作中，我们引入了一个手动标注的基准测试集 Q-Spatial Bench，其中包含 271 个跨越五个类别的、专为定量空间推理设计的问题，并系统地研究了最先进的 VLM 在这项任务上的性能。我们的分析表明，推理物体之间的距离对 SoTA VLM 来说尤其具有挑战性；然而，一些 VLM 的性能明显优于其他模型，表现最好的两个模型之间存在超过 40 个百分点的差距。我们还惊奇地观察到，当响应中自然出现使用参考对象的推理路径时，性能最佳的 VLM 的成功率提高了 19 个百分点。受此观察结果的启发，我们开发了一种零样本提示技术 SpatialPrompt，该技术鼓励 VLM 使用参考对象作为视觉线索来回答定量空间问题。通过 SpatialPrompt 指导 VLM 在其推理路径中使用参考对象，Gemini 1.5 Pro、Gemini 1.5 Flash 和 GPT-4V 的成功率分别提高了 40、20 和 30 个百分点以上。我们强调，这些显著的改进无需更多数据、模型架构修改或微调即可实现。
2024-09-15	Finetuning CLIP to Reason about Pairwise Differences	link	视觉语言模型 (VLM) 如 CLIP 是通过文本和图像对之间的对比学习进行训练的，从而产生对齐的图像和文本嵌入，这对许多下游任务非常有用。然而，CLIP 的一个显著缺点是，由此产生的嵌入空间似乎缺乏其纯文本替代方案所具有的一些结构。例如，长期以来，人们一直注意到文本嵌入可以使用向量算术来满足嵌入空间中的\emph{类比}，而 CLIP 则没有这种特性。在本文中，我们提出了一种以对比方式原生训练 CLIP 的方法，以便推理嵌入空间中的差异。我们对 CLIP 进行了微调，以便图像嵌入空间中的差异对应于\emph{图像差异的文本描述}，我们使用大型语言模型在图像-标题配对数据集上合成地生成了这些描述。我们首先证明，我们的方法在按特定属性对图像进行排序（例如，大象比猫大）方面产生了显著改进的能力，这在检索或构建基于属性的分类器中非常有用，并且提高了许多下游图像分类任务上的零样本分类性能。此外，我们的方法还实现了一种新的推理机制，我们将其称为比较提示，其中我们利用对感兴趣类别之间差异的文本描述的先验知识，在分类中实现了更大的性能提升。最后，我们说明了生成的嵌入在嵌入空间中遵循更大程度的几何特性，例如在文本到图像的生成中。
2024-09-13	Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing	null	遥感影像中的目标检测在地球观测的各种应用中发挥着至关重要的作用。然而，与自然场景图像中的目标检测不同，这项任务特别具有挑战性，因为在不同的地形中存在大量的小型且通常难以察觉的目标。为了应对这些挑战，可以使用多模态学习来整合来自不同数据模态的特征，从而提高检测精度。然而，多模态学习的性能往往受到标记数据集大小的限制。在本文中，我们建议使用掩蔽图像建模（MIM）作为一种预训练技术，利用无标记数据的自监督学习来提高检测性能。然而，传统的MIM方法（如MAE）使用没有上下文信息的掩蔽标记，由于缺乏与图像其他部分的交互，难以捕捉到细粒度的细节。为了解决这个问题，我们提出了一种新的交互式MIM方法，可以在不同的标记之间建立交互，这对于遥感中的目标检测特别有利。大量的消融研究和评估证明了我们方法的有效性。
2024-09-13	A Multimodal Approach for Fluid Overload Prediction: Integrating Lung Ultrasound and Clinical Data	null	维持透析患者的体液平衡至关重要，因为管理不当会导致严重并发症。在本文中，我们提出了一种多模态方法，该方法整合了肺部超声图像的视觉特征和临床数据，以增强对体内多余液体预测的准确性。我们的框架采用独立的编码器来提取每种模态的特征，并通过跨域注意力机制将它们组合起来，以捕获互补信息。通过将预测构建为分类任务，该模型实现了比回归模型更好的性能。结果表明，多模态模型始终优于单模态模型，尤其是在注意力机制优先考虑表格数据时。伪样本生成进一步有助于缓解分类问题中的数据不平衡问题，实现了 88.31% 的最高准确率。这项研究强调了多模态学习对透析患者液体超负荷管理的有效性，为改善临床结果提供了宝贵的见解。
2024-09-13	ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning	null	遥感 (RS) 变化分析通过检测图像随时间的变化来监测地球动态过程，至关重要。传统的变点检测擅长识别像素级的变化，但缺乏将这些变化置于背景中的能力。虽然最近在变化描述方面的进展提供了对变化的自然语言描述，但它们不支持交互式的、用户特定的查询。为了解决这些限制，我们引入了 ChangeChat，这是第一个专为 RS 变化分析设计的双时态视觉语言模型 (VLM)。ChangeChat 利用多模态指令微调，使其能够处理复杂的查询，例如变化描述、特定类别的量化和变化定位。为了提高模型的性能，我们开发了 ChangeChat-87k 数据集，该数据集是使用基于规则的方法和 GPT 辅助技术相结合生成的。实验表明，ChangeChat 为 RS 变化分析提供了一个全面、交互式的解决方案，在特定任务上的性能达到甚至优于最先进 (SOTA) 方法，并显着超过了最新的通用模型 GPT-4。代码和预训练权重可在 https://github.com/hanlinwu/ChangeChat 获取。
2024-09-13	Generalization Boosted Adapter for Open-Vocabulary Segmentation	null	视觉语言模型 (VLM) 已展现出卓越的开放词汇对象识别能力，这促使它们被应用于密集预测任务，例如分割。然而，由于缺乏像素级粒度以及可用于微调的数据有限，直接将 VLM 应用于此类任务仍然具有挑战性，导致过度拟合和泛化能力差。为了解决这些限制，我们提出了泛化增强适配器 (GBA)，这是一种新颖的适配器策略，可以增强 VLM 对开放词汇分割的泛化能力和鲁棒性。GBA 包含两个核心组件：(1) 风格多样化适配器 (SDA)，它将特征解耦为幅度和相位分量，仅对幅度进行操作以丰富特征空间表示，同时保持语义一致性；(2) 相关性约束适配器 (CCA)，它采用交叉注意力机制在文本类别和目标区域之间建立更紧密的语义关联，抑制不相关的低频“噪声”信息并避免错误关联。通过浅层 SDA 和深层 CCA 的协同效应，GBA 有效地缓解了过度拟合问题，并增强了特征表示的语义相关性。作为一个简单、高效、即插即用的组件，GBA 可以灵活地集成到各种基于 CLIP 的方法中，展现出广泛的适用性，并在多个开放词汇分割基准测试中实现了最先进的性能。
2024-09-12	Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations	null	像 CLIP 这样的视觉语言模型 (VLM) 已被应用于部分标注的多标签识别 (MLR)，其方法是利用提示学习，为每个类别学习正负提示，以便将它们的嵌入与共享视觉文本特征空间中的类别存在或不存在相关联。虽然这种方法通过依赖 VLM 先验信息提高了 MLR 性能，但我们假设学习负面提示可能不是最优的，因为用于训练 VLM 的数据集缺乏明确关注类别缺失的图像-标题对。为了分析正负提示学习对 MLR 的影响，我们引入了 PositiveCoOp 和 NegativeCoOp，其中只有一个提示是在 VLM 指导下学习的，而另一个提示则被直接在共享特征空间中学习的嵌入向量所取代，而不依赖于文本编码器。通过实证分析，我们观察到负面提示会降低 MLR 性能，并且仅学习正面提示并结合学习到的负面嵌入（PositiveCoOp）优于双提示学习方法。此外，我们量化了提示学习相对于仅使用视觉特征的简单基线的性能优势，观察到当缺失标签的比例较低时，基线表现出与双提示学习方法 (DualCoOp) 相当的强劲性能，同时所需的训练计算量减少一半，参数数量减少 16 倍。
2024-09-12	What Makes a Maze Look Like a Maze?	null	人类视觉理解的一个独特之处在于能够灵活地解释抽象概念：获取解释其象征意义的提升规则，将它们应用于熟悉和不熟悉的语境，并对其进行预测或推理。虽然现成的视觉语言模型擅长对图像进行字面解释（例如，识别树枝等物体类别），但它们仍然难以理解此类视觉抽象概念（例如，树枝的排列方式如何形成迷宫的墙壁）。为了应对这一挑战，我们引入了深度模式基础（DSG），这是一个利用视觉抽象的显式结构化表示进行基础化和推理的框架。DSG 的核心是模式——抽象概念的依赖图描述，将它们分解成更原始级别的符号。DSG 使用大型语言模型来提取模式，然后使用视觉语言模型将模式的具体组件到抽象组件分层地基础化到图像上。基础化的模式用于增强视觉抽象理解。我们在新的视觉抽象数据集上系统地评估了 DSG 和不同的推理方法，该数据集包含各种现实世界中抽象概念的图像以及由人类标记的相应问答对。我们表明，DSG 显着提高了视觉语言模型的抽象视觉推理性能，并且是朝着人类一致的视觉抽象理解迈出的一步。
2024-09-13	A Comprehensive Survey on Deep Multimodal Learning with Missing Modality	null	在多模态模型训练和推理过程中，由于传感器限制、成本限制、隐私问题、数据丢失以及时间和空间因素，数据样本可能会缺少某些模态，从而导致模型性能下降。本综述概述了缺失模态的多模态学习 (MLMM) 的最新进展，重点关注深度学习技术。它是第一个涵盖历史背景和 MLMM 与标准多模态学习设置之间区别的综合性综述，然后详细分析了当前的 MLMM 方法、应用和数据集，最后讨论了该领域的挑战和潜在的未来方向。
2024-09-12	Top-down Activity Representation Learning for Video Question Answering	null	从原子动作（例如，拿起一个礼物，移动到沙发，打开礼物）到上下文事件（例如，庆祝圣诞节）捕捉复杂的分层人类活动对于实现高性能视频问答 (VideoQA) 至关重要。最近的工作已经扩展了多模态模型（例如，CLIP，LLaVA）来处理连续视频序列，增强了模型的时间推理能力。然而，这些方法通常无法捕捉可以分解为多个原子动作的上下文事件，这些动作非连续地分布在相对长期的序列中。在本文中，为了利用 CLIP 模型的空间视觉上下文表示能力来获得视频中上下文事件方面的非连续视觉表示，我们将长期视频序列转换为空间图像域，并针对 VideoQA 任务微调多模态模型 LLaVA。我们的方法在 STAR 任务上取得了具有竞争力的性能，特别是在 NExTQA 任务上，获得了 78.4% 的准确率，超过了当前最先进的得分 2.8 个百分点。
2024-09-12	DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?	link	大型语言模型（LLM）和大型视觉语言模型（LVLM）已经展现出令人印象深刻的语言/视觉推理能力，引发了构建针对特定应用（如购物助手或AI软件工程师）的代理的最新趋势。最近，许多数据科学基准测试被提出，以研究其在数据科学领域的性能。然而，现有的数据科学基准测试与现实世界的数据科学应用相比仍然存在不足，因为它们的设置过于简化。为了弥合这一差距，我们引入了 DSBench，这是一个全面的基准测试，旨在评估具有现实任务的数据科学代理。该基准测试包括 466 个数据分析任务和 74 个数据建模任务，这些任务来自 Eloquence 和 Kaggle 竞赛。DSBench 通过包含长上下文、多模态任务背景、对大型数据文件和多表结构进行推理以及执行端到端数据建模任务，提供了一个真实的设置。我们对最先进的 LLM、LVLM 和代理的评估表明，它们难以完成大多数任务，最好的代理仅能解决 34.12% 的数据分析任务，并实现了 34.74% 的相对性能差距 (RPG)。这些发现强调了进一步发展更实用、更智能、更自主的数据科学代理的必要性。
2024-09-12	Open-Vocabulary Remote Sensing Image Semantic Segmentation	link	开放词汇图像语义分割 (OVS) 旨在将图像分割成跨开放类别集的语义区域。现有的 OVS 方法通常依赖于基础视觉语言模型，并利用相似度计算来处理 OVS 任务。然而，这些方法主要针对自然图像量身定制，难以应对遥感图像的独特特征，例如快速变化的方向和显著的尺度变化。这些挑战使地球视觉中的 OVS 任务变得复杂，需要专门的方法。为了解决这一难题，我们借鉴了独特的遥感特征，提出了第一个专门为遥感图像设计的 OVS 框架。特别是，为了解决不同的方向问题，我们引入了一种旋转聚合相似度计算模块，该模块生成方向自适应相似度图作为初始语义图。随后，这些图会在空间和类别级别进行细化，以生成更准确的语义图。此外，为了管理显著的尺度变化，我们将多尺度图像特征集成到上采样过程中，从而得到最终的尺度感知语义掩码。为了推进地球视觉中的 OVS 并鼓励可重复研究，我们建立了第一个用于遥感图像的开源 OVS 基准，包括四个公共遥感数据集。在这个基准上的大量实验表明，我们提出的方法达到了最先进的性能。所有代码和数据集都可以在 https://github.com/caoql98/OVRS 获取。
2024-09-11	Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	link	基于多模态大数据集训练的大型视觉语言模型 (LVLM) 在视觉语言任务方面表现出色，极大地推进了人工智能的发展。然而，这些模型仍然容易受到对抗性攻击，尤其是越狱攻击，这些攻击会绕过安全协议，导致模型生成误导性或有害的响应。这种脆弱性源于大型语言模型 (LLM) 固有的敏感性以及视觉模态引入的扩大攻击面。我们提出了 Sim-CLIP+，这是一种新颖的防御机制，它利用 Siamese 架构通过对抗性微调 CLIP 视觉编码器。这种方法最大限度地提高了扰动样本和干净样本之间的余弦相似度，增强了对对抗性操作的抵抗力。Sim-CLIP+ 提供了一种即插即用的解决方案，允许作为强大的视觉编码器无缝集成到现有的 LVLM 架构中。与以前的防御措施不同，我们的方法不需要对 LVLM 进行结构修改，并且计算开销最小。Sim-CLIP+ 证明了其对基于梯度的对抗性攻击和各种越狱技术的有效性。我们针对三种不同的越狱攻击策略评估了 Sim-CLIP+，并使用标准下游数据集（包括用于图像字幕的 COCO 和用于视觉问答的 OKVQA）执行了干净评估。大量实验表明，Sim-CLIP+ 在保持高清洁精度的同时，显着提高了对基于梯度的对抗性攻击和越狱技术的鲁棒性。我们的代码和强大的视觉编码器可在 https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git 获取。
2024-09-11	MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving	link	视觉语言模型 (VLM) 作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型 (LLM)，这使得它们难以部署在现实世界场景和实时应用程序中。同时，大多数现有 VLM 缺乏处理多图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一种名为 MiniDrive 的新型框架，该框架结合了我们提出的特征工程混合专家 (FE-MoE) 模块和动态指令适配器 (DI-Adapter)。FE-MoE 在输入语言模型之前，将 2D 特征有效地映射到视觉标记嵌入中。DI-Adapter 使视觉标记嵌入能够随指令文本嵌入动态变化，解决了以往方法中同一图像的静态视觉标记嵌入问题。与之前的工作相比，MiniDrive 在参数大小、浮点运算和响应效率方面实现了最先进的性能，最小版本仅包含 83M 参数。
2024-09-11	MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis	null	本文介绍了MVLLaVA，这是一种专为新视角合成任务设计的智能代理。MVLLaVA将多个多视图扩散模型与大型多模态模型LLaVA相结合，使其能够高效地处理各种任务。MVLLaVA代表了一个通用且统一的平台，可以适应不同的输入类型，包括单个图像、描述性标题或视角方位角的特定变化，并以语言指令指导视角生成。我们精心设计了特定于任务的指令模板，随后用于微调LLaVA。因此，MVLLaVA获得了根据用户指令生成新视角图像的能力，展示了其在不同任务中的灵活性。实验验证了MVLLaVA的有效性，证明了其在应对各种新视角合成挑战时的强大性能和多功能性。
2024-09-11	FSMDet: Vision-guided feature diffusion for fully sparse 3D detector	null	近年来，全稀疏三维目标检测引起了越来越多的关注。然而，这些框架中特征的稀疏性由于扩散过程有限，对候选框的生成提出了挑战。此外，对效率的追求导致对视觉辅助的全稀疏模型的研究很少。在本文中，我们提出了FSMDet（全稀疏多模态检测），它使用视觉信息来指导激光雷达特征扩散过程，同时仍然保持管道的效率。具体来说，大多数全稀疏工作都集中在复杂的定制中心融合扩散/回归算子上。然而，我们观察到，如果执行了适当的目标补全，即使是最简单的插值算子也能得到令人满意的结果。受此观察的启发，我们将视觉引导的扩散过程分为两个模块：形状恢复层（SRLayer）和自扩散层（SDLayer）。前者使用RGB信息来恢复物体可见部分的形状，后者使用视觉先验将特征进一步扩散到中心区域。实验表明，我们的方法成功地提高了以往仅使用激光雷达的全稀疏模型的性能，并在多模态模型中达到了SOTA性能。同时，由于采用了稀疏架构，我们的方法在推理过程中比以往的SOTA方法效率最高可提高5倍。
2024-09-10	ExIQA: Explainable Image Quality Assessment Using Distortion Attributes	null	盲图像质量评估 (BIQA) 旨在开发无需参考图像即可估计图像质量分数的方法。在本文中，我们从失真识别角度探讨 BIQA，主要目标是利用视觉语言模型 (VLM)（如 CLIP）预测失真类型和强度，因为它们具有广泛的知识和泛化能力。基于这些预测的失真，我们然后估计图像的质量分数。为此，我们提出了一种基于属性学习的可解释失真识别方法。我们没有使用失真名称提示 VLM，而是使用失真的属性或影响提示它们，并汇总这些信息以推断失真强度。此外，我们为每张图像考虑了多种失真，使我们的方法更具可扩展性。为此，我们生成了一个包含 100,000 张图像的数据集，用于高效训练。最后，检索属性概率并将其输入回归器以预测图像质量分数。结果表明，我们的方法除了具有可解释性和透明度外，还在多个数据集的 PLCC 和 SRCC 指标上均达到了最先进 (SOTA) 的性能。此外，零样本结果证明了该方法的泛化能力。
2024-09-10	MAGDA: Multi-agent guideline-driven diagnostic assistance	null	在急诊科、乡村医院或欠发达地区的诊所，临床医生往往缺乏训练有素的放射科医生进行快速图像分析，这可能对患者的医疗保健产生不利影响。大型语言模型 (LLM) 有可能通过提供有助于临床医生做出决策的见解，从而减轻他们的一些压力。虽然这些 LLM 在医学考试中取得了很高的测试成绩，展示了其丰富的理论医学知识，但它们往往不遵循医学指南。在这项工作中，我们介绍了一种新的零样本指南驱动决策支持方法。我们模拟了一个由多个 LLM 代理组成的系统，该系统增强了对比视觉语言模型，这些代理协作以达成患者诊断。在向代理提供简单的诊断指南后，他们将根据这些指南合成提示并筛选图像以查找结果。最后，他们为自己的诊断提供易于理解的思维链推理，然后对其进行自我完善，以考虑疾病之间的相互依赖性。由于我们的方法是零样本的，因此它适用于罕见疾病的设置，在这些情况下，训练数据有限，但可以使用专家制定的疾病描述。我们在两个胸部 X 光数据集 CheXpert 和 ChestX-ray 14 Longtail 上评估了我们的方法，展示了其相对于现有零样本方法的性能改进以及对罕见疾病的泛化能力。
2024-09-10	INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding	null	可供性是指物体固有的潜在交互方式。对可供性的感知可以让智能体高效地在新环境中导航和交互。弱监督可供性基础可以让智能体在没有昂贵的像素级标注的情况下学习可供性的概念，但需要使用以环境为中心的图像。尽管弱监督可供性基础的最新进展已经取得了可喜的成果，但仍然存在一些挑战，例如需要配对的以环境为中心和以自我为中心的图像数据集，以及为单个物体基础多种可供性的复杂性。为了解决这些问题，我们提出了交互关系感知的弱监督可供性基础 (INTRA)。与现有技术不同，INTRA 将这个问题重新定义为表征学习，通过仅使用以环境为中心的图像进行对比学习来识别交互的独特特征，从而消除了对配对数据集的需求。此外，我们利用视觉语言模型嵌入来灵活地使用任何文本进行可供性基础，设计了以文本为条件的可供性映射生成，以反映交互关系以进行对比学习，并通过我们的文本同义词增强来增强鲁棒性。我们的方法在 AGD20K、IIT-AFF、CAD 和 UMD 等不同的数据集上优于现有技术。此外，实验结果表明，我们的方法对合成图像/插图具有显著的领域可扩展性，并且能够对新的交互和物体进行可供性基础。
2024-09-10	Revisiting Prompt Pretraining of Vision-Language Models	null	提示学习是一种有效的定制视觉语言模型 (VLM) 以适应各种下游任务的方法，它仅需微调输入提示词符的少量参数。近年来，在大规模数据集（例如 ImageNet-21K）上进行提示预训练已成为通用视觉识别提示学习的关键。然而，我们重新审视并观察到，在提示预训练期间，鉴于图像数量庞大，有限的可学习提示可能会面临欠拟合的风险，同时导致泛化能力较差。为了解决上述问题，本文提出了一种名为“重新审视提示预训练”（RPP）的通用框架，旨在从提示结构和提示监督两个方面提高拟合和泛化能力。对于提示结构，我们打破了查询、键和值向量均来自共享的可学习提示词符的常见做法的限制。相反，我们引入了非共享的独立查询、键和值可学习提示，从而通过增加参数多样性来增强模型的拟合能力。对于提示监督，我们还利用了由预训练的对比语言图像预训练 (CLIP) 教师模型提供的零样本概率预测得到的软标签。这些软标签可以更细致、更全面地洞察类间关系，从而赋予预训练过程更好的泛化能力。RPP 产生更稳健的提示初始化，增强其在各种视觉识别任务中的鲁棒迁移能力。跨多个基准的实验一致证实了我们预训练提示的最新性能。代码和模型将很快发布。
2024-09-09	PEERNet: An End-to-End Profiling Tool for Real-Time Networked Robotic Systems	link	网络机器人系统在自动驾驶汽车、无人机群和远程手术等应用中需要平衡计算、功耗和延迟约束。该领域的核心问题是何时将计算量大的任务卸载到云端（远程服务器）以换取通信延迟。任务卸载算法通常依赖于对系统特定性能指标的精确了解，例如传感器数据速率、网络带宽和机器学习模型延迟。虽然这些指标可以在系统设计期间进行建模，但连接质量、服务器负载和硬件条件的不确定性会导致实时性能变化，从而影响整体性能。我们推出了 PEERNet，这是一种用于云机器人的端到端实时分析工具。PEERNet 通过对传感器、网络、深度学习管道和设备等系统组件进行有针对性但自适应的分析，从而能够在异构硬件上进行性能监控。我们通过网络机器人任务展示了 PEERNet 的功能，例如基于图像的 Franka Emika Panda 机械臂远程操作和使用 Nvidia Jetson Orin 查询视觉语言模型。PEERNet 揭示了机器人系统中非直观的的行为，例如非对称网络传输和双峰语言模型输出。我们的评估强调了网络机器人中基准测试的有效性和重要性，证明了 PEERNet 的适应性。我们的代码是开源的，可在 github.com/UTAustin-SwarmLab/PEERNet 获取。
2024-09-07	Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries	null	在药物发现领域，DNA 编码化合物库 (DEL) 筛选技术已成为识别高亲和力化合物的有效方法。然而，DEL 筛选面临着一个重大挑战：复杂生物系统中非特异性相互作用产生的噪声。在 DEL 库上训练的神经网络已被用于提取化合物特征，旨在对数据进行去噪并发现潜在的治疗靶点结合剂。然而，DEL 的固有结构受限于结构单元的有限多样性，这影响了化合物编码器的性能。此外，现有方法仅在单一级别捕获化合物特征，进一步限制了去噪策略的有效性。为了缓解这些问题，我们提出了一种多模态预训练 DEL-Fusion 模型 (MPDF)，该模型通过预训练增强编码器能力，并在不同尺度上整合化合物特征。我们开发了在不同化合物表示及其文本描述之间应用对比目标的预训练任务，增强了化合物编码器获取通用特征的能力。此外，我们提出了一种新颖的 DEL-fusion 框架，该框架融合了原子、亚分子和分子水平的化合物信息，这些信息由各种化合物编码器捕获。这些创新的协同作用使 MPDF 具备丰富的多尺度特征，从而实现全面的下游去噪。在三个 DEL 数据集上进行的评估表明，MPDF 在验证任务的数据处理和分析方面表现出优异的性能。值得注意的是，MPDF 为识别高亲和力分子提供了新的见解，为改进 DEL 在药物发现中的应用铺平了道路。
2024-09-09	DexDiff: Towards Extrinsic Dexterity Manipulation of Ungraspable Objects in Unrestricted Environments	null	抓取又大又平的物体（例如书或平底锅）通常被认为是一项无法完成的任务，因为抓取姿势无法企及，这带来了重大挑战。以前的工作利用墙壁或桌子边缘等外部灵活性来抓取此类物体。然而，它们仅限于特定于任务的策略，并且缺乏寻找预抓取条件的任务规划。这使得适应各种环境和外部灵活性约束变得困难。因此，我们提出了 DexDiff，一种用于具有外部灵活性的长视野规划的稳健机器人操作方法。具体来说，我们利用视觉语言模型 (VLM) 来感知环境状态并生成高级任务计划，然后使用目标条件动作扩散 (GCAD) 模型来预测低级动作序列。该模型从离线数据中学习低级策略，并将高级规划引导的累积奖励作为目标条件，从而可以改进对机器人动作的预测。实验结果表明，我们的方法不仅可以有效地执行无法完成的任务，而且可以泛化到以前从未见过的物体。它在模拟中的成功率比基线高 47%，并有助于在现实场景中高效部署和操作。
2024-09-08	PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions	link	大型视觉语言模型 (LVLM) 已经展示出强大的多模态能力。然而，它们也面临着严重的安全问题，因为攻击者可以通过精心设计的对抗样本在 LVLM 中引发鲁棒性问题。因此，LVLM 迫切需要针对对抗样本的检测工具，以防止出现错误响应。在这项工作中，我们首先发现，当使用探测问题时，LVLM 对干净图像表现出规律的注意力模式。我们提出了一种名为 PIP 的非常规方法，它利用一个随机选择的无关探测问题（例如，“有钟表吗？”）的注意力模式来区分对抗样本和干净样本。无论待测图像及其对应的问题是什么，PIP 只需要对待测图像和探测问题进行一次额外的推理，即可成功检测对抗样本。即使在黑盒攻击和开放数据集场景下，我们的 PIP 与简单的 SVM 相结合，仍然可以实现超过 98% 的召回率和超过 90% 的精确率。我们的 PIP 是首次尝试通过简单的无关探测问题来检测针对 LVLM 的对抗攻击，为更深入地理解和反思 LVLM 提供了思路。代码可在 https://github.com/btzyd/pip 获取。
2024-09-07	POINTS: Improving Your Vision-language Model with Affordable Strategies	null	近年来，视觉语言模型取得了重大进展，在光学字符识别和几何问题解决等任务中表现出色。然而，仍然存在几个关键问题：1）专有模型的架构往往缺乏透明度，而开源模型需要对其训练策略进行更详细的消融研究。2）开源工作中的预训练数据尚未得到充分探索，数据集是根据经验添加的，这使得过程变得繁琐。3）微调通常侧重于添加数据集，导致收益递减。为了解决这些问题，我们提出以下贡献：1）我们使用视觉语言模型的最新进展训练了一个强大的基线模型，引入了有效的改进，并对每种技术进行了全面的消融和验证。2）受近期大型语言模型工作的启发，我们使用困惑度对预训练数据进行过滤，选择困惑度最低的数据进行训练。这种方法使我们能够在精选的 1M 数据集上进行训练，并取得了具有竞争力的性能。3）在视觉指令微调期间，当添加更多数据集的收益微乎其微时，我们对不同数据集使用了模型融合。这些创新产生了一个 9B 参数的模型，其性能与最先进的模型相比具有竞争力。我们的策略高效且轻量级，因此社区很容易采用。
2024-09-07	Enhancing Outlier Knowledge for Few-Shot Out-of-Distribution Detection with Extensible Local Prompts	null	分布外 (OOD) 检测旨在区分已知类别之外的异常值，在实际场景中已变得越来越重要。近年来，视觉语言模型 (VLM) 的出现激发了人们对通过少量样本微调来增强 VLM 的 OOD 检测的兴趣。然而，现有方法主要侧重于优化全局提示，而忽略了对异常值的局部信息的精细利用。基于此，我们冻结全局提示，并引入了一种新颖的从粗到精的微调范式，以强调使用局部提示进行区域增强。我们的方法包括两个组成部分：全局提示引导的负增强和局部提示增强的区域正则化。前者利用冻结的、粗略的全局提示作为指导线索来合并负增强，从而利用局部异常值知识。后者采用可训练的局部提示和区域正则化来有效地捕获局部信息，从而帮助识别异常值。我们还提出了区域相关指标，以增强 OOD 检测的丰富性。此外，由于我们的方法仅探索增强局部提示，因此可以在推理过程中与训练好的全局提示无缝集成，以提高性能。综合实验结果证明了我们方法的有效性和潜力。值得注意的是，在 ImageNet-1k 数据集上进行的 4 次样本微调中，我们的方法相对于最先进的方法将平均 FPR95 降低了 5.17%，甚至优于先前方法的 16 次样本微调结果。
2024-09-06	COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes	null	虽然视觉问答 (VQA) 基准测试推动了推理技术的发展，但它们一直专注于垂直思维。有效的解决问题还需要横向思维，而横向思维在人工智能领域仍未得到充分研究，也没有用于测试视觉感知系统。为了弥合这一差距，我们将视觉横向思维形式化为一个多项选择题问答任务，并描述了一个由分类法驱动的三步法来实例化任务示例。然后，我们开发了 COLUMBUS，这是一个合成基准测试，它应用任务管道，根据公开可用的化合物和常用短语集合，创建带有文本和图标字谜的 QA 集。COLUMBUS 包含超过 1,000 个谜题，每个谜题有四个候选答案。虽然最先进的视觉语言模型 (VLM) 取得了不错的性能，但我们的评估表明人类和模型之间存在巨大差距。VLM 受益于人工策划的描述，但在正确的抽象级别上难以自行生成此类表示。
2024-09-06	Generating Faithful and Salient Text from Multimodal Data	link	虽然大型多模态模型 (LMM) 在许多多模态任务中取得了良好的性能，但它们在生成文本时仍可能会出现幻觉。它们在从视觉数据中检测显著特征方面的性能也不清楚。在本文中，我们开发了一个框架，用于从混合模态数据（包括图像和结构化数据（以知识图谱或表格表示））生成忠实且显著的文本。具体来说，我们训练了一个小型视觉评论家模型，用于从图像模态中识别幻觉和非显著特征。评论家模型还会生成显著图像特征列表。此信息用于后期编辑步骤，以提高生成质量。在两个数据集上的实验表明，我们的框架提高了 LMM 在忠实度和显著性方面的生成质量，优于最近旨在减少幻觉的技术。
2024-09-05	Few-shot Adaptation of Medical Vision-Language Models	link	Integrating image and text data through multi-modal learning has emerged as a new approach in medical imaging research, following its successful deployment in computer vision. While considerable efforts have been dedicated to establishing medical foundation models and their zero-shot transfer to downstream tasks, the popular few-shot setting remains relatively unexplored. Following on from the currently strong emergence of this setting in computer vision, we introduce the first structured benchmark for adapting medical vision-language models (VLMs) in a strict few-shot regime and investigate various adaptation strategies commonly used in the context of natural images. Furthermore, we evaluate a simple generalization of the linear-probe adaptation baseline, which seeks an optimal blending of the visual prototypes and text embeddings via learnable class-wise multipliers. Surprisingly, such a text-informed linear probe yields competitive performances in comparison to convoluted prompt-learning and adapter-based strategies, while running considerably faster and accommodating the black-box setting. Our extensive experiments span three different medical modalities and specialized foundation models, nine downstream tasks, and several state-of-the-art few-shot adaptation methods. We made our benchmark and code publicly available to trigger further developments in this emergent subject: \url{https://github.com/FereshteShakeri/few-shot-MedVLMs}.
2024-09-05	Have Large Vision-Language Models Mastered Art History?	null	The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.
2024-09-04	Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving	null	Large Vision-Language Models (LVLMs) have recently garnered significant attention, with many efforts aimed at harnessing their general knowledge to enhance the interpretability and robustness of autonomous driving models. However, LVLMs typically rely on large, general-purpose datasets and lack the specialized expertise required for professional and safe driving. Existing vision-language driving datasets focus primarily on scene understanding and decision-making, without providing explicit guidance on traffic rules and driving skills, which are critical aspects directly related to driving safety. To bridge this gap, we propose IDKB, a large-scale dataset containing over one million data items collected from various countries, including driving handbooks, theory test data, and simulated road test data. Much like the process of obtaining a driver's license, IDKB encompasses nearly all the explicit knowledge needed for driving from theory to practice. In particular, we conducted comprehensive tests on 15 LVLMs using IDKB to assess their reliability in the context of autonomous driving and provided extensive analysis. We also fine-tuned popular models, achieving notable performance improvements, which further validate the significance of our dataset. The project page can be found at: \url{https://4dvlab.github.io/project_page/idkb.html}
2024-09-04	Benchmarking Spurious Bias in Few-Shot Image Classifiers	link	Few-shot image classifiers are designed to recognize and classify new data with minimal supervision and limited data but often show reliance on spurious correlations between classes and spurious attributes, known as spurious bias. Spurious correlations commonly hold in certain samples and few-shot classifiers can suffer from spurious bias induced from them. There is an absence of an automatic benchmarking system to assess the robustness of few-shot classifiers against spurious bias. In this paper, we propose a systematic and rigorous benchmark framework, termed FewSTAB, to fairly demonstrate and quantify varied degrees of robustness of few-shot classifiers to spurious bias. FewSTAB creates few-shot evaluation tasks with biased attributes so that using them for predictions can demonstrate poor performance. To construct these tasks, we propose attribute-based sample selection strategies based on a pre-trained vision-language model, eliminating the need for manual dataset curation. This allows FewSTAB to automatically benchmark spurious bias using any existing test data. FewSTAB offers evaluation results in a new dimension along with a new design guideline for building robust classifiers. Moreover, it can benchmark spurious bias in varied degrees and enable designs for varied degrees of robustness. Its effectiveness is demonstrated through experiments on ten few-shot learning methods across three datasets. We hope our framework can inspire new designs of robust few-shot classifiers. Our code is available at https://github.com/gtzheng/FewSTAB.
2024-09-06	CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models	link	Large language models (LLMs) have obtained promising results in mathematical reasoning, which is a foundational skill for human intelligence. Most previous studies focus on improving and measuring the performance of LLMs based on textual math reasoning datasets (e.g., MATH, GSM8K). Recently, a few researchers have released English multimodal math datasets (e.g., MATHVISTA and MATH-V) to evaluate the effectiveness of large multimodal models (LMMs). In this paper, we release a Chinese multimodal math (CMM-Math) dataset, including benchmark and training parts, to evaluate and enhance the mathematical reasoning of LMMs. CMM-Math contains over 28,000 high-quality samples, featuring a variety of problem types (e.g., multiple-choice, fill-in-the-blank, and so on) with detailed solutions across 12 grade levels from elementary to high school in China. Specifically, the visual context may be present in the questions or opinions, which makes this dataset more challenging. Through comprehensive analysis, we discover that state-of-the-art LMMs on the CMM-Math dataset face challenges, emphasizing the necessity for further improvements in LMM development. We also propose a Multimodal Mathematical LMM (Math-LMM) to handle the problems with mixed input of multiple images and text segments. We train our model using three stages, including foundational pre-training, foundational fine-tuning, and mathematical fine-tuning. The extensive experiments indicate that our model effectively improves math reasoning performance by comparing it with the SOTA LMMs over three multimodal mathematical datasets.
2024-09-04	MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark	null	This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.
2024-09-04	Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection	null	The proliferation of deepfake faces poses huge potential negative impacts on our daily lives. Despite substantial advancements in deepfake detection over these years, the generalizability of existing methods against forgeries from unseen datasets or created by emerging generative models remains constrained. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach that repurposes a well-trained VLM for general deepfake detection. Motivated by the model reprogramming paradigm that manipulates the model prediction via data perturbations, our method can reprogram a pretrained VLM model (e.g., CLIP) solely based on manipulating its input without tuning the inner parameters. Furthermore, we insert a pseudo-word guided by facial identity into the text prompt. Extensive experiments on several popular benchmarks demonstrate that (1) the cross-dataset and cross-manipulation performances of deepfake detection can be significantly and consistently improved (e.g., over 88% AUC in cross-dataset setting from FF++ to WildDeepfake) using a pre-trained CLIP model with our proposed reprogramming method; (2) our superior performances are at less cost of trainable parameters, making it a promising approach for real-world applications.
2024-09-04	Understanding eGFR Trajectories and Kidney Function Decline via Large Multimodal Models	null	The estimated Glomerular Filtration Rate (eGFR) is an essential indicator of kidney function in clinical practice. Although traditional equations and Machine Learning (ML) models using clinical and laboratory data can estimate eGFR, accurately predicting future eGFR levels remains a significant challenge for nephrologists and ML researchers. Recent advances demonstrate that Large Language Models (LLMs) and Large Multimodal Models (LMMs) can serve as robust foundation models for diverse applications. This study investigates the potential of LMMs to predict future eGFR levels with a dataset consisting of laboratory and clinical values from 50 patients. By integrating various prompting techniques and ensembles of LMMs, our findings suggest that these models, when combined with precise prompts and visual representations of eGFR trajectories, offer predictive performance comparable to existing ML models. This research extends the application of foundation models and suggests avenues for future studies to harness these models in addressing complex medical forecasting challenges.
2024-09-03	Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems	null	近年来，视觉语言模型（VLM）的最新发展显示出其在图像理解相关应用方面的巨大潜力。在本研究中，我们探索了最先进的VLM模型在基于视觉的交通工程任务中的应用，例如图像分类和目标检测。图像分类任务包括拥堵检测和裂缝识别，而目标检测任务则用于识别未佩戴头盔的行为。我们应用了CLIP、BLIP、OWL-ViT、Llava-Next等开源模型和闭源模型GPT-4o，评估了这些最先进的VLM模型的性能，以利用语言理解能力来完成基于视觉的交通任务。这些任务是通过对VLM模型应用零样本提示来执行的，因为零样本提示允许在不对任务进行任何训练的情况下执行任务。它消除了对特定任务进行标注数据集或微调的需求。虽然这些模型在图像分类任务中取得了与基准卷积神经网络（CNN）模型相当的结果，但在目标定位任务中仍有改进的空间。因此，本研究对最先进的VLM模型进行了全面评估，突出了这些模型的优势和局限性，可以作为未来改进和大规模实施的基线。
2024-09-03	How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	link	大型基础模型彻底改变了该领域，但针对特定视觉任务优化多模态模型仍然存在挑战。我们提出了一种新颖且通用的方法，通过测量不同输入提示下输出的一致性，来确定黑盒视觉语言模型 (VLM) 的首选图像分布。我们将其应用于 3D 对象的不同渲染类型，证明了其在需要精确解释复杂结构的各个领域的有效性，重点关注计算机辅助设计 (CAD) 作为示例领域。我们使用人类反馈的上下文学习进一步完善了 VLM 输出，显著提高了解释质量。为了解决专业领域缺乏基准的问题，我们引入了 CAD-VQA，这是一个用于评估 VLM 在 CAD 相关视觉问答任务上的新数据集。我们对 CAD-VQA 上最先进的 VLM 进行了评估，建立了基线性能水平，为在需要专家级视觉解释的各个领域推进 VLM 在复杂视觉推理任务中的能力提供了一个框架。我们在 \url{https://github.com/asgsaeid/cad_vqa} 上发布了数据集和评估代码。
2024-09-03	Towards Real-World Adverse Weather Image Restoration: Enhancing Clearness and Semantics with Vision-Language Models	link	本文探讨了在合成数据上训练的恶劣天气图像恢复方法应用于现实场景时的局限性。我们构建了一个半监督学习框架，利用视觉语言模型来增强现实环境中不同恶劣天气条件下的恢复性能。我们的方法包括使用视觉语言模型对真实数据进行图像清晰度评估和语义提供，作为训练恢复模型的监督信号。对于清晰度增强，我们使用真实数据，采用双重策略，即利用视觉语言模型评估的伪标签和天气提示学习。对于语义增强，我们通过调整视觉语言模型描述中的天气条件，同时保留语义，来整合真实世界的数据。此外，我们引入了一种有效的训练策略来提升恢复性能。我们的方法在真实世界的恶劣天气图像恢复方面取得了优异的结果，通过与现有最佳工作的定性和定量比较证明了这一点。
2024-09-03	GraspSplats: Efficient Manipulation with 3D Feature Splatting	null	The ability for robots to perform efficient and zero-shot grasping of object parts is crucial for practical applications and is becoming prevalent with recent advances in Vision-Language Models (VLMs). To bridge the 2D-to-3D gap for representations to support such a capability, existing methods rely on neural fields (NeRFs) via differentiable rendering or point-based projection methods. However, we demonstrate that NeRFs are inappropriate for scene changes due to their implicitness and point-based methods are inaccurate for part localization without rendering-based optimization. To amend these issues, we propose GraspSplats. Using depth supervision and a novel reference feature computation method, GraspSplats generates high-quality scene representations in under 60 seconds. We further validate the advantages of Gaussian-based representation by showing that the explicit and optimized geometry in GraspSplats is sufficient to natively support (1) real-time grasp sampling and (2) dynamic and articulated object manipulation with point trackers. With extensive experiments on a Franka robot, we demonstrate that GraspSplats significantly outperforms existing methods under diverse task settings. In particular, GraspSplats outperforms NeRF-based methods like F3RM and LERF-TOGO, and 2D detection methods.

(back to top)

6DOF Object Pose

Publish Date	Title	Code	Abstract
2024-11-21	SEMPose: A Single End-to-end Network for Multi-object Pose Estimation	null	在计算机视觉领域，从RGB图像估计六自由度姿态是一个基本任务。然而，在多目标场景中，这项任务变得极具挑战性。目前，最好的方法通常采用间接策略，即识别2D和3D对应关系，然后使用PnP（Perspective-n-Points）方法求解。然而，这种方法无法进行端到端训练。另一方面，直接方法由于物体大小变化和遮挡等挑战，精度较低。为了解决这些问题，我们提出了SEMPose，一个端到端的多个物体姿态估计网络。SEMPose利用精心设计的纹理形状引导特征金字塔网络，有效地解决了物体大小变化的挑战。此外，它采用迭代优化头部结构，逐步分别回归旋转和平移，以提高估计精度。在训练过程中，我们通过从可见部分选择正样本来减轻遮挡的影响。实验结果表明，SEMPose可以在32 FPS下进行推理，除了RGB图像外不需要其他输入。它可以实时准确地估计多个物体的姿态，推理时间不受目标物体数量的影响。在LM-O和YCB-V数据集上，我们的方法优于其他基于RGB的单模型方法，实现了更高的精度。即使与多模型方法和使用额外优化的方案相比，我们的结果仍然具有竞争力。
2024-11-08	DeepArUco++: Improved detection of square fiducial markers in challenging lighting conditions	link	基准标记是用于物体姿态估计和检测的计算机视觉工具。这些标记在工业、医疗和物流等领域非常有用。然而，最佳照明条件并非总是可用，并且其他因素（例如模糊或传感器噪声）会影响图像质量。精确定位和解码基准标记的经典计算机视觉技术通常在困难的照明条件下（例如，同一帧内光照的极端变化）会失效。因此，我们提出了 DeepArUco++，这是一个基于深度学习的框架，它利用卷积神经网络的鲁棒性在挑战性照明条件下执行标记检测和解码。该框架基于一个在每个步骤使用不同神经网络模型的流水线，即标记检测、角点细化和标记解码。此外，我们提出了一种简单的方法来生成用于训练构成所提出流水线的不同模型的合成数据，并且我们提出了第二个在挑战性照明条件下的 ArUco 标记的真实数据集，用于评估我们的系统。所开发的方法在此类任务中优于其他最先进的方法，即使在用于开发这些方法的数据集上进行测试时也保持竞争力。代码可在 GitHub 上获得：https://github.com/AVAuco/deeparuco/
2024-10-08	AIVIO: Closed-loop, Object-relative Navigation of UAVs with AI-aided Visual Inertial Odometry	null	物体相对移动机器人导航对于各种任务至关重要，例如自主关键基础设施巡检，但这需要从原始传感器数据中提取有关感兴趣对象的语义信息的能力。虽然基于深度学习 (DL) 的方法擅长从图像中推断语义对象信息，例如类别和相对六自由度 (6-DoF) 位姿，但它们的计算要求很高，因此通常不适合有效载荷受限的移动机器人。在这篇文章中，我们提出了一种实时无人机 (UAV) 系统，用于物体相对、闭环导航，该系统采用由惯性测量单元 (IMU) 和 RGB 摄像头组成的最小传感器配置。利用基于深度学习的对象位姿估计器（仅使用合成数据进行训练并针对伴侣板部署进行了优化），将物体相对位姿测量值与 IMU 数据融合以执行物体相对定位。我们进行了多个真实世界的实验，以验证我们的系统在电线杆巡检这一具有挑战性的用例中的性能。补充视频中展示了一个闭环飞行的示例。
2024-09-24	LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation	link	虽然基于RGBD的类别级物体姿态估计方法很有前景，但其对深度数据的依赖限制了其在不同场景中的适用性。因此，最近的研究转向了基于RGB的方法；然而，由于缺乏深度信息，它们面临着巨大的挑战。一方面，深度信息的缺失加剧了处理类内形状变化的难度，导致形状预测的不确定性增加。另一方面，纯RGB输入引入了固有的尺度模糊性，使得物体大小和位移的估计成为一个不适定问题。为了应对这些挑战，我们提出了LaPose，一个将物体形状建模为拉普拉斯混合模型的新颖姿态估计框架。通过将每个点表示为概率分布，我们明确地量化了形状的不确定性。LaPose利用广义3D信息流和专门的特征流来独立预测每个点的拉普拉斯分布，从而捕捉物体几何形状的不同方面。然后，这两个分布被整合为一个拉普拉斯混合模型，以建立2D-3D对应关系，并利用这些对应关系通过PnP模块求解姿态。为了减轻尺度模糊性，我们引入了一种与尺度无关的物体大小和位移表示方法，从而提高了训练效率和整体鲁棒性。在NOCS数据集上的大量实验验证了LaPose的有效性，在基于RGB的类别级物体姿态估计中取得了最先进的性能。代码已发布在https://github.com/lolrudy/LaPose
2024-09-22	Tactile Functasets: Neural Implicit Representations of Tactile Datasets	null	现代触觉传感器产生高维原始感官反馈，例如图像，这使得高效存储、处理和跨传感器泛化具有挑战性。为了解决这些问题，我们引入了一种新的用于触觉传感器反馈的隐函数表示方法。我们没有直接使用原始触觉图像，而是提出了经过训练以重建触觉数据集的神经隐函数，从而生成紧凑的表示，捕捉到感官输入的底层结构。这些表示相比原始数据具有几个优势：它们紧凑，支持概率可解释的推断，并且有助于跨不同传感器的泛化。我们在手内物体姿态估计的下游任务中证明了这种表示的有效性，实现了比基于图像的方法更好的性能，同时简化了下游模型。我们在https://www.mmintlab.com/tactile-functasets发布了代码、演示和数据集。
2024-09-18	FAST GDRNPP: Improving the Speed of State-of-the-Art 6D Object Pose Estimation	null	6D物体姿态估计涉及确定场景中物体相对于所选坐标系的三维平移和旋转。这个问题在许多工业任务的实际应用中尤其重要，例如质量控制、零件拾取和机器人操作，在这些应用中，速度和精度对于实际部署都至关重要。当前的模型，无论是经典模型还是基于深度学习的模型，通常难以在精度和延迟之间取得平衡。我们的研究重点是在保持其高精度的同时，提高最先进的深度学习模型GDRNPP的速度。我们采用多种技术来减小模型大小并缩短推理时间。这些技术包括使用更小、更快的骨干网络、修剪不必要的参数以及通过蒸馏将知识从大型高性能模型转移到更小、更高效的学生模型。我们的研究结果表明，所提出的配置在显着提高推理速度的同时，保持了与最先进技术相当的精度。这一进步可以促使在各种工业场景中实现更高效和实用的应用，从而提高6D物体姿态估计模型在实际环境中的整体适用性。
2024-09-12	Touch2Touch: Cross-Modal Tactile Generation for Object Manipulation	null	如今的触摸传感器种类繁多，形状各异。由于模型通常与特定的传感器设计绑定，因此开发通用的触摸处理方法变得十分困难。我们通过在触摸传感器之间进行跨模态预测来解决这个问题：给定一个传感器的触觉信号，我们使用生成模型来估计另一个传感器如何感知相同的物理接触。这允许我们将特定于传感器的处理方法应用于生成的信号。我们通过训练一个扩散模型来实现这个想法，该模型可以在流行的 GelSlim 和 Soft Bubble 传感器之间进行转换。作为一个下游任务，我们使用 GelSlim 传感器进行手持物体姿态估计，同时使用一种仅对 Soft Bubble 信号进行操作的算法。数据集、代码和更多详细信息可以在 https://www.mmintlab.com/research/touch2touch/ 找到。
2024-09-04	Object Gaussian for Monocular 6D Pose Estimation from Sparse Views	null	单目物体姿态估计作为计算机视觉和机器人技术中的一项关键任务，高度依赖于精确的2D-3D对应关系，而这通常需要昂贵的CAD模型，这些模型可能并不容易获得。物体三维重建方法提供了一种替代方案，其中最近3D高斯 splatting (3DGS) 的进展展现了引人注目的潜力。然而，它的性能仍然存在不足，并且在输入视图较少时容易过拟合。为了应对这一挑战，我们引入了SGPose，这是一个使用基于高斯方法进行稀疏视图物体姿态估计的新颖框架。只需十个视图，SGPose 就能通过从随机长方体初始化开始生成几何感知表示，从而避免了传统3DGS方法所要求的基于运动恢复结构 (SfM) 流程的几何依赖。SGPose 通过回归稀疏输入和随机初始化的图像与重建模型之间的密集2D-3D对应关系，消除了对CAD模型的依赖，而几何一致性深度监督和在线合成视图 warping 是其成功的关键。在典型基准数据集，尤其是在Occlusion LM-O数据集上的实验表明，即使在稀疏视图限制下，SGPose 的性能也优于现有方法，突显了其在实际应用中的潜力。
2024-08-29	OP-Align: Object-level and Part-level Alignment for Self-supervised Category-level Articulated Object Pose Estimation	link	类别级铰接物体姿态估计专注于对已知类别中未知铰接物体的姿态估计。尽管意义重大，但由于物体的形状和姿态各异、数据集标注成本高昂以及现实世界环境复杂等因素，这项任务仍然具有挑战性。在本文中，我们提出了一种新颖的自监督方法，利用单帧点云来解决这个问题。我们的模型可以一致地生成具有规范姿态和关节状态的完整输入物体重建，并估计物体级姿态以减少整体姿态方差，以及估计部件级姿态以将输入的每个部件与其对应的重建部件对齐。实验结果表明，我们的方法显著优于以往的自监督方法，并且与最先进的监督方法性能相当。为了评估我们的模型在现实场景中的性能，我们还引入了一个新的现实世界铰接物体基准数据集。
2024-08-19	RUMI: Rummaging Using Mutual Information	null	本文介绍了一种名为“基于互信息的翻找”（RUMI）的方法，用于在线生成机器人的动作序列，以便在视觉遮挡环境中收集有关已知可移动物体姿态的信息。该方法专注于富接触翻找，利用物体姿态分布和机器人轨迹之间的互信息进行动作规划。RUMI从观测到的部分点云推断出兼容的物体姿态分布，并实时计算其与工作空间占有率的互信息近似值。基于此，我们开发了一个信息增益成本函数和一个可达性成本函数，以保持物体在机器人的可及范围内。这些函数被集成到一个具有随机动力学模型的模型预测控制（MPC）框架中，在闭环中更新姿态分布。主要贡献包括一个新的物体姿态估计置信框架，一个高效的信息增益计算策略，以及一个鲁棒的基于MPC的控制方案。与基线方法相比，RUMI在模拟和实际任务中都表现出优越的性能。
2024-08-15	Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation	link	物体姿态估计对于许多涉及机器人操作、导航和增强现实的工业应用至关重要。当前通用的物体姿态估计器，即不需要针对每个物体进行训练的方法，依赖于精确的3D模型。目前主要使用CAD模型，但在实践中获取CAD模型可能很困难。同时，获取物体的图像是相对容易的。自然，这就引出了一个问题：从图像重建的3D模型是否足以实现精确的物体姿态估计？为了回答这个问题，我们提出了一个新的基准测试，用于衡量3D重建质量对姿态估计精度的影响。我们的基准测试提供了用于物体重建的校准图像，这些图像与YCB-V数据集的测试图像配准，以便在BOP基准测试格式下进行姿态评估。使用多种最先进的3D重建和物体姿态估计方法进行的详细实验表明，现代重建方法生成的几何模型通常足以进行精确的姿态估计。我们的实验得出了一些有趣的观察结果：（1）用于衡量3D重建质量的标准指标并不一定能指示姿态估计的精度，这表明需要像我们这样的专用基准测试。（2）传统的、非基于学习的方法可以与现代的基于学习的重建技术相媲美，甚至可以提供更好的重建时间-姿态精度权衡。（3）使用重建模型和CAD模型的性能之间仍然存在相当大的差距。为了促进缩小这一差距的研究，我们的基准测试已在https://github.com/VarunBurde/reconstruction_pose_benchmark公开发布。
2024-07-16	NeuSurfEmb: A Complete Pipeline for Dense Correspondence-based 6D Object Pose Estimation without CAD Models	link	目前最先进的6D物体姿态估计方法假设CAD模型可用，并要求用户手动设置基于物理的渲染（PBR）流程以生成合成训练数据。这两个因素都限制了这些方法在实际场景中的应用。在这项工作中，我们提出了一个不需要CAD模型的流程，并且只需少量真实图像作为输入即可训练出最先进的姿态估计器。我们的方法基于NeuS2对象表示，我们通过基于运动恢复结构（SfM）和物体无关分割的半自动化程序来学习该表示。我们利用NeuS2的新视角合成能力和简单的剪切粘贴增强功能来自动生成逼真的物体渲染，用于训练基于对应的SurfEmb姿态估计器。我们在LINEMOD-Occlusion数据集上评估了我们的方法，广泛研究了其各个组件的影响，并展示了相对于基于CAD模型和PBR数据的方法的竞争性能。我们还在自行收集的真实世界物体上展示了我们流程的易用性和有效性，表明我们的方法优于最先进的无CAD模型方法，具有更好的精度和对轻微遮挡的鲁棒性。为了让机器人社区能够从该系统中受益，我们将在https://www.github.com/ethz-asl/neusurfemb公开发布它。
2024-06-06	Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking	null	6D物体姿态估计是计算机视觉中一项至关重要但极具挑战性的任务，其面临的主要问题是大规模数据集的严重缺乏。这种稀缺性阻碍了对模型性能的全面评估，限制了研究进展。此外，可用实例或类别的数量有限也限制了其应用。为了解决这些问题，本文提出了Omni6DPose，这是一个以对象类别多样性、规模大和对象材质多样性为特征的大型数据集。Omni6DPose主要由三个部分组成：ROPE（真实6D物体姿态估计数据集），包含332K张图像，涵盖149个类别、581个实例的超过150万个标注；SOPE（模拟6D物体姿态估计数据集），由混合现实环境中创建的475K张图像组成，利用深度模拟技术进行标注，涵盖与ROPE相同的149个类别、4162个实例的超过500万个标注；以及在ROPE和SOPE中均使用的、经过手动对齐的真实扫描物体。由于存在大量的变化和模糊性，Omni6DPose本身就具有很大的挑战性。为了应对这一挑战，我们引入了GenPose++，它是SOTA类别级姿态估计框架的增强版本，它包含两个关键改进：语义感知特征提取和基于聚类的聚合。此外，我们还提供了一个全面的基准测试分析，以评估先前方法在这个大规模数据集上在6D物体姿态估计和姿态跟踪方面的性能。
2024-06-05	Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices	null	随着机器人和增强现实应用越来越依赖于精确高效的6D物体姿态估计，边缘设备上的实时性能对于实现更具交互性和响应能力的系统至关重要。我们提出的稀疏颜色代码网络（SCCN）体现了一种清晰简洁的流程设计，以有效满足这一需求。SCCN对RGB图像中的目标物体进行像素级预测，利用基本物体几何特征的稀疏性来加速Perspective-n-Point（PnP）计算过程。此外，它引入了一种新颖的基于像素级几何的物体对称表示，该表示与初始姿态预测无缝集成，有效地解决了对称物体歧义问题。SCCN在英伟达Jetson AGX Xavier上分别实现了在基准LINEMOD数据集和遮挡LINEMOD数据集上每秒19帧（FPS）和6帧的估计速率，同时在这些速率下始终保持较高的估计精度。
2024-05-31	Deep Learning-Based Object Pose Estimation: A Comprehensive Survey	link	物体姿态估计是计算机视觉中的一个基本问题，在增强现实和机器人技术中有着广泛的应用。在过去的十年中，深度学习模型由于其卓越的准确性和鲁棒性，越来越多地取代了依赖于工程点对特征的传统算法。然而，当代方法仍然存在若干挑战，包括它们对标记训练数据的依赖性、模型紧凑性、在挑战性条件下的鲁棒性以及泛化到未见过的新物体能力。目前缺乏一篇综述来讨论该领域的进展、面临的挑战和未来有希望的方向。为了填补这一空白，我们讨论了基于深度学习的物体姿态估计的最新进展，涵盖了该问题的所有三种形式，即实例级、类别级和未见过物体的姿态估计。我们的综述还涵盖了多种输入数据模态、输出姿态的自由度、物体属性和下游任务，为读者提供了对该领域的全面理解。此外，它还讨论了不同领域的训练范式、推理模式、应用领域、评估指标和基准数据集，并报告了当前最先进方法在这些基准上的性能，从而方便读者为其应用选择最合适的方法。最后，该综述指出了关键挑战，回顾了当前的趋势及其优缺点，并确定了未来研究的有希望的方向。我们还在 https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation 上持续跟踪最新的工作。
2024-03-28	Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation	link	类别级 6D 物体姿态估计旨在估计特定类别中未见实例的旋转、平移和大小。在这一领域，基于密集对应的方法取得了领先的性能。然而，它们没有明确考虑不同实例的局部和全局几何信息，导致对形状变化显著的未见实例的泛化能力较差。为了解决这个问题，我们提出了一种新颖的实例自适应和几何感知的关键点学习方法，用于类别级 6D 物体姿态估计 (AG-Pose)，它包括两个关键设计：（1）第一个设计是实例自适应关键点检测模块，它可以自适应地检测一组稀疏的关键点，用于表示各种实例的几何结构。(2) 第二个设计是几何感知特征聚合模块，它可以有效地将局部和全局几何信息整合到关键点特征中。这两个模块可以协同工作，为未见实例建立鲁棒的关键点级对应关系，从而增强模型的泛化能力。在 CAMERA25 和 REAL275 数据集上的实验结果表明，所提出的 AG-Pose 在没有类别特定形状先验的情况下，大大优于最先进的方法。
2024-06-01	Object Pose Estimation via the Aggregation of Diffusion Features	link	从图像中估计物体姿态是3D场景理解的关键任务，最近的方法在非常大的基准测试中显示出可喜的结果。然而，这些方法在处理未见过的物体时性能会显著下降。我们认为这是由于图像特征的泛化能力有限造成的。为了解决这个问题，我们对扩散模型（例如Stable Diffusion）的特征进行了深入分析，这些模型在对未见过的物体建模方面具有巨大潜力。在此分析的基础上，我们创新性地将这些扩散特征引入物体姿态估计。为此，我们提出了三种不同的架构，可以有效地捕获和聚合不同粒度的扩散特征，极大地提高了物体姿态估计的泛化能力。我们的方法在三个流行的基准数据集LM、O-LM和T-LESS上，以相当大的优势优于最先进的方法。特别是，我们的方法在未见过的物体上取得了比先前最佳结果更高的精度：在Unseen LM上为98.2%对93.5%，在Unseen O-LM上为85.9%对76.3%，显示了我们方法强大的泛化能力。我们的代码发布在https://github.com/Tianfu18/diff-feats-pose。

(back to top)

nerf

Publish Date	Title	Code	Abstract
2024-11-20	GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting	null	视线估计在处理分布外数据时会遇到泛化挑战。为了解决这个问题，最近的方法使用神经辐射场 (NeRF) 来生成增强数据。然而，现有的基于 NeRF 的方法计算成本高且缺乏面部细节。三维高斯 splatting (3DGS) 已成为神经场的流行表示方法。虽然 3DGS 已在头部头像中得到广泛检验，但它在精确的视线控制和跨不同对象的泛化方面仍面临挑战。在这项工作中，我们提出了 GazeGaussian，一种高保真视线重定向方法，它使用双流 3DGS 模型分别表示面部和眼睛区域。通过利用 3DGS 的非结构化特性，我们开发了一种基于目标视线方向的用于刚性眼球旋转的新型眼睛表示方法。为了增强跨不同对象的合成泛化能力，我们集成了一个表情条件模块来指导神经渲染器。综合实验表明，GazeGaussian 在渲染速度、视线重定向精度和跨多个数据集的面部合成方面优于现有方法。我们还证明了现有的视线估计方法可以利用 GazeGaussian 来提高其泛化性能。代码将在 https://ucwxb.github.io/GazeGaussian/ 发布。
2024-11-15	GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization	null	随着大规模文本到图像 (T2I) 模型和诸如神经辐射场 (NeRF) 等隐式三维表示的出现，许多基于 NeRF 的文本驱动生成式编辑方法应运而生。然而，几何和纹理信息的隐式编码给编辑过程中对象的准确定位和控制带来了挑战。最近，基于显式表示的实时渲染技术——三维高斯 splatting 的编辑方法取得了显著进展。然而，这些方法仍然存在定位不准确和编辑操作有限等问题。为了解决这些挑战，我们提出了 GSEditPro，这是一个新颖的三维场景编辑框架，允许用户仅使用文本提示执行各种创造性和精确的编辑。利用三维高斯分布的显式特性，我们引入了一个基于注意力的渐进式定位模块，在渲染过程中为每个高斯添加语义标签。这使得能够根据高斯与从 T2I 模型的交叉注意力层派生的编辑提示的相关性对高斯进行分类，从而精确定位编辑区域。此外，我们提出了一种基于三维高斯 splatting 的创新编辑优化方法，通过分数蒸馏采样和伪真值的指导，获得了稳定和精细的编辑结果。我们通过大量实验证明了我们方法的有效性。
2024-11-13	Biomass phenotyping of oilseed rape through UAV multi-view oblique imaging with 3DGS and SAM model	null	油菜生物量估算对于优化作物产量和育种策略至关重要。虽然基于无人机 (UAV) 的成像技术推进了高通量表型分析，但目前的方法通常依赖于正射影像，而正射影像在复杂的田间环境中难以处理叶片重叠和结构信息不完整的问题。本研究将三维高斯溅射 (3DGS) 与 Segment Anything Model (SAM) 相结合，用于油菜的精确三维重建和生物量估算。使用来自 36 个角度的无人机多视角倾斜图像进行三维重建，并利用 SAM 模块增强点云分割。然后将分割后的点云转换为点云体积，并使用线性回归拟合到地面测量的生物量。结果表明，3DGS（7k 和 30k 次迭代）提供了高精度，峰值信噪比 (PSNR) 分别为 27.43 和 29.53，训练时间分别为 7 分钟和 49 分钟。这一性能超过了运动结构恢复 (SfM) 和多级纹理神经辐射场 (Mip-NeRF)，展现出更高的效率。SAM 模块实现了高分割精度，平均交并比 (mIoU) 为 0.961，F1 分数为 0.980。此外，对生物量提取模型的比较发现，点云体积模型最为准确，决定系数 (R²) 为 0.976，均方根误差 (RMSE) 为 2.92 克/株，平均绝对百分比误差 (MAPE) 为 6.81%，优于小区作物体积模型和单株作物体积模型。这项研究突出了将 3DGS 与多视角无人机成像相结合以改进生物量表型分析的潜力。
2024-11-13	MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation	link	新兴的3D场景表示方法，例如神经辐射场（NeRF）和3D高斯 splatting（3DGS），已在同时定位和建图（SLAM）中展现出其用于照片级真实感渲染的有效性，尤其是在使用高质量视频序列作为输入时。然而，现有方法难以处理运动模糊帧，这在现实场景中很常见，例如低光或长曝光条件。这通常会导致相机定位精度和地图重建质量的显著下降。为了应对这一挑战，我们提出了一个密集视觉SLAM流程（即MBA-SLAM）来处理严重的运动模糊输入。我们的方法将一个高效的运动模糊感知跟踪器与基于神经辐射场或高斯 splatting 的建图器相结合。通过精确建模运动模糊图像的物理成像过程，我们的方法可以同时学习3D场景表示并估计相机在曝光时间内的局部轨迹，从而能够主动补偿由相机运动引起的运动模糊。在我们的实验中，我们证明了MBA-SLAM在相机定位和地图重建方面都超越了以往的先进方法，在包括合成和真实数据集（包含清晰图像以及受运动模糊影响的图像）在内的一系列数据集上展现出优越的性能，突出了我们方法的多功能性和鲁棒性。代码可在https://github.com/WU-CVGL/MBA-SLAM获取。
2024-11-06	3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement	link	我们提出了3DGS-CD，第一个基于三维高斯 splatting (3DGS) 的方法，用于检测三维场景中物体的物理重排。我们的方法通过比较两组不同时间拍摄的未对齐图像来估计三维物体级别的变化。利用3DGS的新颖视图渲染和EfficientSAM的零样本分割能力，我们检测二维物体级别的变化，然后跨视图关联和融合这些变化来估计三维变化。我们的方法可以在杂乱的环境中使用稀疏的变化后图像在短短18秒内检测到变化，只需使用一张新图像。它不依赖于深度输入、用户指令、物体类别或物体模型——只要一个物体被重新排列，它就会被识别。我们的方法在公共和自收集的真实世界数据集上进行了评估，与最先进的基于辐射场的变化检测方法相比，实现了高达14%的更高精度和三个数量级的更快性能。这种显著的性能提升使得广泛的下游应用成为可能，我们重点介绍了三个关键用例：物体重建、机器人工作空间重置和3DGS模型更新。我们的代码和数据将在https://github.com/520xyxyzq/3DGS-CD上提供。
2024-11-06	Structure Consistent Gaussian Splatting with Matching Prior for Few-shot Novel View Synthesis	link	尽管新型视图合成的技术已取得显著进展，但无论是基于神经辐射场（NeRF）还是最近出现的3D高斯 splatting (3DGS) 的现有方法，在输入稀疏时都会出现明显的性能下降。目前已有很多尝试来缓解这个问题，但它们仍然难以高效地合成令人满意的结果，尤其是在大场景中。本文提出了SCGaussian，一种使用匹配先验来学习3D一致场景结构的结构一致性高斯 splatting 方法。考虑到高斯属性之间的高度相互依赖性，我们从两个方面优化场景结构：渲染几何以及更重要的——高斯图元的的位置，这在普通的3DGS中由于其非结构化特性而难以直接约束。为此，我们提出了一种混合高斯表示。除了普通的非结构化高斯图元外，我们的模型还包含基于射线的高斯图元，这些图元绑定到匹配射线上，并且它们的位置优化被限制在射线上。因此，我们可以利用匹配对应关系来直接强制这些高斯图元的位置收敛到射线相交的表面点。在正面、环绕和复杂大场景上的大量实验表明，我们的方法具有最先进的性能和高效率。代码可在 https://github.com/prstrive/SCGaussian 获取。
2024-11-05	HFGaussian: Learning Generalizable Gaussian Human with Integrated Human Features	null	近年来，辐射场渲染的进步在三维场景表示方面展现出 promising 的成果，其中基于高斯 splatting 的技术因其质量和效率而成为最先进的技术。高斯 splatting 广泛用于各种应用，包括三维人体表示。然而，以前的三维高斯 splatting 方法要么使用参数化人体模型作为附加信息，要么未能提供任何底层结构，例如人体生物力学特征，而这些特征对于不同的应用至关重要。在本文中，我们提出了一种名为 HFGaussian 的新方法，它可以从稀疏的输入图像中实时估计新视图和人体特征，例如 3D 骨架、3D 关键点和密集姿态，速度为 25 FPS。该方法利用可泛化的高斯 splatting 技术来表示人体及其相关特征，从而实现高效且可泛化的重建。通过结合姿态回归网络和特征 splatting 技术与高斯 splatting，HFGaussian 展示了比现有 3D 人体方法更强的能力，展现了具有集成生物力学的三维人体表示的潜力。我们针对人体高斯 splatting 和姿态估计领域的最新技术对我们的 HFGaussian 方法进行了全面评估，证明了其实时、最先进的性能。
2024-11-05	FewViewGS: Gaussian Splatting with Few View Matching and Multi-stage Training	null	随着神经辐射场 (NeRF) 的引入以及最近 3D 高斯 splatting 的出现，从图像进行新视角合成的领域取得了快速进展。由于其效率和准确渲染新视角的能力，高斯 splatting 得到了广泛采用。虽然在有足够训练图像可用时，高斯 splatting 表现良好，但其非结构化的显式表示在稀疏输入图像的情况下往往会过拟合，导致渲染性能不佳。为了解决这个问题，我们提出了一种基于 3D 高斯的新视角合成方法，该方法使用稀疏的输入图像，可以从训练图像未覆盖的视点准确地渲染场景。我们提出了一种多阶段训练方案，在不依赖于预训练的深度估计或扩散模型的情况下，将基于匹配的一致性约束强加于新视角。这是通过使用可用训练图像的匹配来监督在训练帧之间采样的新视角的生成，并施加颜色、几何和语义损失来实现的。此外，我们引入了一种局部性保留正则化方法，用于 3D 高斯，通过保留场景的局部颜色结构来消除渲染伪影。在合成数据集和真实世界数据集上的评估表明，与现有的最先进方法相比，我们的方法在少样本新视角合成方面具有竞争力或优越性。
2024-10-31	GaussianMarker: Uncertainty-Aware Copyright Protection of 3D Gaussian Splatting	null	三维高斯 splatting (3DGS) 已成为获取三维资源的关键方法。为了保护这些资源的版权，可以应用数字水印技术将所有权信息巧妙地嵌入到 3DGS 模型中。然而，现有的用于网格、点云和隐式辐射场的数字水印方法不能直接应用于 3DGS 模型，因为 3DGS 模型使用具有独特结构的显式三维高斯函数，并且不依赖于神经网络。简单地将水印嵌入到预训练的 3DGS 中会导致渲染图像出现明显的失真。在我们的工作中，我们提出了一种基于不确定性的方法，该方法通过约束模型参数的扰动来实现 3DGS 的不可见水印。在消息解码阶段，即使在各种形式的三维和二维失真下，也可以从三维高斯函数和二维渲染图像中可靠地提取版权信息。我们在 Blender、LLFF 和 MipNeRF-360 数据集上进行了广泛的实验，以验证我们提出的方法的有效性，证明了其在消息解码精度和视图合成质量方面的最新性能。
2024-10-23	VR-Splatting: Foveated Radiance Field Rendering via 3D Gaussian Splatting and Neural Points	null	近年来，新视角合成（NVS）技术，特别是神经辐射场（NeRF）和高斯 splatting（3DGS），在逼真的场景渲染方面取得了令人瞩目的成果。这些技术在虚拟旅游和远程呈现等对沉浸式真实感要求很高的应用中具有巨大的潜力。然而，虚拟现实（VR）系统的高性能需求给直接利用即使是像 3DGS 这样渲染速度很快的场景表示也带来了挑战，这主要是因为延迟和计算资源的限制。在本文中，我们提出将注视点渲染作为解决这些障碍的有效方案。我们分析了最先进的 NVS 方法的渲染性能及其与人类视觉系统的兼容性。我们的方法引入了一种新颖的用于虚拟现实的注视点渲染方法，它利用神经点渲染为中心凹区域提供清晰、细节丰富的输出，并将其与 3DGS 为周边视觉提供的平滑渲染相融合。我们的评估证实，与标准的 VR-ready 3DGS 配置相比，我们的方法提高了感知的清晰度和细节丰富度。我们的系统满足实时 VR 交互所需的性能要求，最终增强了用户的沉浸式体验。项目页面：https://lfranke.github.io/vr_splatting
2024-10-18	GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting	null	本文介绍了GS-LIVM，一个面向户外场景的实时逼真激光雷达-惯性-视觉建图框架，该框架采用高斯 splatting 技术。与现有的基于神经辐射场 (NeRF) 和三维高斯 splatting (3DGS) 的方法相比，我们的方法能够在保证大规模无界户外环境高质量图像渲染的同时，实现实时逼真建图。本文采用高斯过程回归 (GPR) 来缓解由稀疏且分布不均匀的激光雷达观测数据带来的问题。基于体素的三维高斯地图表示有助于在大型户外环境中进行实时密集建图，并通过自定义 CUDA 内核进行加速。此外，整个框架以协方差为中心进行设计，其中估计的协方差用于初始化三维高斯的尺度和旋转，以及更新 GPR 的参数。我们在多个户外数据集上评估了我们的算法，结果表明，我们的方法在建图效率和渲染质量方面达到了最先进的水平。源代码可在 GitHub 上获取。
2024-10-22	E-3DGS: Gaussian Splatting with Exposure and Motion Events	link	在视觉领域，从理想条件下拍摄的图像中估计神经辐射场（NeRFs）已被广泛研究。然而，机器人应用通常面临运动模糊、光照不足和高计算开销等挑战，这些挑战会对导航、检查和场景可视化等下游任务产生不利影响。为了应对这些挑战，我们提出了E-3DGS，一种基于事件的新方法，它将事件划分为运动事件（来自相机或物体运动）和曝光事件（来自相机曝光），前者用于处理快速运动场景，后者用于重建灰度图像，以实现基于事件的三维高斯 splatting（3DGS）的高质量训练和优化。我们引入了一种将3DGS与曝光事件相结合的新方法，以实现高质量的显式场景表示重建。我们的多功能框架可以单独使用运动事件进行三维重建，使用曝光事件提高质量，或者采用混合模式，先用初始曝光事件优化，再用高速运动事件优化，从而平衡质量和效率。我们还引入了EME-3D，这是一个真实世界的三维数据集，包含曝光事件、运动事件、相机校准参数和稀疏点云。我们的方法比基于事件的NeRF速度更快，重建质量更好，同时比结合事件和RGB数据的NeRF方法更具成本效益，因为它只使用单个事件传感器。通过结合运动事件和曝光事件，E-3DGS为基于事件的三维重建设定了新的基准，在挑战性条件下具有稳健的性能和更低的硬件要求。源代码和数据集将在https://github.com/MasterHow/E-3DGS上提供。
2024-10-18	DaRePlane: Direction-aware Representations for Dynamic Scene Reconstruction	null	许多近期对动态场景建模和重新渲染的方法利用基于平面的显式表示，解决了与神经辐射场 (NeRF) 和高斯 splatting (GS) 等模型相关的训练时间慢的问题。然而，仅仅将 4D 动态场景分解成多个 2D 基于平面的表示不足以高保真地重新渲染具有复杂运动的场景。为此，我们提出了 DaRePlane，一种新颖的方向感知表示方法，可从六个不同方向捕获场景动态。这种学习到的表示经过逆双树复小波变换 (DTCWT) 来恢复基于平面的信息。在 NeRF 流程中，DaRePlane 通过融合来自这些恢复平面的向量来计算每个时空点的特征，然后将其传递给一个小型 MLP 进行颜色回归。应用于高斯 splatting 时，DaRePlane 计算高斯点的特征，然后通过一个小型多头 MLP 进行时空变形预测。值得注意的是，为了解决由六个实部和六个虚部方向感知小波系数引入的冗余问题，我们引入了一种可训练的掩蔽方法，在不显著降低性能的情况下缓解了存储问题。为了证明 DaRePlane 的通用性和效率，我们在常规和手术动态场景上分别针对 NeRF 和 GS 系统对其进行了测试。大量实验表明，DaRePlane 在各种复杂动态场景的新颖视图合成中实现了最先进的性能。
2024-10-16	3D Gaussian Splatting in Robotics: A Survey	null	在机器人领域，环境的密集3D表示一直是一个长期目标。虽然以前基于坐标的隐式神经辐射场（NeRF）表示法很流行，但最近出现的3D高斯 splatting (3DGS)在其显式辐射场表示方面展现了显著的潜力。通过利用3D高斯基元进行显式场景表示并支持可微渲染，3DGS在实时渲染和逼真性能方面比其他辐射场表现出显著优势，这有利于机器人应用。在本综述中，我们提供了对3DGS在机器人领域中的全面理解。我们将相关工作的讨论分为两大类：3DGS的应用和3DGS技术的进步。在应用部分，我们探讨了3DGS如何在各种机器人任务中从场景理解和交互的角度得到应用。3DGS技术的进步部分重点介绍3DGS自身属性在适应性和效率方面的改进，旨在提高其在机器人领域的性能。然后，我们总结了机器人领域中最常用的数据集和评估指标。最后，我们指出了当前3DGS方法的挑战和局限性，并讨论了3DGS在机器人领域的未来发展方向。
2024-10-15	MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields	null	用三维高斯函数表示的辐射场在合成新视角方面表现出色，兼具高训练效率和快速渲染速度。然而，由于输入视角稀疏，缺乏多视角一致性约束会导致点云初始化不良以及优化和密集化过程中的启发式方法不可靠，从而导致性能欠佳。现有方法通常会结合来自密集估计网络的深度先验，但忽略了输入图像中固有的多视角一致性。此外，它们依赖于基于多视角立体视觉 (MVS) 的初始化，这限制了场景表示的效率。为了克服这些挑战，我们提出了一个基于三维高斯 splatting 的视图合成框架，名为 MCGS，可以从稀疏的输入视角实现逼真的场景重建。MCGS 在增强多视角一致性方面的关键创新如下：i) 我们引入了一种初始化方法，利用稀疏匹配器结合随机填充策略，生成一组紧凑但足以表示场景的初始点。这种方法增强了初始几何先验，促进了高效的场景表示。ii) 我们开发了一种多视角一致性引导的渐进式剪枝策略，通过加强一致性并消除低贡献的高斯函数来细化高斯场。这些模块化、即插即用的策略增强了对稀疏输入视角的鲁棒性，加快了渲染速度，并减少了内存消耗，使 MCGS 成为一个实用且高效的三维高斯 splatting 框架。
2024-10-14	Few-shot Novel View Synthesis using Depth Aware 3D Gaussian Splatting	link	三维高斯 splatting 技术在新型视图合成方面已经超越了神经辐射场方法，实现了更低的计算成本和实时高质量渲染。尽管在输入视图较多时可以生成高质量的渲染结果，但在只有少量视图可用时，其性能会显著下降。在本文中，我们提出了一种用于少样本新型视图合成的深度感知高斯 splatting 方法来解决这个问题。我们使用单目深度预测作为先验，并结合尺度不变的深度损失，在少量输入视图下约束三维形状。我们还使用低阶球谐函数对颜色进行建模，以避免过拟合。此外，我们观察到，像原始工作中那样周期性地移除低不透明度的 splat 会导致点云非常稀疏，从而降低渲染质量。为了缓解这个问题，我们保留了所有的 splat，从而在少量视图设置下实现了更好的重建效果。实验结果表明，我们的方法优于传统的三维高斯 splatting 方法，峰值信噪比提高了 10.5%，结构相似性指数提高了 6%，感知相似度提高了 14.1%，从而验证了我们方法的有效性。代码将在 https://github.com/raja-kumar/depth-aware-3DGS 上提供。
2024-10-09	DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation	null	近年来，2D/3D 生成技术的进步促进了从单目视频生成动态 3D 对象。先前的方法主要依赖于隐式神经辐射场 (NeRF) 或显式高斯 splatting 作为底层表示，难以实现令人满意的时空一致性和表面外观。受现代 3D 动画流程的启发，我们引入了 DreamMesh4D，这是一个结合了网格表示和几何蒙皮技术的新颖框架，可以从单目视频生成高质量的 4D 对象。我们没有使用经典的纹理贴图来表现外观，而是将高斯 splat 绑定到网格的三角面上，以便对纹理和网格顶点进行可微分优化。特别是，DreamMesh4D 从通过图像到 3D 生成过程获得的粗网格开始。然后在网格表面均匀采样稀疏点，并使用这些点构建变形图来驱动 3D 对象的运动，以提高计算效率并提供额外的约束。对于每个步骤，使用变形网络预测稀疏控制点的变换，并通过一种新颖的几何蒙皮算法对网格顶点和表面高斯进行变形，该算法结合了 LBS（线性混合蒙皮）和 DQS（双四元数蒙皮）的混合方法，减轻了两种方法相关的缺点。静态表面高斯和网格顶点以及变形网络通过参考视图光度损失、分数蒸馏损失以及其他正则化器以两阶段方式学习。大量实验表明我们的方法具有优越的性能。此外，我们的方法与现代图形流程兼容，展示了其在 3D 游戏和电影行业的潜力。
2024-10-08	Comparative Analysis of Novel View Synthesis and Photogrammetry for 3D Forest Stand Reconstruction and extraction of individual tree parameters	null	精确高效的三维树木重建对于森林资源评估和管理至关重要。近景摄影测量法 (CRP) 常用于重建森林场景，但面临效率低、质量差等挑战。近年来，包括神经辐射场 (NeRF) 和三维高斯 splatting (3DGS) 在内的新视角合成 (NVS) 技术已展现出利用有限图像进行三维植物重建的潜力。然而，现有研究主要集中在果园中的小型植物或单棵树木上，其在更大、更复杂的林分中的应用仍存在不确定性。在本研究中，我们收集了不同复杂程度的森林样地的序列图像，并使用 NeRF 和 3DGS 进行了密集重建。将所得点云与摄影测量和激光扫描的点云进行了比较。结果表明，NVS 方法显著提高了重建效率。摄影测量法在处理复杂林分时存在困难，导致点云树冠噪声过多，树木重建错误，例如树干重复。NeRF 虽然更适合树冠区域，但在视野有限的地面区域可能会产生错误。3DGS 方法生成的点云更稀疏，尤其是在树干区域，影响胸径 (DBH) 的精度。所有三种方法都可以提取树高信息，其中 NeRF 的精度最高；然而，摄影测量法在胸径精度方面仍然具有优势。这些发现表明，NVS 方法在林分三维重建方面具有巨大潜力，可为复杂的森林资源清查和可视化任务提供宝贵支持。
2024-09-30	RL-GSBridge: 3D Gaussian Splatting Based Real2Sim2Real Method for Robotic Manipulation Learning	null	Sim-to-Real 指的是将仿真环境中学习到的策略迁移到现实世界的过程，这对于实现实际机器人应用至关重要。然而，最近的 Sim2real 方法要么依赖大量的增强数据，要么依赖大型学习模型，这对于特定任务来说效率低下。近年来，基于辐射场的重建方法，尤其是 3D Gaussian Splatting 的出现，使得重现逼真的现实世界场景成为可能。为此，我们提出了一种新颖的 real-to-sim-to-real 强化学习框架 RL-GSBridge，该框架引入了基于网格的 3D Gaussian Splatting 方法，以实现基于视觉的深度强化学习的零样本 sim-to-real 迁移。我们通过使用软绑定约束改进了基于网格的 3D GS 建模方法，从而提高了网格模型的渲染质量。然后，我们采用 GS 编辑方法将渲染与物理模拟器同步，更准确地反映物理机器人的交互。通过一系列 sim-to-real 机械臂实验，包括抓取和拾放任务，我们证明了 RL-GSBridge 在 sim-to-real 迁移过程中保持了令人满意的实际任务完成成功率。此外，一系列渲染指标和可视化结果表明，我们提出的基于网格的 3D Gaussian 减少了非结构化对象中的伪影，展现了更逼真的渲染性能。
2024-09-25	SeaSplat: Representing Underwater Scenes with 3D Gaussian Splatting and a Physically Grounded Image Formation Model	null	我们介绍SeaSplat，这是一种利用最新3D辐射场技术实现水下场景实时渲染的方法。水下场景是具有挑战性的视觉环境，因为透过水等介质进行渲染会在图像捕获中引入距离和颜色相关的影响。我们使用物理基础的水下成像模型来约束3D高斯渲染（3DGS），这是一种最新的辐射场技术，可以实现完整3D场景的快速训练和实时渲染。将SeaSplat应用于SeaThru-NeRF数据集中的真实场景（由美属维尔京群岛的水下航行器收集的场景）和模拟退化的真实场景，我们不仅看到在存在介质的情况下渲染场景新视点的定量性能有所提高，而且还能够恢复场景的底层真实颜色，并将渲染恢复到不存在介入介质的状态。我们证明了水下成像模型有助于学习场景结构，获得更好的深度图，并表明我们的改进保持了利用3D高斯表示带来的显著计算优势。
2024-09-25	Let's Make a Splan: Risk-Aware Trajectory Optimization in a Normalized Gaussian Splat	null	神经辐射场和高斯 splatting 通过实现复杂场景的逼真表示，改变了计算机视觉领域。尽管取得了成功，但它们在现实世界机器人任务（如轨迹优化）中的应用仍然有限。造成这种有限成功有两个关键因素。首先，在辐射模型中难以推理碰撞。其次，很难足够快地执行辐射模型的推理以进行实时轨迹合成。本文提出了 SPLANNING，一种在高斯 splatting 模型中运行的风险感知轨迹优化器，以应对这些挑战。本文首先推导出一种严格限制机器人与辐射场之间碰撞概率上限的方法。其次，本文介绍了高斯 splatting 的归一化重构，以便在高斯 splat 中高效计算碰撞边界。第三，提出了一种在避免与高斯 splat 表示的场景发生碰撞的同时优化轨迹的方法。实验表明，在高度杂乱的环境中，SPLANNING 在生成无碰撞轨迹方面优于最先进的方法。所提出的系统还在现实世界的机器人机械臂上进行了测试。项目页面位于 https://roahmlab.github.io/splanning。
2024-09-22	MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views	null	近年来，神经辐射场（NeRF）的进步促进了少样本新视角合成（NVS）的发展，这是三维视觉应用中的一个重大挑战。尽管人们做了很多尝试来减少NeRF中对密集输入的需求，但它仍然面临着训练和渲染过程耗时的难题。最近，三维高斯散射（3DGS）通过基于点的显式表示实现了实时高质量渲染。然而，与NeRF类似，由于缺乏约束，它往往会对训练视图过拟合。在本文中，我们提出了MVPGS，一种基于三维高斯散射挖掘多视图先验的少样本NVS方法。我们利用最近基于学习的多视图立体（MVS）来提高3DGS几何初始化的质量。为了减轻过拟合，我们提出了一种前向扭曲方法，用于根据计算出的几何形状对场景进行额外的外观约束。此外，我们引入了一种视图一致性几何约束来约束高斯参数，以促进适当的优化收敛，并利用单目深度正则化作为补偿。实验表明，该方法在实时渲染速度下达到了最先进的性能。项目页面：https://zezeaaa.github.io/projects/MVPGS/
2024-09-10	Sources of Uncertainty in 3D Scene Reconstruction	link	三维场景重建过程会受到现实世界场景中众多不确定性来源的影响。虽然神经辐射场 (NeRF) 和三维高斯散射 (GS) 可以实现高保真渲染，但它们缺乏内置机制来直接解决或量化由噪声、遮挡、混杂异常值和不精确的相机姿态输入引起的不确定性。在本文中，我们引入了一种分类法，对这些方法中固有的不同不确定性来源进行分类。此外，我们使用不确定性估计技术扩展了基于 NeRF 和 GS 的方法，包括学习不确定性输出和集成，并进行了实证研究来评估它们捕捉重建敏感性的能力。我们的研究强调了在设计基于 NeRF/GS 的不确定性感知三维重建方法时，需要解决各种不确定性方面的需求。
2024-09-05	Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction	null	三维高斯 splatting (3DGS) 已成为一种很有前景的三维场景表示方法，与神经辐射场 (NeRF) 相比，它可以降低计算开销。然而，3DGS 容易出现高频伪影，并且在稀疏视点条件下表现不佳，从而限制了其在机器人和计算机视觉中的应用。为了解决这些限制，我们引入了 SVS-GS，这是一种用于稀疏视点场景重建的新框架，它集成了三维高斯平滑滤波器来抑制伪影。此外，我们的方法结合了深度梯度剖面先验 (DGPP) 损失和动态深度掩码来锐化边缘，并结合了分数蒸馏采样 (SDS) 损失的二维扩散来增强新视图合成中的几何一致性。在 MipNeRF-360 和 SeaThru-NeRF 数据集上的实验评估表明，SVS-GS 显着改善了稀疏视点下的三维重建，为机器人和计算机视觉应用中的场景理解提供了一种稳健且高效的解决方案。
2024-08-20	Gaussian in the Dark: Real-Time View Synthesis From Inconsistent Dark Images Using Gaussian Splatting	link	3D Gaussian Splatting has recently emerged as a powerful representation that can synthesize remarkable novel views using consistent multi-view images as input. However, we notice that images captured in dark environments where the scenes are not fully illuminated can exhibit considerable brightness variations and multi-view inconsistency, which poses great challenges to 3D Gaussian Splatting and severely degrades its performance. To tackle this problem, we propose Gaussian-DK. Observing that inconsistencies are mainly caused by camera imaging, we represent a consistent radiance field of the physical world using a set of anisotropic 3D Gaussians, and design a camera response module to compensate for multi-view inconsistencies. We also introduce a step-based gradient scaling strategy to constrain Gaussians near the camera, which turn out to be floaters, from splitting and cloning. Experiments on our proposed benchmark dataset demonstrate that Gaussian-DK produces high-quality renderings without ghosting and floater artifacts and significantly outperforms existing methods. Furthermore, we can also synthesize light-up images by controlling exposure levels that clearly show details in shadow areas.
2024-09-05	EaDeblur-GS: Event assisted 3D Deblur Reconstruction with Gaussian Splatting	null	3D deblurring reconstruction techniques have recently seen significant advancements with the development of Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although these techniques can recover relatively clear 3D reconstructions from blurry image inputs, they still face limitations in handling severe blurring and complex camera motion. To address these issues, we propose Event-assisted 3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS), which integrates event camera data to enhance the robustness of 3DGS against motion blur. By employing an Adaptive Deviation Estimator (ADE) network to estimate Gaussian center deviations and using novel loss functions, EaDeblur-GS achieves sharp 3D reconstructions in real-time, demonstrating performance comparable to state-of-the-art methods.
2024-10-02	DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation	link	分数蒸馏采样（SDS）已成为文本驱动3D编辑任务中一种有效的框架，它利用扩散模型进行3D一致性编辑。然而，现有的基于SDS的3D编辑方法存在训练时间长、生成结果质量低的问题。我们发现，造成这种性能下降的根本原因是它们与扩散模型的采样动力学相冲突。解决这种冲突使我们能够将SDS视为通过从数据空间采样进行3D编辑的扩散逆过程。相比之下，现有方法简单地使用扩散模型提取分数函数。基于这些见解，我们提出了DreamCatalyst，这是一个在SDS框架中考虑了这些采样动力学的新框架。具体来说，我们设计了DreamCatalyst的优化过程来逼近编辑任务中的扩散逆过程，从而与扩散采样动力学保持一致。因此，DreamCatalyst成功地减少了训练时间并提高了编辑质量。我们的方法提供了两种模式：（1）快速模式，编辑神经辐射场（NeRF）场景的速度比当前最先进的NeRF编辑方法快约23倍；（2）高质量模式，生成的结果比这些方法好约8倍。值得注意的是，我们的高质量模式在速度和质量方面都优于当前最先进的NeRF编辑方法。DreamCatalyst还超越了最先进的3D高斯样条（3DGS）编辑方法，使其成为一种有效且与模型无关的3D编辑解决方案。请在我们的项目页面上查看更多结果：https://dream-catalyst.github.io。
2024-07-10	3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes	null	基于粒子的辐射场表示法，例如 3D 高斯 splatting，在复杂场景的重建和重新渲染方面取得了巨大成功。大多数现有方法通过光栅化渲染粒子，将它们投影到屏幕空间图块中，以便按排序顺序进行处理。而这项工作则考虑对粒子进行光线追踪，构建边界体积层次结构，并使用高性能 GPU 光线追踪硬件为每个像素投射光线。为了有效处理大量半透明粒子，我们描述了一种专门的渲染算法，该算法使用边界网格封装粒子，以利用快速的光线三角形相交，并按深度顺序对成批的相交进行着色。光线追踪的优势在计算机图形学中是众所周知的：处理非相干光线以获得阴影和反射等二次照明效果、从机器人技术中常见的高度扭曲的相机进行渲染、随机采样光线等等。使用我们的渲染器，与光栅化相比，这种灵活性几乎没有成本。实验证明了我们方法的速度和准确性，以及在计算机图形学和视觉方面的几种应用。我们进一步提出了对基本高斯表示的相关改进，包括简单地使用广义核函数，这可以显着减少粒子命中次数。
2024-07-07	GaussReg: Fast 3D Registration with Gaussian Splatting	null	点云配准是大规模三维场景扫描和重建的基本问题。在深度学习的帮助下，配准方法得到了显著发展，已接近成熟阶段。随着神经辐射场（NeRF）的引入，它凭借强大的视图合成能力成为最受欢迎的三维场景表示方法。对于NeRF表示，大规模场景重建也需要对其进行配准。然而，这方面还缺乏深入的探索。这是因为对具有隐式表示的两个场景之间的几何关系进行建模存在固有的挑战。现有方法通常将隐式表示转换为显式表示以进行进一步配准。最近，引入了高斯 splatting（GS），它采用显式三维高斯函数。这种方法在保持高质量渲染效果的同时，显著提高了渲染速度。给定两个具有显式GS表示的场景，我们在这项工作中探索了它们之间的三维配准任务。为此，我们提出了GaussReg，一个快速且准确的由粗到精的框架。粗配准阶段遵循现有的点云配准方法，并估计来自GS的点云的粗略对齐。我们还提出了一种新的图像引导的精配准方法，该方法通过从GS渲染图像，为精确对齐提供更详细的几何信息。为了支持全面的评估，我们仔细构建了一个名为ScanNet-GSReg的场景级数据集，其中包含从ScanNet数据集中获得的1379个场景，并收集了一个名为GSReg的真实世界数据集。实验结果表明，我们的方法在多个数据集上实现了最先进的性能。我们的GaussReg比HLoc（SuperPoint作为特征提取器，SuperGlue作为匹配器）快44倍，并且具有相当的精度。
2024-07-04	CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion Blur Images	null	由于神经辐射场 (NeRFs) 能够高质量地渲染新视角，因此备受关注，这促使人们对其在各种真实场景中的应用进行研究。其中一个关键挑战是相机在曝光时间内移动造成的相机运动模糊，这阻碍了精确的三维场景重建。在本研究中，我们提出了连续刚体运动感知高斯散射 (CRiM-GS)，以实时渲染速度从模糊图像中重建精确的三维场景。考虑到实际的相机运动模糊过程包含复杂的运动模式，我们基于神经常微分方程 (ODEs) 预测相机的连续运动。具体来说，我们利用刚体变换来模拟相机运动并进行适当的正则化，以保持对象的形状和大小。此外，我们在\textit{SE(3)} 场中引入连续可变形三维变换，通过确保更高的自由度使刚体变换适应现实问题。通过重新审视基本相机理论并采用先进的神经网络训练技术，我们实现了对连续相机轨迹的精确建模。我们进行了大量的实验，在基准数据集上定量和定性地证明了其最先进的性能。
2024-07-29	Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning	link	近年来，由于神经辐射场和最近出现的3D高斯样条曲线(3DGS)模型提供了端到端训练的能力，3D模型的使用得到了推广。后者在训练过程中能够轻松地快速收敛并提供广泛的可编辑性，因此具有显著的优势。然而，尽管发展迅速，但关于这些模型可扩展性的文献仍处于起步阶段。在本研究中，我们为解决这一差距采取了一些初步措施，展示了一种能够实现此类模型内存和计算可扩展性的方法。具体来说，我们提出了“Trimming the fat”，这是一种基于梯度的迭代式后剪枝技术，用于消除模型中编码的冗余信息。我们在广泛认可的基准测试集上的实验结果证明了我们方法的有效性，结果表明，在保持甚至提高基线性能的同时，最多可以移除75%的高斯函数。我们的方法实现了大约50倍的压缩，同时保持了与基线模型相似的性能，并且能够将计算速度提高到600 FPS。
2024-06-21	Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks	null	模拟器是自动机器人学习的强大工具，因为它们可以提供可扩展的数据生成、灵活的设计和轨迹优化。然而，将从模拟数据中学习到的行为迁移到现实世界中被证明是困难的，通常需要通过计算量大的域随机化方法或进一步的模型微调来缓解。我们提出了一种方法来提高模拟到真实视觉四旋翼导航任务中对分布变化的泛化能力和鲁棒性。为此，我们首先通过将高斯 splatting 与四旋翼飞行动力学相结合来构建模拟器，然后使用 Liquid 神经网络训练鲁棒的导航策略。通过这种方式，我们获得了一个完整的模仿学习协议，它结合了 3D 高斯 splatting 辐射场渲染的进步、专家演示训练数据的巧妙编程以及 Liquid 网络的任务理解能力。通过一系列定量飞行测试，我们证明了在单个模拟场景中学习到的导航技能可以直接稳健地迁移到现实世界。我们进一步展示了在剧烈的分布和物理环境变化下，在训练环境之外保持性能的能力。我们学习的 Liquid 策略，仅在从真实感室内模拟飞行中提取的单个目标操作上进行训练，可以泛化到户外真实硬件平台上的多步远足。
2024-06-14	Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections	null	在非结构化的旅游环境中拍摄的照片经常表现出多变的外观和短暂的遮挡，这对准确的场景重建提出了挑战，并在新视角合成中导致了伪影。虽然先前的方法已经将神经辐射场 (NeRF) 与其他可学习模块相结合来处理动态外观并消除瞬态对象，但其大量的训练需求和缓慢的渲染速度限制了实际部署。最近，3D 高斯 splatting (3DGS) 已成为 NeRF 的一种有前途的替代方案，它提供了卓越的训练和推理效率以及更好的渲染质量。本文介绍了 Wild-GS，这是一种针对不受约束的照片集优化的 3DGS 创新改编，同时保留了其效率优势。Wild-GS 通过每张图像的固有材质属性、全局照明和相机属性以及逐点反射率的局部变化来确定每个 3D 高斯的外观。与先前在图像空间中对参考特征进行建模的方法不同，Wild-GS 通过对从参考图像中提取的三平面进行采样，将像素外观特征明确地与相应的局部高斯对齐。这种新颖的设计有效地将参考视图的高频细节外观转移到 3D 空间，并显着加快了训练过程。此外，2D 可见性图和深度正则化分别用于减轻瞬态效应和约束几何形状。大量实验表明，Wild-GS 在所有现有技术中实现了最先进的渲染性能以及最高的训练和推理效率。
2024-06-06	A Survey on 3D Human Avatar Modeling -- From Reconstruction to Generation	null	3D modeling has long been an important area in computer vision and computer graphics. Recently, thanks to the breakthroughs in neural representations and generative models, we witnessed a rapid development of 3D modeling. 3D human modeling, lying at the core of many real-world applications, such as gaming and animation, has attracted significant attention. Over the past few years, a large body of work on creating 3D human avatars has been introduced, forming a new and abundant knowledge base for 3D human modeling. The scale of the literature makes it difficult for individuals to keep track of all the works. This survey aims to provide a comprehensive overview of these emerging techniques for 3D human avatar modeling, from both reconstruction and generation perspectives. Firstly, we review representative methods for 3D human reconstruction, including methods based on pixel-aligned implicit function, neural radiance field, and 3D Gaussian Splatting, etc. We then summarize representative methods for 3D human generation, especially those using large language models like CLIP, diffusion models, and various 3D representations, which demonstrate state-of-the-art performance. Finally, we discuss our reflection on existing methods and open challenges for 3D human avatar modeling, shedding light on future research.
2024-06-13	3D-HGS: 3D Half-Gaussian Splatting	link	照片级逼真的三维重建是三维计算机视觉中的一个基本问题。由于最近神经渲染技术的出现，该领域取得了相当大的进步。这些技术主要集中于学习三维场景的体积表示，并通过渲染得到的损失函数来细化这些表示。其中，三维高斯散射（3D-GS）已成为一种重要的方法，其性能超过了神经辐射场（NeRFs）。3D-GS使用参数化的三维高斯函数来建模空间位置和颜色信息，并结合基于图块的快速渲染技术。尽管其渲染性能和速度都很出色，但使用三维高斯核函数在准确表示不连续函数方面存在固有限制，特别是在形状不连续的边缘和角落，以及在颜色不连续的不同纹理之间。为了解决这个问题，我们建议采用三维半高斯（3D-HGS）核函数，它可以作为一种即插即用的核函数。我们的实验表明，它们能够提高当前与3D-GS相关方法的性能，并在不影响渲染速度的情况下，在各种数据集上实现最先进的渲染性能。

(back to top)

分类/检测/识别/分割

Publish Date	Title	Code	Abstract
2024-11-21	DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding	null	本文介绍了由IDEA研究院开发的统一的以对象为中心的视觉模型DINO-X，它拥有迄今为止最佳的开放世界目标检测性能。DINO-X采用与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构，以追求用于开放世界对象理解的对象级表示。为了简化长尾目标检测，DINO-X扩展了其输入选项，以支持文本提示、视觉提示和自定义提示。凭借这种灵活的提示选项，我们开发了一种通用的对象提示以支持免提示的开放世界检测，从而可以在图像中检测任何物体，而无需用户提供任何提示。为了增强模型的核心基础能力，我们构建了一个包含超过1亿个高质量基础样本的大规模数据集，称为Grounding-100M，用于提升模型的开放词汇检测性能。在此类大规模基础数据集上进行预训练可以得到基础的对象级表示，这使得DINO-X能够集成多个感知头，以同时支持多个对象感知和理解任务，包括检测、分割、姿态估计、对象描述、基于对象的问答等。实验结果证明了DINO-X的优越性能。具体来说，DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本目标检测基准测试中分别达到了56.0 AP、59.8 AP和52.4 AP。值得注意的是，它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了63.3 AP和56.5 AP，均比之前的SOTA性能提高了5.8 AP。这一结果突出了其在识别长尾对象方面的能力得到了显著提升。
2024-11-21	Transforming Static Images Using Generative Models for Video Salient Object Detection	link	在许多视频处理任务中，利用大规模图像数据集是一种常见策略，因为图像数据更丰富，便于进行全面的知识迁移。一种典型的模拟视频的方法是将空间变换（如仿射变换和样条变形）应用于静态图像，以创建模拟时间进展的序列。然而，在诸如视频显著目标检测等任务中，外观和运动线索都至关重要，这些基本的图像到视频技术无法生成捕捉每个对象独立运动特性的真实光流。在本研究中，我们展示了图像到视频的扩散模型可以生成静态图像的逼真变换，同时理解图像组件之间的上下文关系。这种能力使模型能够生成合理的光流，在保持语义完整性的同时反映场景元素的独立运动。通过这种方式增强单个图像，我们创建了大规模的图像-光流对，从而显著增强了模型训练。我们的方法在所有公共基准数据集上均实现了最先进的性能，优于现有方法。
2024-11-20	MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection	null	利用时序信息提升自动驾驶领域三维目标检测的性能近期取得了显著进展。传统的基于Transformer的时序融合方法存在计算成本呈平方级增长以及随着帧序列长度增加信息衰减的问题。本文提出一种名为MambaDETR的新方法，其核心思想是在高效的状态空间中实现时序融合。此外，我们设计了一个运动消除模块，用于移除时序融合中相对静止的物体。在标准nuScenes基准测试中，我们提出的MambaDETR在三维目标检测任务中取得了显著成果，展现了在现有时序融合方法中最先进的性能。
2024-11-20	HF-Diff: High-Frequency Perceptual Loss and Distribution Matching for One-Step Diffusion-Based Image Super-Resolution	null	虽然最近基于扩散的单步超分辨率方法相比SinSR取得了更好的性能，但它们的计算复杂度很高。为了提高SinSR的性能，我们研究了如何在超分辨率 (SR) 过程中保留高频细节特征，因为降级的图像缺乏详细信息。为此，我们利用在ImageNet数据集上预训练的可逆神经网络 (INN) 引入了一种高频感知损失。预训练INN的不同特征图产生了图像的不同高频方面。在训练阶段，我们强制保留超分辨率图像和 ground truth (GT) 图像的高频特征，从而提高推理过程中的SR图像质量。此外，我们还利用预训练DINO-v2嵌入空间中GT图像和SR图像之间的Jensen-Shannon散度来匹配它们的分布。通过在单步基于扩散的SR (HF-Diff) 中引入高频保留损失和分布匹配约束，我们在基准RealSR、RealSet65、DIV2K-Val和ImageNet数据集上实现了最先进的CLIPIQA分数。此外，在多个数据集上的实验结果表明，我们的高频感知损失比LPIPS和基于VGG的感知损失产生了更好的SR图像质量。我们的代码将在https://github.com/shoaib-sami/HF-Diff发布。
2024-11-20	DIS-Mine: Instance Segmentation for Disaster-Awareness in Poor-Light Condition in Underground Mines	null	多年以来，检测地下矿灾（例如爆炸和结构损坏）一直是一项持续的挑战。对于急救人员来说，这个问题更加复杂，因为他们通常不清楚矿井内损坏的程度或性质。矿井内光线昏暗甚至完全黑暗，使得救援工作异常困难，导致生命 tragically 丧失。在本文中，我们提出了一种名为 DIS-Mine 的新型实例分割方法，专门用于识别低光或能见度差条件下地下矿井中的受灾区域，以帮助急救人员开展救援工作。DIS-Mine 能够通过解决高噪声、颜色失真和对比度降低等挑战，即使在完全黑暗的环境下也能检测图像中的物体。DIS-Mine 的关键创新基于四个核心组件：i) 图像亮度增强，ii) 与 SAM 集成的实例分割，iii) 基于 Mask R-CNN 的分割，以及 iv) 基于特征匹配的掩码对齐。此外，我们从一个实验性地下矿井收集了真实世界的图像，引入了一个名为 ImageMine 的新数据集，该数据集专门在低能见度条件下收集。该数据集用于验证 DIS-Mine 在现实、挑战性环境中的性能。我们对 ImageMine 数据集以及其他各种数据集进行的综合实验表明，DIS-Mine 实现了 86.0% 的卓越 F1 分数和 72.0% 的 mIoU，优于最先进的实例分割方法，至少提高了 15 倍，目标检测精度提高了高达 80%。
2024-11-20	Adversarial Diffusion Compression for Real-World Image Super-Resolution	null	现实世界图像超分辨率 (Real-ISR) 旨在从由复杂未知过程降级的低分辨率输入重建高分辨率图像。虽然许多基于稳定扩散 (SD) 的 Real-ISR 方法已经取得了显著成功，但其缓慢的多步推理阻碍了实际部署。最近基于 SD 的单步网络如 OSEDiff 和 S3Diff 缓解了这个问题，但由于依赖大型预训练 SD 模型，仍然会导致高计算成本。本文提出了一种新的 Real-ISR 方法，AdcSR，通过在我们提出的对抗性扩散压缩 (ADC) 框架下将单步扩散网络 OSEDiff 蒸馏成一个精简的扩散-GAN 模型。我们仔细检查了 OSEDiff 的模块，将其分为两类：（1）可移除的（VAE 编码器、提示提取器、文本编码器等）和（2）可修剪的（去噪 UNet 和 VAE 解码器）。由于直接移除和修剪会降低模型的生成能力，我们预训练了修剪后的 VAE 解码器以恢复其解码图像的能力，并采用对抗性蒸馏来弥补性能损失。这种基于 ADC 的扩散-GAN 混合设计有效地降低了复杂性，推理时间减少了 73%，计算量减少了 78%，参数量减少了 74%，同时保留了模型的生成能力。实验表明，我们提出的 AdcSR 在合成和真实世界数据集上都实现了有竞争力的恢复质量，比以前的单步基于扩散的方法实现了高达 9.3 倍的加速。代码和模型将公开发布。
2024-11-20	RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content	null	超分辨率 (SR) 是一项通过提高空间分辨率并重建精细细节来改善视频内容视觉质量的关键技术。SR 已被应用于许多领域，包括视频流媒体，其中压缩的低分辨率内容通常传输给终端用户，然后再以更高的分辨率和增强的质量进行重建。为了支持实时播放，在保持重建质量的同时实现快速的 SR 模型至关重要；然而，大多数现有解决方案，尤其是那些基于复杂深度神经网络的方案，都无法做到这一点。为了解决这个问题，本文提出了一种低复杂度的 SR 方法 RTSR，旨在提高压缩视频内容的视觉质量，重点关注 a) 从 360p 到 1080p 和 b) 从 540p 到 4K 的分辨率提升。该方法利用基于 CNN 的网络架构，该架构针对各种量化级别的 AV1 (SVT) 编码内容进行了优化，基于双教师知识蒸馏方法。该方法已提交到 AIM 2024 视频超分辨率挑战赛，特别是针对高效/移动实时视频超分辨率竞赛。在所有六个提交方案中，它在复杂度和编码性能（以 PSNR、SSIM 和 VMAF 衡量）之间实现了最佳平衡。代码即将发布。
2024-11-20	Teaching VLMs to Localize Specific Objects from In-context Examples	link	视觉语言模型 (VLM) 在各种视觉任务中展现出卓越的能力，包括图像识别、视频理解和视觉问答 (VQA)，前提是针对这些任务进行明确的训练。尽管取得了这些进展，我们发现目前的 VLM 缺乏一项基本的认知能力：通过考虑上下文来学习定位场景中的物体。在这项工作中，我们专注于少样本个性化定位任务，其中模型被给予一小组带注释的图像（上下文示例）——每个图像都带有类别标签和边界框——并被要求在查询图像中定位相同类型的对象。为了激发模型的个性化定位能力，我们提出了一种以数据为中心的解决方案，使用从视频对象跟踪数据集中精心挑选的数据对模型进行微调。通过利用跨多个镜头跟踪同一对象的帧序列，我们模拟了促进上下文感知的指令调整对话。为了强化这一点，我们引入了一种新的正则化技术，用伪名称替换对象标签，确保模型依赖视觉上下文而不是先验知识。我们的方法显著提高了少样本定位性能，且不牺牲泛化能力，这在几个为个性化定位定制的基准测试中得到了证明。这项工作是第一个探索和基准测试 VLM 的个性化少样本定位的工作，为未来上下文驱动的视觉语言应用研究奠定了基础。我们的项目代码可在 https://github.com/SivanDoveh/IPLoc 获取。
2024-11-20	A Resource Efficient Fusion Network for Object Detection in Bird's-Eye View using Camera and Raw Radar Data	link	摄像头可用于感知车辆周围环境，而价格合理的雷达传感器在自动驾驶系统中很受欢迎，因为它们不像摄像头那样会受到恶劣天气条件的影响。然而，雷达点云较为稀疏，方位角和仰角分辨率较低，缺乏场景的语义和结构信息，导致雷达检测性能普遍较低。在这项工作中，我们直接使用雷达数据的原始距离-多普勒 (RD) 谱，从而避免了雷达信号处理。我们使用提出的综合图像处理流程独立处理摄像头图像。具体来说，首先，我们将摄像头图像转换为鸟瞰图 (BEV) 极坐标域，并使用我们的摄像头编码器-解码器架构提取相应的特征。将生成的特征图与从雷达解码器的RD谱输入中恢复的距离-方位角 (RA) 特征融合，以执行目标检测。我们在RADIal数据集上评估了我们的融合策略与其他现有方法，不仅评估了准确性，还评估了计算复杂度指标。
2024-11-20	Click; Single Object Tracking; Video Object Segmentation; Real-time Interaction	null	单目标跟踪 (SOT) 依赖于精确的目标边界框初始化。本文重新审视了当前单目标跟踪器初始化方法的不足，并提出了一种新的单目标跟踪算法范式 ClickTrack，该范式在实时场景中使用点击交互。此外，点击作为一种输入类型本身缺乏层次信息。为了解决某些特殊场景中的歧义，我们设计了引导点击优化器 (GCR)，它接受点和可选的文本信息作为输入，将点转换为操作员期望的边界框。该边界框将用作单目标跟踪器的输入。在 LaSOT 和 GOT-10k 基准测试中的实验表明，结合 GCR 的跟踪器在实时交互场景中实现了稳定的性能。此外，我们还探索了将 GCR 集成到 Segment Anything 模型 (SAM) 中，显著减少了 SAM 接收点输入时的歧义问题。
2024-11-19	GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving	link	自监督学习在图像处理领域取得了重大进展，但用于自动驾驶的视觉预训练仍处于起步阶段。现有方法通常侧重于学习几何场景信息而忽略纹理，或将两者割裂开来处理，阻碍了对场景的全面理解。在此背景下，我们欣然推出GaussianPretrain，这是一种新颖的预训练范式，通过统一整合几何和纹理表示来实现对场景的整体理解。该方法将3D高斯锚点概念化为体积激光雷达点，学习对场景更深入的理解，利用详细的空间结构和纹理来增强预训练性能，实现比基于NeRF的方法UniPAD快40.6%，且仅占用70%的GPU内存。我们在多个3D感知任务上展示了GaussianPretrain的有效性，并显示出显著的性能提升，例如3D目标检测的NDS提升了7.05%，高清地图构建的mAP提升了1.9%，以及占据栅格预测提升了0.8%。这些显著的成果突出了GaussianPretrain的理论创新和强大的实践潜力，推动了自动驾驶视觉预训练的发展。源代码将在https://github.com/Public-BOTs/GaussianPretrain发布。
2024-11-19	Physics-Guided Detector for SAR Airplanes	link	合成孔径雷达(SAR)飞机目标的分散结构分布（离散性）和多变的散射特性（可变性）给目标检测和识别带来了特殊的挑战。当前基于深度学习的检测器在区分复杂背景下的细粒度SAR飞机方面面临挑战。为了解决这个问题，我们提出了一种新的面向SAR飞机的物理引导检测器（PGD）学习范式，该范式综合考虑了SAR飞机的离散性和可变性以提高检测性能。它是一个通用的学习范式，可以扩展到各种现有的具有“骨干-颈部-头部”架构的基于深度学习的检测器。PGD的主要贡献包括物理引导的自监督学习、特征增强和实例感知，分别表示为PGSSL、PGFE和PGIP。PGSSL旨在构建一个基于各种SAR飞机目标的自监督学习任务，将各种离散结构分布的先验知识编码到嵌入空间中。然后，PGFE在PGSSL学习到的物理感知信息的引导下，增强检测器的多尺度特征表示。PGIP构建于检测头，学习每个SAR飞机实例的精细和主要的散射点，从而减轻复杂背景的干扰。我们提出了两种实现方式，分别表示为PGD和PGD-Lite，并将它们应用于各种具有不同骨干网络和检测头的现有检测器。实验结果证明了所提出的PGD的灵活性和有效性，它可以改进现有的SAR飞机细粒度分类检测器（最多提高3.1%的mAP），并在SAR-AIRcraft-1.0数据集上实现了最先进的性能（90.7%的mAP）。该项目是开源的，网址为\url{https://github.com/XAI4SAR/PGD}。
2024-11-19	Invariant Shape Representation Learning For Image Classification	link	几何形状特征已被广泛用作图像分类的强预测因子。然而，大多数现有分类器，例如深度神经网络 (DNN)，直接利用这些形状特征和目标变量之间的统计相关性。然而，这些相关性通常是虚假的，并且在不同的环境中不稳定（例如，在不同的年龄组中，某些类型的脑部变化与神经退行性疾病的关系不稳定）；因此导致预测有偏差或不准确。在本文中，我们引入了一个新颖的框架，首次开发了不变形状表征学习 (ISRL) 以进一步增强图像分类器的鲁棒性。与主要在图像空间中导出特征的现有方法相比，我们的模型 ISRL 旨在联合捕获由可变形变换参数化的潜在形状空间中的不变特征。为了实现这一目标，我们开发了一种基于不变风险最小化 (IRM) 的新学习范式，以学习跨多个训练分布/环境的图像和形状特征的不变表示。通过嵌入在不同环境中关于目标变量不变的特征，我们的模型始终提供更准确的预测。我们通过对模拟二维图像、真实三维大脑和电影心血管磁共振图像 (MRI) 执行分类任务来验证我们的方法。我们的代码可在 https://github.com/tonmoy-hossain/ISRL 公开获取。
2024-11-19	Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification	null	本研究旨在结合自监督学习和深度网络模型ResNet-101来优化少样本图像分类任务，并提升模型的特征提取和分类性能。在训练过程中，我们首先使用自监督方法对模型进行预训练，使其能够在大量无标签数据上学习通用的特征表达；然后在少样本数据集Mini-ImageNet上进行微调，以提高模型在有限数据下的准确率和泛化能力。实验结果表明，与传统的卷积神经网络、ResNet-50、DenseNet等模型相比，我们的方法在分类准确率（ACC）和F1分数上都取得了优异的性能，约为95.12%，验证了自监督学习在少样本分类中的有效性。该方法为少样本图像分类领域提供了一种高效可靠的解决方案。
2024-11-18	Scaling Deep Learning Research with Kubernetes on the NRP Nautilus HyperCluster	null	在整个科学计算领域，深度学习算法已在广泛的应用中展现出卓越的性能。随着这些深度神经网络 (DNN) 的不断成熟，训练它们所需的计算量也在持续增长。如今，现代 DNN 需要数百万 FLOP 的运算以及数天到数周的训练才能生成一个训练良好的模型。DNN 的训练时间通常是各种深度学习应用中 DNN 研究的瓶颈，因此，加速和扩展 DNN 训练能够实现更强大、更快速的科研。为此，在这项工作中，我们探索利用 NRP Nautilus 超级集群来自动化和扩展深度学习模型训练，涵盖三个不同的 DNN 应用，包括空中物体检测、燃烧区域分割和森林砍伐检测。我们总共在 Nautilus 上训练了 234 个深度神经网络模型，总训练时间为 4,040 小时。
2024-11-18	Fair Distillation: Teaching Fairness from Biased Teachers in Medical Imaging	null	深度学习在图像分类和分割任务中取得了显著的成功。然而，公平性问题依然存在，因为模型经常表现出对由种族、性别或年龄等敏感属性定义的人口群体的 disproportionate 偏见。现有的 bias mitigation 技术，包括子群重新平衡、对抗训练和域泛化，旨在平衡不同人口群体的准确性，但由于这些相互依赖的目标之间存在冲突，通常无法同时提高总体准确性、特定群体的准确性和公平性。我们提出了公平蒸馏（FairDi）方法，这是一种新的公平性方法，它利用针对特定人口群体优化的有偏见的“教师”模型来分解这些目标。然后，这些教师模型指导统一“学生”模型的训练，该模型提取它们的知识以最大化整体和特定群体的准确性，同时最小化群体间的差异。在医学影像数据集上的实验表明，与现有方法相比，FairDi 在总体准确性、特定群体准确性和公平性方面均取得了显著提升。FairDi 适用于各种医学任务，例如分类和分割，并为公平的模型性能提供了有效的解决方案。
2024-11-18	LightFFDNets: Lightweight Convolutional Neural Networks for Rapid Facial Forgery Detection	null	Accurate and fast recognition of forgeries is an issue of great importance in the fields of artificial intelligence, image processing and object detection. Recognition of forgeries of facial imagery is the process of classifying and defining the faces in it by analyzing real-world facial images. This process is usually accomplished by extracting features from an image, using classifier algorithms, and correctly interpreting the results. Recognizing forgeries of facial imagery correctly can encounter many different challenges. For example, factors such as changing lighting conditions, viewing faces from different angles can affect recognition performance, and background complexity and perspective changes in facial images can make accurate recognition difficult. Despite these difficulties, significant progress has been made in the field of forgery detection. Deep learning algorithms, especially Convolutional Neural Networks (CNNs), have significantly improved forgery detection performance. This study focuses on image processing-based forgery detection using Fake-Vs-Real-Faces (Hard) [10] and 140k Real and Fake Faces [61] data sets. Both data sets consist of two classes containing real and fake facial images. In our study, two lightweight deep learning models are proposed to conduct forgery detection using these images. Additionally, 8 different pretrained CNN architectures were tested on both data sets and the results were compared with newly developed lightweight CNN models. It's shown that the proposed lightweight deep learning models have minimum number of layers. It's also shown that the proposed lightweight deep learning models detect forgeries of facial imagery accurately, and computationally efficiently. Although the data set consists only of face images, the developed models can also be used in other two-class object recognition problems.
2024-11-18	WoodYOLO: A Novel Object Detector for Wood Species Detection in Microscopic Images	null	木材种类识别在各个行业中都起着至关重要的作用，从确保木材产品的合法性到推进生态保护工作。本文介绍了 WoodYOLO，一种专门为微观木材纤维分析而设计的新型目标检测算法。我们的方法采用了 YOLO 架构，以应对大型高分辨率显微镜图像带来的挑战，以及对目标细胞类型（导管分子）定位的高召回率的需求。我们的结果表明，WoodYOLO 的性能明显优于最先进的模型，在 F2 分数上分别比 YOLOv10 和 YOLOv7 提高了 12.9% 和 6.5%。这种自动化木材细胞类型定位能力的改进有助于提高法规遵从性，支持可持续林业实践，并在全球范围内促进生物多样性保护工作。
2024-11-18	Learning a Neural Association Network for Self-supervised Multi-Object Tracking	null	本文介绍了一种新的框架，用于以自监督的方式学习多目标跟踪中的数据关联。众所周知，全监督学习方法可以实现出色的跟踪性能，但获取身份级别的标注既繁琐又耗时。受现实场景中物体运动通常可以用马尔可夫过程表示这一事实的启发，我们提出了一种新的期望最大化（EM）算法，该算法训练神经网络来关联检测以进行跟踪，而无需事先了解它们的时间对应关系。我们方法的核心是一个神经卡尔曼滤波器，其观测模型以由神经网络参数化的检测关联为条件。给定一批帧作为输入，相邻帧之间检测的数据关联由神经网络预测，然后进行Sinkhorn归一化，确定检测到状态的分配概率。然后使用卡尔曼平滑来获得给定推断状态的观测值的边际概率，从而产生一个训练目标，使用梯度下降来最大化该边际概率。所提出的框架是完全可微的，允许底层神经模型进行端到端的训练。我们在具有挑战性的MOT17和MOT20数据集上评估了我们的方法，并在使用公共检测的自监督跟踪器中取得了最先进的结果。我们进一步证明了学习模型跨数据集泛化的能力。
2024-11-18	SL-YOLO: A Stronger and Lighter Drone Target Detection Model	null	在复杂场景中（例如无人机拍摄的场景）检测小型目标是一项艰巨的挑战，因为难以捕捉小型目标的复杂特征。虽然YOLO系列在大目标检测方面取得了巨大成功，但在面对小型目标时，其性能并不令人满意。因此，本文提出了一种革命性的模型SL-YOLO（更强更轻的YOLO），旨在打破小型目标检测的瓶颈。我们提出了分层扩展路径聚合网络（HEPAN），这是一种开创性的跨尺度特征融合方法，即使在最具挑战性的环境中也能确保无与伦比的检测精度。同时，在不牺牲检测能力的情况下，我们设计了C2fDCB轻量级模块并添加了SCDown下采样模块，大大减少了模型的参数和计算复杂度。我们在VisDrone2019数据集上的实验结果表明性能显著提高，[email protected]从43.0%跃升至46.9%，[email protected]:0.95从26.0%增加到28.9%。同时，模型参数从11.1M减少到9.6M，FPS可达132，使其成为资源受限环境下实时小型目标检测的理想解决方案。
2024-11-15	On the Cost of Model-Serving Frameworks: An Experimental Evaluation	null	在机器学习 (ML) 中，推理阶段是将预训练模型应用于新的、未见过的数据以进行预测的过程。在推理阶段，最终用户与机器学习服务交互，以根据输入数据获得洞察、建议或操作。因此，服务策略对于在生产环境中有效地部署和管理模型至关重要。这些策略确保模型可用、可扩展、可靠且性能良好，适用于实际应用，例如时间序列预测、图像分类、自然语言处理等。在本文中，我们评估了五种广泛使用的模型服务框架（TensorFlow Serving、TorchServe、MLServer、MLflow 和 BentoML）在四种不同场景（恶意软件检测、加密货币价格预测、图像分类和情感分析）下的性能。我们证明，TensorFlow Serving 在服务深度学习 (DL) 模型方面优于所有其他框架。此外，我们还表明，特定于深度学习的框架（TensorFlow Serving 和 TorchServe）的延迟明显低于三个通用机器学习框架（BentoML、MLFlow 和 MLServer）。
2024-11-15	Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning	null	多模态大型语言模型 (MLLM) 擅长图像描述任务，但在精确的目标定位方面常常存在不足，而目标定位是可靠视觉理解的关键要素。相比之下，传统的目标检测模型虽然定位精度高，但由于对物体间关系建模有限，生成的检测结果往往缺乏上下文一致性。为了解决这一根本局限性，我们引入了视觉-语言代理 (VLA)，这是一个将 MLLM 的关系推理优势与传统目标检测器的精确定位能力相结合的协作框架。在 VLA 范式中，MLLM 充当中央语言代理，与专门用于目标检测和分类的视觉代理进行协作。语言代理通过推理物体间的空间和上下文关系来评估和改进检测结果，而分类视觉代理则提供纠正反馈以提高分类精度。这种协作方法使 VLA 能够显著增强空间推理和目标定位能力，从而解决多模态理解中的关键挑战。在 COCO 数据集上的大量评估表明，VLA 能够显著提升多种检测模型的性能，凸显了其在准确且上下文一致的目标检测方面树立新标杆的潜力。
2024-11-15	A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift	null	基于Transformer的超分辨率（SR）模型最近提高了图像重建质量，但由于计算复杂性以及过度依赖大patch尺寸（这限制了细粒度细节增强），仍然存在挑战。在这项工作中，我们提出了TaylorIR来解决这些限制，它利用1x1的patch大小，从而在任何基于Transformer的SR模型中实现像素级处理。为了解决传统自注意力机制下巨大的计算需求，我们采用了TaylorShift注意力机制，这是一种基于泰勒级数展开的高效内存替代方案，以线性复杂度实现了完全的token到token交互。实验结果表明，与传统的基于自注意力的Transformer相比，我们的方法实现了新的最先进的SR性能，同时减少了高达60%的内存消耗。
2024-11-15	Embedding Byzantine Fault Tolerance into Federated Learning via Virtual Data-Driven Consistency Scoring Plugin	link	如果能从多个边缘设备收集到足够的数据，联邦学习（FL）就能在不传输私人数据到中央服务器的情况下训练共享模型。然而，联邦学习通常容易受到来自受损边缘设备的拜占庭攻击，这会显著降低模型性能。在本文中，我们提出了一个直观的插件，可以集成到现有的联邦学习技术中以实现拜占庭容错。其关键思想是生成虚拟数据样本，并评估各个本地更新之间的模型一致性分数，从而有效地过滤掉受损的边缘设备。通过在聚合阶段之前利用这种评分机制，所提出的插件使现有的联邦学习技术能够在保持其原有优势的同时，对拜占庭攻击具有鲁棒性。医学图像分类任务的数值结果验证了将所提出的方法插入到具有代表性的联邦学习算法中，可以有效地实现拜占庭容错。此外，当不存在拜占庭攻击时，所提出的插件还能保持基础联邦学习算法原有的收敛特性。
2024-11-15	MOT_FCG++: Enhanced Representation of Motion and Appearance Features	null	多目标跟踪 (MOT) 的目标是在场景中跨帧检测和跟踪所有对象，同时为每个对象维护唯一的身份。大多数现有方法依赖于连续帧中检测到的对象的空间运动特征和外观嵌入特征。有效且鲁棒地表示长轨迹的空间和外观特征已成为影响 MOT 性能的关键因素。我们提出了一种新的外观和空间特征表示方法，改进了聚类关联方法 MOT_FCG。对于空间运动特征，我们提出了对角线调制 GIoU，它可以更准确地表示对象的位置和形状之间的关系。对于外观特征，我们利用包含置信信息的动态外观表示，使轨迹外观特征更加鲁棒和全局化。基于基线模型 MOT_FCG，我们在 MOT17 验证集上实现了 76.1 HOTA、80.4 MOTA 和 81.3 IDF1，并且在 MOT20 和 DanceTrack 验证集上也取得了具有竞争力的性能。
2024-11-14	Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration	link	近年来，注意力机制通过关注关键特征信息显著提高了目标检测的性能。然而，主流方法仍然难以有效平衡局部和全局特征。这种不平衡阻碍了它们捕捉细粒度细节和更广泛上下文信息的能力，而这两者是实现准确目标检测的关键要素。为了应对这些挑战，我们提出了一种新的注意力机制，称为局部-全局注意力，旨在更好地整合局部和全局上下文特征。具体而言，我们的方法结合了多尺度卷积和位置编码，使模型能够关注局部细节，同时兼顾更广泛的全局上下文。此外，我们引入了可学习参数，允许模型根据任务的具体要求动态调整局部和全局注意力的相对重要性，从而优化跨多尺度的特征表示。我们在几个广泛使用的目标检测和分类数据集上全面评估了局部-全局注意力机制。我们的实验结果表明，这种方法显著增强了各种尺度目标的检测，在多类别和小目标检测任务中表现尤为出色。与现有的注意力机制相比，局部-全局注意力在多个关键指标上始终优于它们，同时保持了计算效率。
2024-11-14	GAN-Based Architecture for Low-dose Computed Tomography Imaging Denoising	null	生成对抗网络 (GAN) 已成为低剂量计算机断层扫描 (LDCT) 成像领域的一项革命性元素，为兼顾辐射暴露和图像质量这一长期问题提供了先进的解决方案。这篇综述综合了基于 GAN 的 LDCT 去噪技术的快速发展，考察了从基础架构到结合解剖先验、感知损失函数和创新正则化策略等高级特征的最先进模型的演变。我们批判性地分析了各种 GAN 架构，包括条件 GAN (cGAN)、循环 GAN (CycleGAN) 和超分辨率 GAN (SRGAN)，阐明了它们在 LDCT 去噪背景下的独特优势和局限性。评估提供了与基准和临床数据集性能改进相关的定性和定量结果，并使用了峰值信噪比 (PSNR)、结构相似性指数 (SSIM) 和学习感知图像块相似度 (LPIPS) 等指标。在强调积极成果之后，我们讨论了阻碍其更广泛临床应用的一些挑战，包括 GAN 生成图像的可解释性、合成伪影以及对临床相关指标的需求。综述最后强调了基于 GAN 的方法在通过定制 LDCT 去噪模型推进精准医学方面的重要意义，并强调了人工智能在当代放射学实践中带来的变革可能性。
2024-11-14	ISAC Super-Resolution Receiver via Lifted Atomic Norm Minimization	null	本文介绍了一种用于集成传感和通信 (ISAC) 系统的离网估计器，利用了提升原子范数最小化 (LANM)。这种情况下的关键挑战是发射信号和雷达通信信道都是未知的。我们证明，当观测次数与 ISAC 系统的自由度成正比时，LANM 可以同时实现雷达目标定位和通信符号解码。尽管问题本质上是不适定的，我们采用提升技术对发射信号进行初始编码。然后，我们利用原子范数来提升 ISAC 信道的结构化低秩性。我们利用对偶技术将 LANM 转换为信号域上的无限维搜索。随后，我们使用半定松弛 (SDR) 来实现对偶问题。我们将方法扩展到接收信号被加性高斯白噪声 (AWGN) 和干扰信号污染的实际场景。此外，我们推导了所提出的估计器的计算复杂度，并证明它等效于传统的导频辅助 ANM 用于估计信道参数。我们的仿真实验表明，所提出的 LANM 方法能够估计通信数据和目标参数，其性能与传统的仅雷达超分辨率技术相当。
2024-11-14	ResidualDroppath: Enhancing Feature Reuse over Residual Connections	null	残差连接是神经网络架构中最重要的组件之一，用于缓解梯度消失问题并促进更深层网络的训练。关于残差连接如何帮助更深层网络训练的一种可能解释是通过促进特征重用。然而，我们识别并分析了使用普通残差连接进行特征重用的局限性。为了解决这些局限性，我们提出了训练方法的改进。具体来说，我们通过在训练期间的两种类型的迭代为模型提供了额外的学习利用残差连接进行特征重用的机会。第一种类型的迭代涉及使用droppath，它通过随机丢弃层的子集来强制执行特征重用。第二种类型的迭代侧重于训练模型中丢弃的部分，同时冻结未丢弃的部分。结果，丢弃的部分以鼓励特征重用的方式进行学习，因为模型依赖于考虑到特征重用的未丢弃部分。总的来说，我们在某些情况下证明了具有残差连接的模型在图像分类方面的性能有所提高。
2024-11-14	SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers	null	图像分类是一项计算机视觉任务，模型分析图像并将其归类到特定标签。视觉Transformer (ViT) 通过利用自注意力机制捕获复杂模式和图像块之间的长距离关系来改进这项任务。然而，ViT 的一个关键挑战是如何有效地结合多尺度特征表示，而这在 CNN 中是通过其层次结构固有的。在本文中，我们介绍了尺度感知图注意力视觉Transformer (SAG-ViT)，这是一个通过集成多尺度特征来解决这一挑战的新颖框架。该模型使用EfficientNet作为骨干网络，提取多尺度特征图，并将这些特征图分割成图像块以保留语义信息。这些图像块根据空间和特征相似性组织成图，并使用图注意力网络 (GAT) 来细化节点嵌入。最后，Transformer 编码器捕获长距离依赖关系和复杂交互。SAG-ViT 在基准数据集上进行了评估，证明了其在提高图像分类性能方面的有效性。
2024-11-14	Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks	null	红外与可见光图像融合技术的核心价值在于将其融合结果应用于下游任务。然而，现有方法在同时处理多个下游任务时，面临着训练复杂性增加且单个任务性能显著下降等挑战。为了解决这个问题，我们提出了面向任务的自适应调节机制（T-OAR），该机制专为多任务环境设计。此外，我们引入了任务相关的动态提示注入模块（T-DPI），该模块根据用户输入的文本指令生成特定于任务的动态提示，并将其整合到目标表示中。这将引导特征提取模块生成更符合下游任务特定需求的表示。通过将T-DPI模块融入T-OAR框架，我们的方法可以生成针对特定任务需求的融合图像，而无需单独训练或特定于任务的权重。这不仅降低了计算成本，还增强了跨多个任务的适应性和性能。实验结果表明，我们的方法在目标检测、语义分割和显著目标检测方面表现出色，展现了其强大的适应性、灵活性和任务特异性。这为多任务环境下的图像融合提供了一种高效的解决方案，突出了该技术在各种应用中的潜力。
2024-11-14	Cross-Modal Consistency in Multimodal Large Language Models	null	多模态方法的最新发展标志着能够处理多种数据类型（包括文本、音频和视觉内容）的模型进入了一个激动人心的新时代。像GPT-4V这样将计算机视觉与高级语言处理相结合的模型，在处理需要同时理解文本和视觉信息的复杂任务方面展现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型（VLLM）在各种领域（包括目标检测、图像字幕和其他相关领域）的有效性。然而，现有的分析往往存在局限性，主要集中在孤立地评估每种模态的性能，而忽略了探索它们复杂的跨模态交互。具体来说，关于这些模型在面对不同模态的相同任务实例时是否能达到相同精度的问题仍未得到解答。在本研究中，我们率先通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣模态之间的交互和比较。此外，我们提出了一个基于此概念的定量评估框架。我们从自己开发的精选平行视觉语言数据集得出的实验结果揭示了GPT-4V内部视觉和语言模态之间明显的矛盾性，尽管它被描述成一个统一的多模态模型。我们的研究揭示了此类模型的合理使用方法，并暗示了改进其设计的潜在途径。
2024-11-14	LEAP:D -- A Novel Prompt-based Approach for Domain-Generalized Aerial Object Detection	null	无人机拍摄的图像由于拍摄条件的变化会导致物体外观和形状的改变，给物体检测带来了巨大的挑战。诸如无人机高度、角度和天气等因素会导致这些变化，从而影响物体检测算法的性能。为了应对这些挑战，我们引入了一种使用可学习提示的创新视觉语言方法。这种从传统手动提示的转变旨在减少特定领域知识的干扰，最终提高物体检测能力。此外，我们采用单步训练方法简化了训练过程，将可学习提示与模型训练同步更新，在不提高性能的前提下提高了效率。我们的研究通过利用可学习提示和优化训练过程，促进了领域泛化的物体检测。这增强了模型在不同环境下的鲁棒性和适应性，从而实现了更有效的空中物体检测。
2024-11-14	Performance Boundaries and Tradeoffs in Super-Resolution Imaging Technologies for Space Targets	null	逆合成孔径雷达(ISAR)超分辨率成像技术广泛应用于空间目标成像。然而，超分辨率成像算法的性能极限仍然是一个很少被探索的问题。本文通过分析空间目标超分辨率算法的边界来研究这些极限，并检验关键影响因素之间的关系。特别地，利用已建立的用于线谱重建的计算分辨率极限(CRL)数学理论，我们基于ISAR成像模型变换，推导出了跨距离超分辨率成像上限和下限的数学表达式。利用这些显式表达式，我们首先探讨了这些边界的影响因素，例如传统的瑞利极限、散射点数量以及散射点的峰值信噪比(PSNR)。然后，我们阐明了CRL理论对ISAR成像施加的、为满足所需跨距离分辨率所需的最小资源要求，如果没有这些要求，在实践中研究超分辨率算法就没有必要。此外，还分析了累积旋转角、雷达发射能量和其他影响分辨率的因素之间的权衡。进行了仿真以演示各种ISAR成像场景中的这些权衡，揭示了它们对特定成像目标的高度依赖性。
2024-11-14	Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery	link	视觉Transformer（ViT）最近在计算机视觉领域掀起了一股新的研究浪潮。这些模型在图像分类和分割领域表现尤为出色。随着新架构的出现，语义分割和实例分割的研究进展迅速，iSAID数据集排名前20的基准测试中有超过80%是基于ViT架构或其背后的注意力机制。本文重点对在iSAID数据集上进行遥感航拍图像语义分割时使用（或不使用）ViT的三个关键因素进行启发式比较。研究过程中观察到的实验结果是在以下目标的审查下进行的：1. 使用加权融合损失函数以获得最大平均交并比（mIoU）分数、Dice分数，以及最小化或保持熵或类别表示；2. 比较基于ViT的语义分割模型Meta的MaskFormer与通用UNet卷积神经网络（CNN）的迁移学习效果，并根据mIoU、Dice分数、训练效率和推理时间进行评判；3. 我们为了获得什么而失去了什么？即，将这两种模型与当前最先进的分割模型进行比较。我们展示了新型组合加权损失函数的使用相较于ViT的迁移学习显著提升了CNN模型的性能。该实现的代码可以在\url{https://github.com/ashimdahal/ViT-vs-CNN-ImageSegmentation}找到。
2024-11-12	Large-scale Remote Sensing Image Target Recognition and Automatic Annotation	link	本文提出了一种名为LRSAA的大范围遥感图像目标识别与自动标注方法。该方法通过集成学习融合了YOLOv11和MobileNetV3-SSD目标检测算法以提升模型性能。此外，它采用泊松圆盘采样分割技术和EIOU指标来优化分割图像的训练和推理过程，并最终整合结果。这种方法不仅降低了对计算资源的需求，还在准确率和速度之间取得了良好的平衡。该项目的源代码已在https://github.com/anaerovane/LRSAA公开发布。
2024-11-12	ALANINE: A Novel Decentralized Personalized Federated Learning For Heterogeneous LEO Satellite Constellation	null	近年来，低地球轨道 (LEO) 卫星星座在规模和功能上都得到了显著增强，集成了通信、导航和遥感等多种能力。然而，不同卫星收集数据的异构性以及高效的星间协同计算问题，对实现这些星座的潜力构成了重大障碍。现有方法难以应对数据异构性、图像分辨率变化以及高效的在轨模型训练的需求。为了应对这些挑战，我们提出了一种新的去中心化个性化联邦学习框架，即一种面向异构低地球轨道卫星星座的新型去中心化个性化联邦学习 (ALANINE)。ALANINE 结合了用于卫星图像超分辨率 (SR) 的去中心化联邦学习 (DFL)，从而提高输入数据质量。然后，它利用个性化联邦学习 (PFL) 来实现一种个性化方法，以考虑卫星数据的独特特征。此外，该框架采用先进的模型剪枝技术来优化模型复杂度和传输效率。该框架能够实现高效的数据采集和处理，同时提高 PFL 图像处理模型的精度。仿真结果表明，与传统的集中式方法相比，ALANINE 在 SR 和 PFL 图像处理模型的在轨训练中表现出更优的性能。这种新方法在数据采集效率、处理精度以及模型对本地卫星条件的适应性方面都有显著改进。
2024-11-12	Efficient 3D Perception on Multi-Sweep Point Cloud with Gumbel Spatial Pruning	null	本文研究了室外环境中的点云感知。由于室外点云的稀疏性，现有方法在识别远距离或被遮挡的物体方面存在局限性。在本研究中，我们观察到通过累积多个时间上连续的激光雷达扫描可以显著缓解这个问题，从而显着提高感知精度。然而，计算成本也随之增加，阻碍了先前的方法利用大量的激光雷达扫描。为了应对这一挑战，我们发现累积点云中的相当一部分点是冗余的，丢弃这些点对感知精度的影响很小。我们引入了一个简单而有效的Gumbel空间剪枝（GSP）层，它基于学习的端到端采样动态地剪枝点。GSP层与其他网络组件解耦，因此可以无缝集成到现有的点云网络架构中。在不增加额外计算开销的情况下，我们将激光雷达扫描次数从常用的10次增加到40次。因此，感知性能得到了显著提升。例如，在nuScenes 3D目标检测和BEV地图分割任务中，我们的剪枝策略改进了vanilla TransL基线和其他基线方法。
2024-11-12	Numerical Homogenization by Continuous Super-Resolution	null	有限元方法通常需要高分辨率才能令人满意地逼近底层物理模型的微观甚至宏观模式。这个问题可以通过适当的数值均匀化或多尺度策略来规避，这些策略能够在欠解析尺度上获得合理的近似值。在本文中，我们研究了隐式神经表示，并提出了一种连续超分辨率网络作为数值均匀化策略。它可以利用粗糙的有限元数据来学习分布内和分布外的高分辨率有限元预测。我们的亮点是设计了一个局部隐式变换器，它能够学习多尺度特征。我们还提出了基于 Gabor 小波的坐标编码，它可以克服神经网络学习低频特征的偏差。最后，科学家通常更偏好感知而不是失真，以便他们能够识别视觉模式以进行进一步研究。然而，隐式神经表示的缺点是缺乏局部模式监督。我们建议使用随机余弦相似度来比较预测值和真值之间的局部特征差异。它在结构对齐方面表现出更好的性能。我们的实验表明，我们提出的策略作为一种分布内和分布外超分辨率策略实现了卓越的性能。
2024-11-12	Depthwise Separable Convolutions with Deep Residual Convolutions	null	随着边缘计算的最新进展，研究人员得以优化各种深度学习架构，以便在边缘设备中部署。本研究旨在优化 Xception 架构，它是计算机视觉应用中最流行的深度学习算法之一。Xception 架构对于目标检测任务非常有效。然而，它也带来了巨大的计算成本。Xception 的计算复杂性有时会阻碍其在资源受限的边缘设备上的部署。为了解决这个问题，我们提出了一种针对边缘设备优化的 Xception 架构，旨在实现轻量级和高效的部署。我们将深度可分离卷积与 Xception 架构的深度残差卷积相结合，为边缘设备开发了一个小型高效的模型。由此产生的架构减少了参数数量、内存使用量和计算负载。我们在 CIFAR 10 目标检测数据集上评估了所提出的架构。我们的实验评估结果还表明，所提出的架构参数规模更小，所需的训练时间更短，同时性能优于 Xception 架构。
2024-11-11	Ensemble Learning for Microbubble Localization in Super-Resolution Ultrasound	null	超分辨率超声 (SR-US) 是一种强大的成像技术，能够以高空间分辨率捕获微血管结构和血流。然而，精确的微泡 (MB) 定位仍然是一个关键挑战，因为定位误差会传播到超分辨率过程的后续阶段，从而影响整体性能。在本文中，我们探索了集成学习技术在增强微泡定位方面的潜力，通过提高检测灵敏度和减少误报来实现。我们的研究评估了集成方法在可变形检测Transformer（Deformable DETR）网络的体内和模拟输出上的有效性。通过我们的研究，我们能够证明这些集成方法的优势，即提高了微泡检测的精确率和召回率，并为其在超分辨率超声中的应用提供了见解。
2024-11-11	General Geospatial Inference with a Population Dynamics Foundation Model	null	为了支持全球动态人口的健康和福祉，政府机构、组织和研究人员需要理解和推理人类行为与当地环境之间复杂的联系，以便识别高风险人群并战略性地分配有限的资源。解决这类问题的传统方法通常需要开发手动管理的、特定于任务的特征和模型来表示人类行为以及自然和建筑环境，这对于适应新的甚至相关的任务来说可能具有挑战性。为了解决这个问题，我们引入了人口动态基础模型（PDFM），旨在捕捉不同数据模态之间的关系，并适用于广泛的地理空间任务。我们首先构建了一个针对美国邮政编码和县的地理索引数据集，其中包含从地图、繁忙程度和聚合搜索趋势中获取的丰富的人类行为聚合信息，以及天气和空气质量等环境因素。然后，我们使用图神经网络对这些数据以及位置之间的复杂关系进行建模，生成可通过相对简单的模型适应各种下游任务的嵌入。我们通过在涵盖三个不同领域（健康指标、社会经济因素和环境测量）的27个下游任务上进行基准测试来评估我们方法的有效性。该方法在所有27个地理空间插值任务上实现了最先进的性能，并且在27个外推和超分辨率任务中的25个上也达到了最先进的性能。我们将PDFM与最先进的预测基础模型TimesFM相结合，来预测失业率和贫困率，实现了超越完全监督预测的性能。完整嵌入集和示例代码已公开提供给研究人员。
2024-11-11	Transformers for Charged Particle Track Reconstruction in High Energy Physics	null	重建带电粒子轨迹是现代对撞机实验的一项基本任务。高亮度大型强子对撞机 (HL-LHC) 预计将产生的前所未有的粒子数量对轨迹重建提出了重大挑战，传统的算法将难以应对如此巨大的计算量。为了应对这一挑战，我们提出了一种新颖的基于学习的轨迹重建方法，该方法借鉴了计算机视觉和目标检测领域的最新进展。我们的架构结合了Transformer 击中点过滤网络和 MaskFormer 重建模型，共同优化了击中点分配和带电粒子属性的估计。在 TrackML 数据集上进行评估，我们性能最佳的模型实现了最先进的跟踪性能，效率达到 97%，假阳性率为 0.6%，推理时间为 100 毫秒。我们可调的方法能够针对触发系统等特定应用进行专门化，而其基本原理可以扩展到高能物理中的其他重建挑战。这项工作展示了现代深度学习架构在应对粒子物理学中新兴的计算挑战，同时保持突破性物理分析所需的精度的潜力。
2024-11-11	The Inherent Adversarial Robustness of Analog In-Memory Computing	null	深度神经网络 (DNN) 算法的一个关键挑战是它们容易受到对抗性攻击。本质上非确定性的计算基底，例如基于模拟内存计算 (AIMC) 的基底，被推测在执行 DNN 推理时能够提供显著的对抗鲁棒性。在本文中，我们首次在基于相变存储器 (PCM) 器件的 AIMC 芯片上实验验证了这一猜想。我们展示了在实现图像分类网络时，针对不同类型的对抗性攻击具有更高的对抗鲁棒性。在执行硬件在环攻击时也观察到了额外的鲁棒性，在这种攻击中，假设攻击者可以完全访问硬件。对各种噪声源的仔细研究表明，随机噪声源（包括循环和非循环）的组合是造成对抗鲁棒性的原因，并且它们的类型和大小对这一特性产生了不成比例的影响。最后，通过仿真证明，当使用更大的变换器网络来执行自然语言处理 (NLP) 任务时，仍然可以观察到额外的鲁棒性。
2024-11-11	BuckTales : A multi-UAV dataset for multi-object tracking and re-identification of wild antelopes	null	理解动物行为对于预测、理解和减轻自然和人为变化对动物种群和生态系统的影响至关重要。然而，在野外环境中获取和处理长期、具有生态学相关性数据的挑战限制了行为研究的范围。无人机 (UAV) 的日益普及，加上机器学习的进步，为使用空中追踪进行野生动物监测开辟了新的机遇。然而，由于缺乏自然栖息地中野外动物的数据集，阻碍了用于长期动物追踪的自动化计算机视觉解决方案的进展。在此，我们介绍 BuckTales，这是第一个旨在解决野生动物（特别是黑羚羊的交配行为或求偶场）中的多目标跟踪 (MOT) 和重识别 (Re-ID) 问题的大规模无人机数据集。该数据集与生物学家合作收集，MOT 数据集包含超过 120 万个标注，包括 12 个高分辨率 (5.4K) 视频中的 680 个轨迹，每个视频平均 66 秒，包含 30 到 130 个个体。Re-ID 数据集包含用两架无人机同时拍摄的 730 个个体。该数据集旨在使用多个摄像头传感器推动可扩展的长期动物行为跟踪。通过提供两个检测器的基线性能，并对几种最先进的跟踪方法进行基准测试，我们的数据集反映了在社会和生态相关环境中跟踪野生动物的实际挑战。通过广泛提供这些数据，我们希望能够促进野生动物 MOT 和 Re-ID 的进展，从而通过自动化、长期监测促进对动物行为、保护工作和生态系统动态的深入了解。
2024-11-08	Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification	null	卷积神经网络 (CNN) 近年来性能显著提高。然而，由于其规模和复杂性，它们的功能如同黑盒，导致透明度问题。最先进的显著性方法生成局部解释，突出显示输入图像中识别类别的区域，但无法解释感兴趣的概念如何对预测做出贡献，这对于偏差缓解至关重要。另一方面，基于概念的方法，例如 TCAV（使用概念激活向量进行测试），可以深入了解网络对概念的敏感程度，但无法计算其在特定预测中的归因，也无法显示其在输入图像中的位置。本文介绍了一种新颖的事后可解释性框架 Visual-TCAV，旨在通过为基于 CNN 的图像分类提供局部和全局解释来弥合这些方法之间的差距。Visual-TCAV 使用概念激活向量 (CAV) 生成显著图，显示网络识别概念的位置。此外，它可以使用集成梯度的泛化来估计这些概念对任何类别输出的归因。该框架在流行的 CNN 架构上进行了评估，并通过已知解释的真实情况的实验以及与 TCAV 的比较进一步证实了其有效性。我们的代码即将发布。
2024-11-08	Open-set object detection: towards unified problem formulation and benchmarking	null	在诸如自动驾驶等置信度至关重要的实际应用中，准确检测和恰当处理与训练期间所用类别不同的类别至关重要。尽管已提出了各种未知物体检测方法，但我们观察到它们之间在使用的数据集、指标和场景方面存在普遍的不一致性，并且明显缺乏对未知物体的明确定义，这阻碍了有意义的评估。为了应对这些问题，我们引入了两个基准：统一的VOC-COCO评估和新的OpenImagesRoad基准，后者除了新的评估指标外，还提供了清晰的层次对象定义。作为基准的补充，我们利用了最新的自监督视觉Transformer的性能，通过OW-DETR++来改进基于伪标签的开放集目标检测（OSOD）。我们在提出的基准上对最先进的方法进行了广泛的评估。这项研究提供了清晰的问题定义，确保了一致的评估，并得出了关于OSOD策略有效性的新结论。
2024-11-08	Training objective drives the consistency of representational similarity across datasets	link	柏拉图式表征假设认为，近期的基础模型正趋向于一个共享的表征空间，这是由它们的下游任务性能决定的，而与用于训练这些模型的目标和数据模态无关。表征相似性通常针对单个数据集进行测量，并且在不同数据集之间不一定一致。因此，人们可能会疑问这种模型表征的收敛是否受到机器学习中常用数据集的混淆。在这里，我们提出了一种系统的方法来衡量模型之间的表征相似性如何随着用于构建表征的刺激集而变化。我们发现，目标函数是决定跨数据集表征相似性一致性的最关键因素。具体来说，与图像分类或图文模型相比，自监督视觉模型学习到的表征，其成对相似性在不同数据集之间具有更好的泛化能力。此外，表征相似性与模型任务行为之间的对应关系取决于数据集，在单域数据集中表现最为明显。我们的工作提供了一个框架，用于系统地测量跨数据集的模型表征相似性，并将这些相似性与任务行为的差异联系起来。
2024-11-08	WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning	null	地球天气系统包含复杂的天气数据模态和多样的天气理解任务，这些对人类生活至关重要。现有的数据驱动模型专注于单一的天气理解任务（例如，天气预报）。尽管这些模型取得了可喜的成果，但它们无法在单个统一模型中处理各种复杂的任务。此外，依赖于单个场景的有限真实观测的范式阻碍了模型性能上限的提升。为了应对这些限制，我们从最先进的视觉基础模型和大型语言模型中使用的上下文学习范式中汲取灵感。在本文中，我们介绍了第一个通用的天气基础模型 (WeatherGFM)，旨在以统一的方式处理各种天气理解任务。更具体地说，我们首先统一了不同天气理解任务的表示和定义。随后，我们设计了天气提示格式来管理不同的天气数据模态，即单一、多重和时间模态。最后，我们采用视觉提示问答范式来训练统一的天气理解任务。大量实验表明，我们的 WeatherGFM 可以有效地处理多达十项天气理解任务，包括天气预报、超分辨率、天气图像转换和后处理。我们的方法还展示了对未见过任务的泛化能力。
2024-11-08	SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection	null	越来越多的研究工作融合激光雷达和相机信息来提升自动驾驶系统中的三维目标检测性能。最近，一个简单但有效的融合框架通过在统一的鸟瞰图（BEV）空间中融合激光雷达和相机特征，实现了优异的检测性能。在本文中，我们提出了一个名为SimpleBEV的激光雷达-相机融合框架，用于精确的三维目标检测，该框架遵循基于BEV的融合框架并分别改进了相机和激光雷达编码器。具体来说，我们使用级联网络进行基于相机的深度估计，并利用激光雷达点云导出的深度信息来校正深度估计结果。同时，引入了一个仅使用相机BEV特征进行三维目标检测的辅助分支，以在训练阶段充分利用相机信息。此外，我们通过融合多尺度的稀疏卷积特征来改进激光雷达特征提取器。实验结果证明了我们提出的方法的有效性。我们的方法在nuScenes数据集上达到了77.6%的NDS精度，在三维目标检测赛道中展现出优异的性能。
2024-11-07	Zero-Shot Temporal Resolution Domain Adaptation for Spiking Neural Networks	null	脉冲神经网络 (SNN) 是一种受生物启发的深度神经网络，可以有效地提取时间信息，并在神经形态设备上部署时在能效和延迟方面具有显著优势。然而，SNN 模型参数对时间分辨率敏感，当边缘目标数据的时间分辨率与用于训练的部署前源数据的时间分辨率不同时，会导致性能显著下降，尤其是在边缘无法进行微调的情况下。为了应对这一挑战，我们提出了三种新的域自适应方法，用于调整神经元参数以适应时间分辨率的变化，而无需在目标时间分辨率上重新训练。所提出的方法基于 SNN 中神经元动力学和状态空间模型 (SSM) 之间的映射；并且适用于一般的神经元模型。我们在时空数据任务下评估了所提出的方法，即音频关键词识别数据集 SHD 和 MSWC 以及图像分类数据集 NMINST。我们的方法提供了一种替代方案，并且在大多数情况下明显优于现有的简单缩放时间常数的参考方法。此外，我们的结果表明，通过在较低时间分辨率数据上进行高效的时间训练和模型自适应，可以获得较高时间分辨率数据的高精度。
2024-11-07	ESC-MISR: Enhancing Spatial Correlations for Multi-Image Super-Resolution in Remote Sensing	null	多图像超分辨率 (MISR) 是遥感领域一项至关重要但又极具挑战性的研究任务。本文致力于解决遥感多图像超分辨率 (MISR-RS) 这一难题，旨在从卫星获取的多张低分辨率 (LR) 图像生成高分辨率 (HR) 图像。最近，低分辨率图像之间弱时间相关性在 MISR-RS 任务中受到越来越多的关注。然而，现有的 MISR 方法将低分辨率图像视为具有强时间相关性的序列，忽略了空间相关性并强加了时间依赖性。为了解决这个问题，我们提出了一种名为“增强 MISR 中空间相关性”(ESC-MISR) 的新型端到端框架，它充分利用多图像的时空关系进行高分辨率图像重建。具体来说，我们首先引入了一种名为“多图像空间变换器”(MIST) 的新型融合模块，它强调具有更清晰全局空间特征的部分，并增强低分辨率图像之间的空间相关性。此外，我们对低分辨率图像的顺序输入执行随机洗牌策略，以减弱时间依赖性并在训练阶段捕获弱时间相关性。与最先进的方法相比，我们的 ESC-MISR 在 PROBA-V 数据集的两个波段上分别实现了 0.70dB 和 0.76dB 的 cPSNR 提升，证明了我们方法的优越性。
2024-11-07	Is network fragmentation a useful complexity measure?	null	已观察到深度神经网络分类器的输入空间可能表现出“碎片化”现象，即模型函数的类别随着输入空间的遍历而快速变化。这种碎片化的严重程度往往遵循双下降曲线，在插值区域达到最大值。我们在图像分类的背景下研究了这一现象，并探究碎片化是否可以预测泛化性能。我们使用基于碎片化的复杂性度量，通过在PGDL（深度学习泛化预测）基准测试中取得良好性能，证明了这种可能性。此外，我们还报告了与碎片化相关的新观察结果，即（i）碎片化不仅限于输入空间，也出现在隐藏表示中，（ii）碎片化在整个训练过程中遵循验证误差的趋势，以及（iii）碎片化并非权重范数增加的直接结果。总之，这些表明在研究深度神经网络的泛化能力时，碎片化是一个值得进一步研究的现象。
2024-11-07	On the Inherent Robustness of One-Stage Object Detection against Out-of-Distribution Data	null	鲁棒性是开发安全可靠模型的一个基本方面，尤其是在开放世界部署时。在这项工作中，我们分析了单阶段目标检测器在存在分布外 (OoD) 数据时进行鲁棒操作的固有能力。具体来说，我们提出了一种新的检测算法，用于检测图像数据中的未知目标，该算法利用模型从每个样本中提取的特征。与文献中其他最近的方法不同，我们的提议不需要重新训练目标检测器，从而允许使用预训练模型。我们提出的 OoD 检测器利用监督降维技术来减轻维度灾难对模型提取特征的影响。此外，它利用高分辨率特征图以无监督方式识别潜在的未知目标。我们的实验分析了不同算法配置和推理置信度阈值导致的检测已知和未知目标的性能之间的帕累托权衡。我们还将我们提出的算法的性能与基于 logits 的事后 OoD 方法以及可能的融合策略的性能进行了比较。最后，我们讨论了所有测试方法与针对最近发布的未知目标检测基准的目标检测模型的最新 OoD 方法的竞争力。获得的结果证实，当与我们提出的算法结合使用时，前沿的事后 OoD 检测器的性能可以得到进一步提高。
2024-11-07	Neural Fingerprints for Adversarial Attack Detection	link	近年来，用于图像分类的深度学习模型已成为标准工具。这些模型的一个众所周知的漏洞是它们容易受到对抗样本的攻击。这些对抗样本是通过轻微改变某个类别的图像而生成的，这种改变对人类来说难以察觉，但却会导致模型将其错误地分类为另一个类别。许多算法已经被提出来解决这个问题，它们通常分为两类：（i）构建鲁棒的分类器（ii）直接检测受攻击的图像。尽管这些检测器性能良好，但我们认为在白盒设置中，攻击者知道网络和检测器的配置和权重，他们可以通过在本地副本上运行许多示例，并仅将未检测到的示例发送到实际模型来克服检测器。这个问题在安全应用中很常见，即使是非常好的模型也不足以确保安全。在本文中，我们建议通过随机化来克服任何静态防御的这种固有限制。为此，必须生成一个非常大的性能一致的检测器家族，并为每个输入随机选择一个或多个检测器。对于单个检测器，我们建议使用神经指纹的方法。在训练阶段，对于每个类别，我们反复从网络的某些层中随机抽取一小部分神经元，如果它们的平均值在焦点类别的干净图像和受攻击图像之间有足够的差异，则它们被认为是指纹并添加到检测器库中。在测试期间，我们从与模型预测的标签相关的库中采样指纹，并使用似然比检验来检测攻击。我们在ImageNet上使用不同的攻击方法和模型架构评估了我们的检测器，并显示了近乎完美的检测和低误检率。
2024-11-07	UEVAVD: A Dataset for Developing UAV's Eye View Active Object Detection	null	遮挡是基于无人机（UAV）的目标检测中长期存在的难题。许多研究工作通过调整检测模型来解决这个问题。然而，很少有研究利用无人机通过改变视角来从根本上提高检测性能。主动目标检测（AOD）为此提供了一种有效的方法。通过深度强化学习（DRL），AOD赋予无人机自主路径规划的能力，以搜索更有利于目标识别的观察视角。遗憾的是，目前还没有可用于开发无人机AOD方法的数据集。为了填补这一空白，我们发布了一个名为UEVAVD的无人机视角主动视觉数据集，希望它能够促进无人机AOD问题的研究。此外，我们在学习状态表示时结合了归纳偏差，改进了现有的基于DRL的AOD方法。首先，由于部分可观测性，我们使用门控循环单元从观测序列中提取状态表示，而不是单视角观测。其次，我们使用Segment Anything Model (SAM)预先分割场景，并使用导出的掩码过滤掉无关信息。通过这些实践，agent可以学习到具有更好泛化能力的主动观察策略。UEVAVD数据集上的实验验证了我们改进的有效性。我们的数据集将很快在https://github.com/Leo000ooo/UEVAVD_dataset上发布。
2024-11-07	GazeGen: Gaze-Driven User Interaction for Visual Content Generation	null	我们提出了GazeGen，一个用户交互系统，它可以根据用户注视的位置生成视觉内容（图像和视频）。GazeGen允许用户通过注视目标区域来直观地操作视觉内容。利用先进的目标检测和生成式人工智能技术，GazeGen可以执行注视控制的图像对象添加/删除、重新定位和表面材质更改，并将静态图像转换为视频。GazeGen的核心是DFT Gaze（蒸馏和微调的注视）代理，这是一个只有281K参数的超轻量级模型，可以在小型边缘设备上针对个人用户的眼睛进行准确的实时注视预测。GazeGen是第一个将视觉内容生成与实时注视估计相结合的系统，这完全得益于DFT Gaze。这种实时注视估计支持各种由用户注视控制的视觉内容生成任务。DFT Gaze的输入是用户的眼睛图像，而视觉内容生成的输入是用户的视野和DFT Gaze预测的注视点。为了实现高效的注视预测，我们通过新颖的知识蒸馏和个性化适应技术，从一个大型模型（比其大10倍）派生出这个小型模型。我们将知识蒸馏与掩码自编码器相结合，开发了一个紧凑而强大的注视估计模型。该模型使用适配器进一步微调，从而能够以最少的用户输入实现高度准确和个性化的注视预测。DFT Gaze确保了低延迟和精确的注视跟踪，支持广泛的注视驱动任务。我们在AEA和OpenEDS2020基准测试中验证了DFT Gaze的性能，证明了其在边缘设备（Raspberry Pi 4）上的低角度注视误差和低延迟。此外，我们还描述了GazeGen的应用，展示了它在各种使用场景中的多功能性和有效性。
2024-11-06	Multimodal Structure-Aware Quantum Data Processing	link	虽然大型语言模型 (LLM) 推进了自然语言处理 (NLP) 领域的发展，但其“黑盒”性质掩盖了其决策过程。为了解决这个问题，研究人员开发了使用高阶张量的结构化方法。这些方法能够对语言关系进行建模，但在经典计算机上进行训练时，由于其规模过大而停滞不前。张量是量子系统的天然组成部分，在量子计算机上进行训练通过将文本转换为变分量子电路提供了一种解决方案。在本文中，我们开发了 MultiQ-NLP：一个用于多模态文本+图像数据进行结构感知数据处理的框架。这里，“结构”指的是语言中的句法和语法关系，以及图像中视觉元素的层次组织。我们使用新的类型和类型同态丰富了转换过程，并开发了新的架构来表示结构。在主流图像分类任务 (SVO Probes) 上进行测试时，我们的最佳模型与最先进的经典模型表现相当；此外，最佳模型是完全结构化的。
2024-11-06	RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models	link	微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联，导致测试时的零样本性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作，而不是直接干预细粒度的图像特征，并且 (ii) 主要为单模态设置而设计。在这项工作中，我们提出了 RaVL，它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联，从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM，RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征，从而发现虚假关联。然后，RaVL 通过一种新的区域感知损失函数来减轻已识别的虚假关联，该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明，RaVL 可以准确地发现（比最接近的基线提高 191%）并减轻（最差组图像分类准确率提高 8.2%）虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。
2024-11-06	Overcoming label shift in targeted federated learning	null	联邦学习允许多个参与者在不共享私有数据的情况下协同训练模型。这释放了将机器学习扩展到各种应用的潜力。当客户端和目标域共享相同的特征和标签分布时，现有的算法是合理的，但在现实场景中，这种假设常常被违反。一种常见的违反是标签偏移，即客户端之间或客户端与目标域之间的标签分布不同，这会显著降低模型性能。为了解决这个问题，我们提出了 FedPALS，一种新的模型聚合方案，它通过利用中心服务器上目标标签分布的知识来适应标签偏移。我们的方法确保了随机梯度下降下的无偏更新，确保了在具有不同标签偏移数据的客户端之间的鲁棒泛化。在图像分类上的大量实验表明，FedPALS 通过将模型聚合与目标域对齐，始终优于标准基线。我们的研究结果表明，传统的联邦学习方法在客户端极其稀疏的情况下会受到严重影响，这突出了目标感知聚合的关键需求。FedPALS 提供了一种有原则且实用的解决方案来缓解标签分布不匹配，确保在联邦设置中训练的模型能够有效地泛化到标签偏移的目标域。
2024-11-05	CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection	null	精确且鲁棒的三维目标检测是自动驾驶汽车和机器人技术中的关键组成部分。尽管最近的雷达-相机融合方法通过在鸟瞰图（BEV）表示中融合信息取得了显著进展，但它们往往难以有效捕捉动态物体的运动，从而导致在实际场景中的性能受限。在本文中，我们介绍了 CRT-Fusion，一个将时间信息整合到雷达-相机融合中的新型框架，以应对这一挑战。我们的方法包含三个关键模块：多视图融合（MVF）、运动特征估计器（MFE）和运动引导时间融合（MGTF）。MVF 模块在相机视图和鸟瞰图中融合雷达和图像特征，从而生成更精确的统一 BEV 表示。MFE 模块同时执行两项任务：像素级速度信息估计和 BEV 分割。基于从 MFE 模块获得的速度和占用率分数图，MGTF 模块以循环方式跨多个时间戳对齐和融合特征图。通过考虑动态物体的运动，CRT-Fusion 可以生成鲁棒的 BEV 特征图，从而提高检测精度和鲁棒性。在具有挑战性的 nuScenes 数据集上的大量评估表明，CRT-Fusion 在基于雷达-相机的三维目标检测方面实现了最先进的性能。我们的方法在 NDS 方面比之前的最佳方法高出 1.7%，同时在 mAP 方面也超过了领先方法 1.4%。这两个指标的显著改进展示了我们提出的融合策略在增强三维目标检测的可靠性和准确性方面的有效性。
2024-11-05	Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization	null	开放集单源域泛化旨在使用单一源域学习一个鲁棒的模型，该模型可以泛化到具有域偏移和标签偏移的未知目标域。源域数据的稀缺性和目标域的未知数据分布对域不变特征学习和未知类别识别提出了巨大的挑战。在本文中，我们提出了一种基于域扩展和边界增长的新型学习方法，以扩展稀缺的源样本并扩大已知类别之间的边界，从而间接地拓宽已知类别和未知类别之间的边界。具体来说，我们通过对源数据进行背景抑制和风格增强来合成新样本，从而实现域扩展。然后，我们强制模型从合成样本中提取一致的知识，以便模型能够学习域不变信息。此外，我们在训练多二元分类器时，通过使用边缘图作为样本的附加模态来实现跨类别的边界增长。这种方式扩大了内点和外点之间的边界，从而提高了开放集泛化期间的未知类别识别能力。大量实验表明，我们的方法可以在多个跨域图像分类数据集上实现显著的改进并达到最先进的性能。
2024-11-05	Applications of Automatic Differentiation in Image Registration	link	我们论证了在机器学习框架中已普遍可用的自动微分技术，是探索改进多尺度仿射图像配准和仿射超分辨率问题算法的有效方法。在第一个关于多尺度配准的实验中，我们实现了一种常微分方程预测-校正方法，该方法涉及关于尺度参数的导数和图像配准目标函数的Hessian矩阵，这两者在没有自动微分的情况下都很难计算。我们的研究结果表明，精确的Hessian矩阵对于该方法比传统的多尺度方法有所改进是必要的；而高斯-牛顿Hessian近似未能提供这样的改进。在第二个实验中，我们实现了一种用于超分辨率的可变投影高斯-牛顿方法，并使用自动微分来对迭代计算的投影进行微分，这是一种文献中先前未涉及的方法。我们展示了不通过投影进行微分获得的雅可比矩阵是可变投影正向映射的真实雅可比矩阵的较差近似，并探讨了其他一些近似的性能。通过解决这些问题，这项工作促进了自动微分在图像配准中的应用，并为机器学习工具在该领域的进一步应用开创了先例。
2024-11-05	ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive Processing	null	我们提出了一种图像自适应的目标检测方法，用于应对雾霾和低光等恶劣天气条件。我们的框架采用可微分预处理滤波器来执行图像增强，以适应后续的目标检测阶段。我们的框架引入了两种可微分滤波器：基于贝塞尔曲线的逐像素（BPW）滤波器和基于核的局部（KBL）滤波器。这些滤波器统一了经典图像处理滤波器的功能，并提高了目标检测的性能。我们还提出了一种使用BPW滤波器的域无关数据增强策略。我们的方法不需要针对特定数据定制滤波器组合、参数范围和数据增强。我们通过将所提出的方法（称为ERUP-YOLO，即通过统一图像处理增强鲁棒性的YOLO）应用于YOLOv3检测器来评估其性能。在恶劣天气数据集上的实验表明，我们提出的滤波器在表达能力上与传统方法相当或更优，并且我们的ERUP-YOLO在各种恶劣天气条件下（包括雾霾和低光条件）都实现了卓越的性能。
2024-11-05	Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection	link	单目3D目标检测因其简洁性和低成本而备受关注。现有方法通常遵循传统的2D检测范式，先定位目标中心，然后通过邻近特征预测3D属性。然而，这些方法主要依赖于渐进的跨尺度特征聚合，并且只关注局部信息，这可能导致缺乏全局感知和遗漏小尺度目标。此外，由于不同场景和深度下目标尺度的巨大变化，不准确的感受野通常会导致背景噪声和特征表示退化。为了解决这些问题，我们引入了MonoASRH，一种新颖的单目3D检测框架，由高效混合特征聚合模块（EH-FAM）和自适应尺度感知3D回归头（ASRH）组成。具体来说，EH-FAM采用具有全局感受野的多头注意力机制来提取小尺度目标的语义特征，并利用轻量级卷积模块高效地聚合不同尺度的视觉特征。ASRH对2D边界框维度进行编码，然后通过尺度-语义特征融合模块将尺度特征与EH-FAM聚合的语义特征融合。尺度-语义特征融合模块引导ASRH学习动态感受野偏移，将尺度先验融入3D位置预测，以获得更好的尺度感知能力。在KITTI和Waymo数据集上的大量实验表明，MonoASRH实现了最先进的性能。
2024-11-05	Integrated lithium niobate photonic computing circuit based on efficient and high-speed electro-optic conversion	null	我们展示了一种利用系统级薄膜铌酸锂电路的光计算加速器，克服了这一限制。利用强大的电光（普克尔斯）效应和该平台的可扩展性，我们展示了高达 1.36 TOPS 的光子计算速度，同时功耗仅为 0.057 pJ/OP。我们的系统具有 100 多个协同工作的薄膜铌酸锂高性能组件，超越了该平台上的最先进系统。我们进一步演示了二元分类、手写数字分类和图像分类，并实现了显著的准确性，展示了我们系统执行实际算法的能力。最后，我们研究了将我们的系统与混合集成的分布式反馈激光源和异质集成的改进单向行波载流子光电二极管相结合的可能性。我们的结果表明了薄膜铌酸锂作为计算平台的前景，解决了当前电子和光子计算中的瓶颈。其高性能电光权重编码和转换、晶圆级可扩展性以及与集成激光器和探测器的兼容性等独特特性，使薄膜铌酸锂光子学成为硅光子学的有力补充，并可扩展到超快速和低功耗信号处理和测距等应用领域。
2024-11-04	Intelligent Video Recording Optimization using Activity Detection for Surveillance Systems	null	监控系统通常难以管理大量的视频素材，其中很多素材无关紧要，导致存储效率低下且事件检索困难。本文提出了一种专注于活动检测的优化视频录制解决方案来解决这些问题。该方案利用了一种混合方法，结合了基于帧差法的运动检测和使用 YOLOv9 的目标检测。该策略专门针对涉及人类或汽车活动的场景进行录制，从而减少不必要的素材并优化存储空间使用。开发的模型展现出卓越的性能，汽车检测的精确率达到 0.855，行人检测的精确率达到 0.884，并且与仅依赖运动检测的传统监控系统相比，存储需求减少了三分之二。存储量的显著减少凸显了该方案在提高监控系统效率方面的有效性。尽管如此，仍然存在一些局限性，特别是在恶劣天气条件下（例如强风）会出现误报和漏报。
2024-11-04	MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D	null	纹理化是3D资产生产流程中的关键步骤，它可以增强3D资产的视觉吸引力和多样性。尽管文本到纹理（T2T）生成技术近期取得了一些进展，但现有方法生成的结果往往不尽如人意，主要原因是局部不连续性、多视图之间不一致以及它们对UV展开结果的严重依赖。为了应对这些挑战，我们提出了一种名为MVPaint的创新生成-细化3D纹理化框架，它可以生成高分辨率、无缝的纹理，同时强调多视图一致性。MVPaint主要由三个关键模块组成。1) 同步多视图生成（SMG）。给定一个3D网格模型，MVPaint首先使用SMG模型同时生成多视图图像，这会导致粗糙的纹理化结果，并且由于缺少观察而存在未上色的部分。2) 空间感知3D修复（S3I）。为了确保完整的3D纹理化，我们引入了S3I方法，专门用于有效地对先前未观察到的区域进行纹理化。3) UV细化（UVR）。此外，MVPaint采用UVR模块来提高UV空间中的纹理质量，该模块首先执行UV空间超分辨率，然后使用空间感知的接缝平滑算法来修正由UV展开引起的空间纹理不连续性。此外，我们基于从Objaverse数据集和整个GSO数据集中选择的优质3D网格，分别建立了两个T2T评估基准：Objaverse T2T基准和GSO T2T基准。大量的实验结果表明，MVPaint超越了现有的最先进方法。值得注意的是，MVPaint可以生成高保真纹理，同时最大限度地减少Janus问题，并显著增强跨视图一致性。
2024-11-04	Toward Integrating Semantic-aware Path Planning and Reliable Localization for UAV Operations	null	定位是无人机系统 (UAV) 最关键的任务之一，直接影响整体性能，它可以通过各种传感器实现，并应用于与搜索和救援行动、目标跟踪、建筑等相关的众多任务。然而，由于挑战性环境的负面影响，无人机可能会丢失用于定位的信号。在本文中，我们提出了一种有效的路径规划系统，利用语义分割信息，使用单目相机绕过纹理缺失和有问题的区域，如湖泊、海洋和高层建筑。我们介绍了一种实时语义分割架构和一种新颖的关键帧决策流程，以基于像素分布优化图像输入，从而减少处理时间。一个基于动态窗口方法 (DWA) 算法的分层规划器，与成本地图集成，旨在促进高效的路径规划。该系统在使用 Unity 的逼真模拟环境中实现，并与分割模型参数对齐。全面的定性和定量评估验证了我们方法的有效性，表明在挑战性环境中无人机定位的可靠性和效率得到了显著提高。
2024-11-04	ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model	null	视觉目标跟踪的目标是基于初始边界框在视频序列中定位目标物体。最近，视觉语言（VL）跟踪器提议利用额外的自然语言描述来增强其在各种应用中的多功能性。然而，在跟踪性能方面，VL 跟踪器仍然不如最先进的（SoTA）视觉跟踪器。我们发现这种劣势主要源于它们严重依赖手动文本标注，其中包括频繁提供的模糊语言描述。在本文中，我们提出了 ChatTracker，它利用多模态大型语言模型 (MLLM) 中丰富的知识来生成高质量的语言描述并提高跟踪性能。为此，我们提出了一种新颖的基于反思的提示优化模块，用跟踪反馈迭代地改进目标模糊和不准确的描述。为了进一步利用 MLLM 生成的语义信息，我们提出了一个简单而有效的 VL 跟踪框架，它可以轻松地作为即插即用模块集成到 VL 和视觉跟踪器中，以提高其性能。实验结果表明，我们提出的 ChatTracker 实现了与现有方法相当的性能。
2024-10-31	DiffPAD: Denoising Diffusion-based Adversarial Patch Decontamination	link	在不断发展的对抗性机器学习领域中，开发有效的防御补丁攻击的方法已成为一项关键挑战，需要可靠的解决方案来保护现实世界中的人工智能系统。尽管扩散模型在图像合成方面表现出非凡的能力，并且最近已被用于对抗 $\ell_p$ 范数有界攻击，但其在缓解局部补丁攻击方面的潜力很大程度上仍未得到充分探索。在这项工作中，我们提出了 DiffPAD，这是一个利用扩散模型的力量进行对抗性补丁去污的新框架。DiffPAD 首先对下采样的输入图像执行超分辨率恢复，然后采用二值化、动态阈值方案和滑动窗口来有效地定位对抗性补丁。这种设计灵感来自于理论上推导出的补丁大小和扩散恢复误差之间的相关性，该相关性在各种补丁攻击场景中得到了推广。最后，DiffPAD 将修复技术应用于原始输入图像，并将估计的补丁区域屏蔽。通过将超分辨率恢复和图像修复的闭式解集成到预训练扩散模型的条件反向采样过程中，DiffPAD 避免了对文本指导或微调的需求。通过全面的实验，我们证明了 DiffPAD 不仅实现了最先进的对抗补丁攻击的鲁棒性，而且在恢复自然图像方面表现出色，没有补丁残留。
2024-10-31	ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images	link	开放词汇量3D目标检测 (OV-3Det) 旨在泛化到训练阶段标记的有限数量的基本类别之外。最大的瓶颈是3D标注数据的稀缺性，而2D图像数据集丰富且标注详尽。因此，利用丰富的2D图像标注来缓解OV-3Det中固有的数据稀缺性是很直观的。在本文中，我们通过探索仅使用2D图像学习OV-3Det的潜力，将任务设置推向极限。这种设置的主要挑战是训练图像和测试点云之间的模态差距，这阻碍了将2D知识有效地整合到OV-3Det中。为了应对这一挑战，我们提出了一个名为ImOV3D的新颖框架，利用包含图像和点云 (PC) 的伪多模态表示来弥合模态差距。ImOV3D的关键在于灵活的模态转换，其中2D图像可以使用单目深度估计提升到3D，也可以通过渲染从3D场景派生。这允许将训练图像和测试点云统一到一个通用的图像-PC表示中，既包含丰富的2D语义信息，又包含了3D空间数据的深度和结构特征。我们谨慎地进行这种转换，以最大限度地减少训练和测试用例之间的域差距。在SUNRGBD和ScanNet这两个基准数据集上的大量实验表明，即使在没有真实3D训练数据的情况下，ImOV3D的性能也明显优于现有方法。通过包含少量真实的3D数据进行微调，其性能也大大超过了之前的最先进水平。代码和预训练模型已发布在https://github.com/yangtiming/ImOV3D。
2024-10-31	Uncertainty Estimation for 3D Object Detection via Evidential Learning	null	三维物体检测是自动驾驶和机器人技术中计算机视觉应用的一项重要任务。然而，模型通常难以量化检测可靠性，导致在不熟悉的场景中表现不佳。我们引入了一个框架，通过利用三维检

Name		Name	Last commit message	Last commit date
Latest commit History 120 Commits
.github/workflows		.github/workflows
docs		docs
CNAME		CNAME
README.md		README.md
Updated on 2024.08.31.md		Updated on 2024.08.31.md
config.yaml		config.yaml
main.py		main.py
论文.md		论文.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Updated on 2024.11.23

多模态

6DOF Object Pose

nerf

分类/检测/识别/分割

About

Releases

Packages

Languages

chenin-wang/awesome_ai_paper

Folders and files

Latest commit

History

Repository files navigation

Updated on 2024.11.23

多模态

6DOF Object Pose

nerf

分类/检测/识别/分割

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages