专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
北京厚朴中医  ·  厚朴电子日历 | 早 ·  昨天  
北京厚朴中医  ·  茶,让我和我在一起 ·  昨天  
51好读  ›  专栏  ›  我爱计算机视觉

ICLR 2025 | 3D意图定位:AI仅凭人类的意图就能完成三维空间的定位!

我爱计算机视觉  · 公众号  ·  · 2025-02-24 21:24

正文




关注公众号,发现CV技术之美




图一
图一

图一: 3D 意图定位(右),这一新任务旨在根据人类意图句子(例如:“我想要一个能支撑我的背部、缓解压力的物品”),在 3D 场景中通过 3D 边界框检测目标物体。相比之下,现有的 3D 视觉定位(左)依赖于人类的推理和参考来进行检测。该示意图清晰地区分了观察和推理的执行方式:左侧由人类手动完成,右侧则由 AI 自动完成。

  • 项目主页:https://weitaikang.github.io/Intent3D-webpage/
  • 论文地址:https://arxiv.org/abs/2405.18295
  • 项目代码:https://github.com/WeitaiKang/Intent3D

🎯 介绍

在现实世界中,AI 能够根据自然语言指令执行目标检测,对人机交互至关重要。过去的研究主要集中在视觉指引(Visual Grounding),即根据人类提供的参照性语言,在2D图像或3D场景中定位目标物体。然而,人类在日常生活中寻找目标物品往往是起源于某个特定的意图。例如,一个人可能会说:“我想找个东西靠着,以缓解背部压力”,而不是毫无理由的直接描述“找到椅子”或“找到沙发”。

什么是 3D 意图定位(3D-IG)?

目前,3D 视觉指引(3D Visual Grounding, 3D-VG)方法依赖用户提供明确的参照信息,如目标的类别、属性或空间关系。但在许多现实场景下,例如人在忙碌或有视觉障碍时,无法提供这样的参照描述。

因此,让 AI 能够自动推理用户的意图并检测目标物体,才是更智能、更自然的交互方式。如图一所示,相较于传统 3D-VG(左图), 3D-IG 任务(右图)能够让 AI 直接基于用户的意图推理目标,而无需明确的物体描述。

为什么选择 3D 而非 2D?

近年来,基于意图的推理任务在 2D 视觉领域有所研究,如意图导向的目标检测(Intention-Oriented Object Detection)、隐式指令理解(Implicit Instruction Understanding)等。然而,这些研究仅限于 2D 视角,无法完整反映现实世界的几何和空间信息。

相比之下,3D 数据更加贴近现实世界,不仅包含深度信息,还能提供完整的物体几何、外观特征以及空间上下文。因此,在 3D 场景中进行意图推理,不仅能更准确地模拟真实需求,还能推动智能体(Embodied AI)、自动驾驶、AR/VR等领域的发展。


📦 数据集 & 基准

为了推动 3D 意图定位研究,该论文构建了 Intent3D 数据集,包含 44,990 条意图文本,涉及 209 类物体,基于 1,042 个 ScanNet 点云场景。由于意图表达的多样性,使用预定义格式进行标注会限制模型的泛化能力。

此外,众包标注往往缺乏可靠性,而专业标注成本高且难以扩展。因此,如图二所示,采用 GPT-4 生成意图文本,并经人工质量检查,确保高准确性和多样性。

图二
图二

图二:(上排)数据集构建流程图。构建场景图后,根据三个标准选择对象:常见对象、非平凡对象、无歧义对象。使用 ChatGPT 根据设计的提示生成意图文本。最后,手动清理数据。(下排)数据集中针对不同目标数量和文本长度的示例。

其次,为了充分评估目前解决这个问题的研究能力,使用三种主要的基于语言的 3D目标检测技术为基准构建了几个基线。

这涉及使用以下模型评估数据集:专门为 3D 视觉定位设计的专家模型(BUTD-DETR, EDA)、为通用 3D 理解任务制定的基础模型(3D-VisTA)以及基于大型语言模型 (LLM) 的模型(Chat-3D-v2)。使用多种设置评估这些基线,即从头开始训练、微调和零样本。


⚙ 方法

如何解决 3D 意图定位问题?

如图三所示,设计了一种新方法 IntentNet,结合多个关键技术:

  • 动宾对齐(Verb-Object Alignment):先识别意图中的动词,再与相应宾语特征进行对齐,提高意图理解能力。
  • 候选框匹配(Candidate Box Matching):在稀疏 3D 点云中显式匹配候选目标框,提高多模态意图推理能力。
  • 级联自适应学习(Cascaded Adaptive Learning):根据不同损失函数的优先级,自适应调整损失函数权重,提升模型性能。
图三
图三

图三:IntentNet:(骨干网络)PointNet++ 用于提取点特征;MLP 编码 3D 目标检测器预测的框;RoBERTa 编码文本输入。(编码器)基于注意力的块用于多模态融合,通过与文本特征的集成来增强框特征。(解码器)具有最高置信度的前 k 个点特征被选择为提出的查询(query),然后通过基于注意力的块进行更新。几个 MLP 用于线性投影查询,以便进行后续的损失计算。(损失函数)该模型学习使用 L_bce 将候选框与目标对象进行匹配; 查询(query)被训练以识别动词 (L_vPos),与动词对齐 (L_vSem),并与宾语对齐 (L_voSem)。


🔬 实验

由于对意图语言理解和推理进行了显式建模, IntentNet 明显优于所有以前的方法。







请到「今天看啥」查看全文