专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
为你读诗  ·  祝你不在意任何节日,盛不盛开,花都是花 ·  9 小时前  
墨语的自言推书  ·  《暗恋他的第十一年春》明媚花店女老板x清冷矜 ... ·  昨天  
为你读诗  ·  元宵:愿蓦然回首,总有良辰可逢 ·  昨天  
为你读诗  ·  花草有本心:走近古典文学中的诗意世界 ·  2 天前  
为你读诗  ·  一缕藏香,独享内心的平静与安宁 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-09-26 00:14

正文

24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。

BEHAVIOR-1K,是一个以人为中心的机器人综合模拟基准。BEHAVIOR-1K 包括两个部分,由一项关于“你希望机器人为你做什么?”的调查结果指导和推动。第一个是 1,000 种日常活动的定义,基于 50 个场景(房屋、花园、餐厅、办公室等),其中有超过 9,000 个目标,并标注了丰富的物理和语义属性。第二个是 OMNIGIBSON,这是一个新模拟环境,通过逼真的物理模拟和刚体、可变形体和液体的渲染来支持这些活动。实验表明,BEHAVIOR-1K 中的活动是长范围的,并且依赖于复杂的操作技能,这两者对于最先进机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,本文提供了一项初步研究,研究如何把模拟公寓中移动机械手学习的解决方案迁移到现实世界中。


受到基准测试为计算机视觉 [1–11] 和自然语言处理 [12–16] 带来进步的启发,机器人社区在模拟中开发了几个基准测试 [17–30]。这些基准测试的更广泛目标是推动通用、有效的机器人发展,为人们的日常生活带来重大好处——以人为中心的人工智能,“服务于人类的需求、目标和价值观” [31–34]。尽管这些基准测试中的任务和活动令人鼓舞,但它们是由研究人员设计的;目前尚不清楚它们是否满足了人类的实际需求。

以人为中心的机器人基准测试不仅应该为人类的需求而设计,还应该源于人类的需求:人类希望机器人为他们做哪些日常活动?为此,对 1,461 名参与者进行广泛的调查,根据参与者将这些活动委托给机器人的愿望对各种日常活动进行排名。还要求外行标注员提供这些活动的定义。调查揭示了人们希望机器人执行活动的系统性,但更重要的是,它强调了在设计机器人基准时应优先考虑的两个关键因素:场景、目标和活动类型的 多样性 ,以及底层模拟环境的 真实性

调查显示,最需要的活动范围从“洗地板”到“清洁浴缸”。显然,这些活动的 多样性 远远超出了现实世界的机器人挑战所能提供的[35–42]。开发模拟环境是一种自然的选择:人们可以高效、安全地训练和测试机器人智体在许多活动中的表现,这些活动具有不同的场景、目标和条件。然而,要使这种范式发挥作用,必须真实地模拟这些活动,准确地再现机器人在现实世界中可能遇到的情况。虽然在特定领域的 真实性 已经取得了重大进展[43–45],但实现多样化活动的真实性仍然是一个巨大的挑战,因为提供逼真的模型和模拟特征需要付出努力。

如图所示:为具身人工智能开发以人为本的基准。左图:根据对 1,461 名参与者的调查,对 2,090 项活动中的人类偏好得分进行排名。分布表明人类的需求和偏好具有高度多样性,这些应该反映在综合基准中。中间:示例活动。费力的活动排名最高,而令人愉悦的活动排名最低。右图:真实的 OMNIGIBSON 模拟环境,生成的前 8 项活动中的两项,直接可视化。


BEHAVIOR-1K 的重大进步在于几点。首先,根据普通人的需求来设置活动。其他基准测试通常针对相对有限的活动集,并且它们的模拟器仅在与这些任务相关的方面具有真实性。VirtualHome [20] 和 ALFRED [20, 21] 等指令遵循基准测试在场景、目标和状态变化的数量上是多样化的,但提供的低级物理真实性有限。另一方面,家居重新布置基准测试,如 Habitat 2.0 HAB [26]、TDW Transport [19] 和 SAPIEN ManiSkill [54, 55] 支持逼真的动作执行和对刚体的精确物理模拟,但仅包含少数任务。同样,SoftGym [45] 和 RFUniverse [56] 具有与 OMNIGIBSON 最接近的模拟功能,因此具有现实性,但它们也缺乏支持以人为中心的通用机器人开发所需的任务多样性。


如表是具身智能的基准比较: BEHAVIOR-1K 包含 1,000 种以人类需求为基础的多样化活动。 它在涉及的场景、对象和状态变化方面达到了新的多样性水平。 OMNIGIBSON 为这 1,000 种活动提供了逼真的模拟,包括一些最先进的模拟和渲染功能,例如流体和可变形体。


上一代基准测试 BEHAVIOR-100 [27] 提出了几个在 BEHAVIOR-1K 中继承的有益设计选择,例如活动源(ATUS [50])、活动定义逻辑语言和评估指标。然而,它缺乏支持以人为中心的具身 AI 基准测试所必需的多样性和现实性。BEHAVIOR-100 包含研究人员选择的 100 项活动,而 BEHAVIOR-1K 将多样性提高了一个数量级,达到 1,000 项活动,这些活动基于调查,以人类需求为基础。此外,BEHAVIOR-100 仅包含 15 个场景(所有房屋)和 300 多个目标类别,而 BEHAVIOR-1K 则增加到 50 个场景(房屋、商店、餐厅、办公室等)和 1,900 多个目标类别。在真实感方面,BEHAVIOR-1K 扩展了 OMNIGIBSON 可模拟的物理状态和过程:流体、柔性材料、混合物质等。OMNIGIBSON 在 BEHAVIOR-1K 渲染中实现的真实感也明显高于 BEHAVIOR-100 和其他基准测试中可能达到的水平。


如图是BEHAVIOR-1K 的元素。 基准测试包含两个元素: BEHAVIOR-1K 数据集和 OMNIGIBSON。 左图: BEHAVIOR-1K 数据集包括 1,000 个 BDDL 活动定义(左上)、50 个逼真且多样化的场景(右上)以及知识库中标注了属性的 9,000 多个,目标(下)。 右图: OMNIGIBSON 提供真实模拟 1000 个活动所需的功能,包括火/蒸汽/烟等热效应(左上)、流体动力学(左下)、状态转换规则的功能机器(上中)、可变形的物体/布料(下中)、逼真的照明和反射(右上)以及透明度渲染(右下)。 它们共同构成模拟中如 CookingDinner 等日常活动的具体、逼真的实例。


OMNIGIBSON 建立在 Nvidia Omniverse 和 PhysX 5 之上,不仅可以模拟刚体,还可以模拟可变形物体、流体和柔性材料,同时生成高度逼真的光线追踪或路径追踪虚拟图像。 与其他基准测试相比,这些功能显著提高了 BEHAVIOR-1K 的真实感。







请到「今天看啥」查看全文