MetaUrban：城市空间中具身智能的一个模拟平台

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-14 00:58

正文

24年7月来自UCLA的论文“MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces”。

街道和广场等公共城市空间为居民提供服务，并适应各种充满活力的社会生活。机器人技术和具身智能的最新进展使公共城市空间不再是人类的专属。送餐机器人和电动轮椅已经开始与行人共享人行道，而各种各样的机器狗和人形机器人最近也出现在街道上。在城市空间的繁华街道上导航时，确保这些即将出现的移动机器通用性和安全性至关重要。这项工作 MetaUrban，是一个用于城市空间具身智能研究的组合模拟平台。MetaUrban 可以从组合元素构建无数个交互式城市场景，涵盖各种各样的平面图、目标位置、行人、弱势道路使用者和其他移动智体的外观和动态。设计点导航和社交导航任务作为使用 MetaUrban 进行具身智能研究的试点研究，并建立强化学习和模仿学习的各种基线。实验表明，模拟环境的组合特性可以显著提高经过训练的移动智体通用性和安全性。

城市公共空间的类型、形式和规模各不相同，包括街景、广场和公园。它们是交通和运输的重要空间，同时也为举办各种社会活动提供了机会。自 20 世纪初以来，城市公共空间的研究一直是城市社会学 [56, 32, 29] 和规划 [26, 78, 28] 的基石。例如，威廉·H·怀特 (William H. Whyte) 在其开创性著作《城市——重新发现中心》[79] 中指出，公共空间的复杂性和活跃的互动，深刻地决定了人类的社会生活，强调了这些环境在城市安全和活力中发挥的关键作用。

机器人技术和具身智能的最新发展，使城市空间不再是人类独有的。各种移动机器开始出现。例如，老年人和肢体残疾人在街上操纵电子轮椅，而送餐机器人在人行道上导航以完成最后一英里的送餐任务。各种移动腿式机器人也即将问世，例如波士顿动力公司的机器狗 Spot 和特斯拉的人形机器人 Optimus。因此可以想象，未来的公共城市空间将由人类和由具身智能驱动的移动机器共享和共同居住。确保这些移动机器的通用性和安全性至关重要。

模拟平台 [35、67、70、41、73、13、18、38、44、19] 在实现具身智能智体的系统性和可扩展性训练以及在实际部署之前的安全评估方面发挥了关键作用。然而，大多数现有的模拟器要么侧重于室内家庭环境 [61、35、67、70、41、24]，要么侧重于户外驾驶环境 [38、44、19]。例如，AI2-THOR [35]、Habitat [67] 和 iGibson [70] 等平台专为家庭助理机器人设计，其环境主要是带有家具和家电的公寓或房屋；SUMO [38]、CARLA [19] 和 MetaDrive [44] 等平台则专为自动驾驶和交通研究而设计。然而，对具有多样化布局和目标以及复杂行人动态的城市空间的模拟探索却很少。

与室内家庭和驾驶环境不同，城市空间具有独特的特征。最后一英里送货机器人，它的目标是将午餐订单从附近的比萨店送到校园。首先，它面临着一英里距离的几个街区长途旅程，道路危险多种多样，例如人行道上的树根造成的破碎路缘和凹凸不平地面。然后，它必须安全地穿越满是垃圾桶、停放的摩托车和盆栽等障碍物的杂乱街道。此外，它需要妥善处理行人和人群以避免碰撞。它还应该特别照顾坐在轮椅上的残疾人。因此，布局多样性、目标分布和动态复杂性，给模拟环境的设计和在城市空间中运行的具身智体的通用性和安全性的研究，带来了挑战。

MetaUrban 就是一个用于城市空间具身智能研究的组合模拟平台。如图所示：（上）人类和移动机器开始共享公共城市空间。（下）MetaUrban 模拟器通过构建具有不同街区、目标、以及行人、弱势道路使用者和其他智体运动的交互式城市环境，促进城市环境中的具身智能研究。

总之，最近的模拟平台都没有为城市空间构建，并且所提出的模拟器在多样化的布局、目标、人体动态以及不同类型的移动智体（如送货机器人、电动轮椅、机器狗、人形机器人和车辆）及其复杂的交互方面与它们有显著不同。

MetaUrban 是一个组合式模拟平台，可以为城市空间中的具身智能生成无限的训练和评估环境。如图描述了程序生成流程。MetaUrban 使用结构化描述脚本来创建城市场景。根据提供的街区、人行道、目标、智体等信息，它从街区地图开始，然后通过划分不同的功能区来规划地面布局，然后放置静态目标，最后填充动态智体。

如图是地面规划。（左）人行道分为四个功能区——建筑区、临街区、空地区和装饰区。（右）七种典型的人行道模板——从（a）到（g）。

MetaUrban：城市空间中具身智能的一个模拟平台

正文

请到「今天看啥」查看全文