一句话总结:MetaUrban是一个组成的人工智能驱动的城市微观交通研究仿真平台。它将是开源的,为社区提供更多的研究机会,并促进可概括的和安全的城市中的具体化人工智能和微观流动性。
0. 论文信息
标题:MetaUrban: An Embodied AI Simulation Platform for Urban Micromobility
作者:Wayne Wu, Honglin He, Jack He, Yiran Wang, Chenda Duan, Zhizheng Liu, Quanyi Li, Bolei Zhou
机构:University of California
原文链接:https://arxiv.org/abs/2407.08725
代码链接:https://metadriverse.github.io/metaurban/
1. 导读
像街景和广场这样的公共城市空间为居民服务,容纳各种充满活力的社会生活。机器人和人工智能的最新进展使公共城市空间不再是人类的专属。送餐机器人和电动轮椅已经开始与行人共享人行道,而机器狗和人形机器人最近也出现在街上。微观活动性由人工智能实现的公共城市空间中的短途旅行在未来的交通系统中起着至关重要的作用。确保操纵移动机器的人工智能模型的通用性和安全性是至关重要的。在这项工作中,我们提出超城市,一个组成的人工智能驱动的城市微观交通研究仿真平台。超城市可以建造一个无限的;无边的来自合成元素的交互式城市场景的数量,覆盖大量的地面平面图、物体放置、行人、易受伤害的道路使用者和其他移动代理的外观和动态。我们设计了点导航和社会导航任务作为试点研究,使用MetaUrban进行城市微观移动性研究,并建立了强化学习和模仿学习的各种基线。我们对移动机器进行了广泛的评估,证明了异构的机械结构会显著影响人工智能策略的学习和执行。我们进行了彻底的消融研究,表明模拟环境的组成性质可以大大提高训练有素的移动代理的可推广性和安全性。MetaUrban将公开提供研究机会,并在城市中培养安全可信的嵌入式人工智能和微移动性。代码和数据集被发布。
2. 效果展示
MetaUrban 能够构建无限互动的城市场景,支持多种传感器,并提供灵活的用户界面,如鼠标、键盘、操纵杆和赛车方向盘。该平台在城市场景中包含10,000个不同的障碍物,1,100个带有2,314个动作的操纵人类模型,易受伤害的道路使用者,具有各种机械结构的移动机器,以及地形生成系统以创建复杂的地面条件。
3. 主要贡献
在这项工作中,我们提出了MetaUrban---一个合成模拟平台,旨在促进人工智能驱动的微移动研究。首先,我们介绍了分层布局生成,这是一种程序化生成方法,可以从街道块到人行道、功能区和物体位置生成无限层次布局。它可以生成任意规模的场景,具有各种连接和分割的街道块、障碍物位置和复杂地形。然后,我们设计了可伸缩的障碍物检索,这是一个自动管道,用于获取任意数量的高质量对象,这些对象在现实世界中分布,以填充城市空间。我们首先从全球城市场景数据中计算对象类别分布,以形成描述池。然后,使用池中的采样描述,我们设计了一个基于VLM的开放词汇表搜索模式,可以有效地从大型3D资产库中检索对象。这两个块对于提高训练代理的泛化能力至关重要。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
最后,我们提出了“同居者填充”方法来生成城市空间的复杂动态。首先,我们定制了最新的3D数字人类和运动数据集,以获取1,100个带有2,314个动作的绑定人类模型。然后,为了形成安全关键的场景,我们集成了像骑行者、滑板手和滑板车骑手等易受伤害的道路使用者(VRUS)。作为微移动的主体,我们包括了各种移动机器--送货机器人、电动轮椅、机动滑板、机器人狗和人形机器人。然后,基于路径规划算法,我们可以同时获得数百个环境代理之间的复杂轨迹,同时避免碰撞和死锁。此外,通过MetaUrban的灵活用户界面(鼠标、键盘、操纵杆和赛车方向盘),用户可以直接将人类操作的轨迹应用到代理上,这为收集代理训练演示数据提供了简便的方法。此外,我们施加了一系列交通规则来规范所有代理的行为。这对于提高移动代理的安全性至关重站基于MetaUrban,我们构建了一个大规模数据集MetaUrban-12K,包括12,800个训练场景和1,000个测试场景。平均面积大小为20,000平方米,而平均片段长度为410米。作为一项先导研究,我们引入了点导航和社会导航,这是移动机器在城市空间中移动的两个最基本任务,作为人工智能驱动的微移动性研究的起点。我们为这两个任务建立了全面的基准,其中建立了广泛的基线模型,涵盖了强化学习、安全强化学习、离线强化学习和模仿学习。然后,我们对移动机器进行广泛评估,以深入研究各种机械结构(如发动机力、车轮摩擦和轴距)对AI策略的学习和执行性能影响。在消融研究中,我们证明模拟环境的组合性质可以显著提高训练移动代理的泛化性和安全性。我们将公开发布MetaUrban,以便为社区提供更多的研究机会,并促进城市中安全和可信赖的实体AI和微移动性。
5. 方法
MetaUrban可以自动生成具有合成性质的复杂城市场景。MetaUrban使用结构化描述脚本来创建城市场景。基于提供的街道街区、人行道、物体、代理等信息,它从街道街区地图开始,然后通过划分不同的功能区来规划地面布局,然后放置静态物体,最后填充动态代理。在图中,第一列是结构化描述脚本。从第二列到第四列,顶行显示2D路线图,底行显示模拟器中3D场景的鸟瞰图。
6. 实验结果
我们设计了两个在城市场景中常见的任务作为试点研究:点导航和社会导航。在SocialNav中,要求智能体在包含移动环境智能体的动态环境中达到一个点目标。代理商应避免碰撞或接近超过阈值的环境代理商,以避免处罚(距离< 0.2米)。使用成功率(SR)和按路径长度加权的成功(SPL)度量来评估代理,这些度量测量代理采用的路径的成功和效率。对于SocialNav来说,除了成功率(SR)之外,社交导航得分(SNS)也被用来评价代理的社交共谋程度。对于这两个任务,我们进一步报告累积成本(CC)来评估代理的安全属性。它记录了对障碍物或环境因素的碰撞频率。我们评估了7个典型的基线模型,以建立元城市的综合基准,涵盖强化学习(PPO)和安全强化学习(PPO-LagocialNav)。在PointNav中,智能体的目标是在没有,和PPO-ET的静态环境下导航到目标坐标),离线强化学习(IQL和TD3+BC),模仿学习(BC和GAIL)。
7. 总结 & 未来工作
我们提出了一种新的合成模拟器MetaUrban,以促进实体AI和微移动性在城市场景中的研究。MetaUrban可以生成无限交互的城市环境,具有复杂场景、各种障碍物以及行人和其他移动代理的各种运动。这些环境用作训练数据,可以显著提高移动机器底层实体AI的泛化能力和安全性。我们致力于开发开源模拟器,并促进社区努力将其转变为可持续的基础设施。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球