专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

上海 AI Lab多篇顶会成果！涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

智能车情报局 · 公众号 · 科技自媒体 · 2024-07-30 18:15

主要观点总结

文章介绍了「智猩猩机器人新青年讲座」的内容，该讲座由AI与硬科技知识分享社区智猩猩全新企划，旨在邀请全球知名学者分享关于机器人在关键前沿技术上的研究成果和开发实践。重点介绍了具身智能、大规模具身多模态三维感知、大规模具身交互等相关内容，包括研究背景、重要进展、相关技术和框架等。同时提到了上海人工智能实验室研究员王泰博士及其团队的相关工作成果。最后给出了讲座的直播信息、论文链接和入群申请等信息。

关键观点总结

关键观点1: 讲座旨在分享机器人在关键前沿技术上的研究成果和开发实践。

该讲座由AI与硬科技知识分享社区智猩猩全新企划，邀请全球知名学者进行分享。

关键观点2: 具身智能是讲座的重点内容之一。

具身智能聚焦于第一视角感知、多模态理解和物理世界交互，当前AI技术仍需引入与物理世界的交互以实现赋能真实物理世界并从中持续学习优化。

关键观点3: 王泰博士及其团队在具身智能研究方面取得重要进展。

王泰博士提出了首个具身多模态三维感知基准EmbodiedScan，和3D点云多模态大语言模型PointLLM，以及首个大语言模型驱动的统一人景交互框架UniHSI等城市级具身智能数字训练场桃源GRUtopia。相关论文和项目地址已给出。

关键观点4: 讲座直播信息和入群申请。

讲座直播时间为8月1日19:00，直播地点在智猩猩GenAI视频号。同时提供了相关论文的链接和入群申请的二维码。

正文

「智猩猩机器人新青年讲座」由AI与硬科技知识分享社区智猩猩全新企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的青年学者，主讲在具身智能、强化学习、多智能体系统、建模仿真等机器人关键前沿技术上的研究成果和开发实践。

近年来，大语言模型和多模态大模型在扩展定律（Scaling laws）方面的探索已经取得了重要进展，但当前AI技术最终能够赋能真实物理世界并从中持续学习优化还需要引入与物理世界的交互，即探索具身智能。与通用的感知模型不同，具身智能聚焦于第一视角感知、多模态理解和物理世界交互，而相关研究仍受限于数据的相对匮乏。

为此，上海人工智能实验室研究员王泰博士及相关研究人员构建了面向具身智能的多模态三维感知与交互的大规模数据和基准，覆盖了真实场景和仿真可交互场景，以扩展当前具身智能研究的数据和模型规模，旨在实现具身多模态三维感知的通用基础模型，并进一步赋能下游交互任务，探索通往通用具身智能的可行路径。

具体来说，王泰博士及相关研究人员提出了首个具身多模态三维感知基准EmbodiedScan，和3D点云多模态大语言模型PointLLM；在下游交互任务中，王泰博士及相关研究人员又提出首个大语言模型驱动的统一人景交互框架UniHSI，城市级具身智能数字训练场桃源GRUtopia。与EmbodiedScan、PointLLM、UniHSI相关的论文分别收录于 CVPR 2024、 ECCV 2024 (满分评审)、 ICLR 2024 (Spotlight) 。

EmbodiedScan是一个具身多模态三维感知基准。它包括了5k次以上的扫描，封装了1M个以自我为中心的RGB-D视图、1M个语言提示、跨越760多个类别、160k个面向3D的边框，还有80个常见类别的密集语义占用格。在这个数据库的基础上，又引入了一个名为Embedded Perceptron的基线框架。它能够处理任意数量的多模态输入，并在基础3D感知任务和语言落地的任务，以及“在野外采集的”数据，都表现出了非凡的3D感知能力。

大型语言模型 (LLM) 的进步对自然语言处理产生了深远的影响，但尚未完全拥抱3D理解领域。为此上海人工智能实验室联合香港中文大学等提出了PointLLM，让LLMs学会理解点云信息并提供超越2D视觉数据的新途径。

PointLLM能够根据Prompt处理彩色点云信息，利用LLM的点云编码器来有效融合几何、外观和语言信息，生成符合任务目标的响应。实验结果表明，PointLLM 表现出优于现有2D基线的性能，在对象标注任务中，PointLLM在超过50%的样本中优于人工注释者。

人景交互在包括具身智能和虚拟现实等领域中都起着十分重要的作用。由于真实人形机器人的发展尚处于起步阶段，过去的工作主要集中在虚拟环境的交互。为此上海人工智能实验室联合NTU S-Lab、CMU提出首个大语言模型驱动的统一人景交互框架——UniHSI。

在具身自主探索方面，上海人工智能实验室发布了城市级具身智能仿真平台“浦源·桃源”GRUtopia。“浦源·桃源“被业界称为是专为具身智能研究打造的机器人版「斯坦福小镇」。

作为大模型与机器人的连接层，”浦源·桃源“涵盖了89种功能性场景、10万+高质量可交互数据，构建了“软硬虚实”一体的机器人训练场，有望解决领域内数据匮乏、评测困难的问题。”浦源·桃源“主要包括三部分：

1、场景数据集 GRScenes。包含 10 万个交互式、精细注释的场景，可自由组合成城市规模的环境。GRScenes 涵盖的89 种不同场景类别，弥补了服务型环境的空白。

2、GRResidents。这是一个大型语言模型（LLM）驱动的非玩家角色（NPC）系统，负责社交互动、任务生成和任务分配，从而模拟具身 AI 应用的社交场景。

3、基准 GRBench。支持各种机器人，但侧重于作为主要智能体的有腿机器人，并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。

8月1日晚7点，智猩猩邀请到 上海人工智能实验室研究员王泰博士 参与「智猩猩机器人新青年讲座」第11讲，主讲《 三维场景中的具身多模态感知与交互 》。

讲者

王泰

上海人工智能实验室研究员

博士毕业于香港中文大学MMLab，研究方向为具身智能和三维视觉。过往工作有二十余篇论文在顶级会议和期刊上发表，谷歌学术引用2400余次，多篇被选中做口头报告或获得满分评审，并在国际顶级竞赛中获奖。代表工作FCOS3D, Cylinder3D, DfM, EmbodiedScan, GRUtopia, PointLLM 等及相关开源工作如MMDetection3D在通用三维感知和具身多模态感知交互等领域的学界和业界有广泛影响。曾获ICCV研讨会最佳论文、港府奖学金、浙大竺可桢奖学金等荣誉。

第11讲

主题

《三维场景中的具身多模态感知与交互》

提纲

1. 具身智能研究背景概述

2. 大规模具身多模态三维感知

- 具身多模态三维感知基准

- 三维多模态大模型初探

3. 大规模具身交互

- 首个大语言模型驱动的统一人景交互框架UniHSI

- 城市级具身智能数字训练场：桃源GRUtopia

4. 总结及展望

直播信息

直播时间：8月1日19:00

直播地点：智猩猩GenAI视频号

成果

论文标题