2024 年被视作具身智能发展“元年”,全球科技界纷纷抢滩布局。自艾伦·图灵 1950 年提出相关概念,经多年沉淀,在大模型与生成式 AI 助力下,具身智能从理论迈向应用,成为当前全球人工智能领域的前沿热点和新浪潮。
国际上,科技圈大佬马斯克、黄仁勋等积极推动,谷歌发布 RT 系列机器人模型,RT - H 任务成功率显著提升;英伟达成立 GEAR 实验室,推出 Project GR00T 及 Jetson Thor 平台;微软、OpenAI 也投身浪潮。特斯拉擎天柱机器人更是大显身手,从日常琐事到工业应用,潜力无限。
国内同样呈喷薄之势,2024 年上半年超 50 家具身智能概念创业公司涌现,融资活跃。其中,如智元机器人、星尘智能、逐际动力等在人形机器人研发成果斐然。
具身智能之所以备受瞩目,在于其拥有更强认知与决策力,能在复杂环境自如交互、执行任务,打破机械局限,有望颠覆计算机、智能手机、新能源汽车等产品。
由此,具身智能将数字世界与物理世界相连,未来必将深刻重塑各行各业,开启一个充满无限可能的全新智能时代。据36氪研究院测算,我国具身智能的市场规模已从2018年的2923亿元增长至2023年的7487亿元,年复合增长率高达20.7%,并且有望在2026年突破万亿。
制约具身智能发展的枷锁
然而,在这一片欣欣向荣的背后,具身智能行业的发展之路却并非坦途。当前,行业面临着诸多棘手的痛点,尤其是在数据训练与仿真这一关键环节,存在着严重的不足。
在具身智能领域,数据对于训练深度学习模型以增强和优化机器人能力至关重要。这对系统性能与适应性起着决定性作用。开发具身智能系统需要海量且高质量的数据集,这些数据需涵盖机器人及其所处环境中的多样化真实世界信息。
实际情况却是,从机器人及其环境中捕获此类数据既极具挑战性,又伴随着高昂的成本。机器人数据相较于传统的文字和图片数据显得尤为稀缺,除图像数据相对较易获取外,诸如摩擦、压力、重量等物理知识数据的获取难度极大。
同时,具身智能的数据涉及机器人与其动态环境之间的复杂互动,这些物理互动还常常存在于多样且常常不可预测的环境中。鉴于获取大量高质量和多样化的数据成本过高,基于数字孪生的仿真已经证明是一个有效的解决方案。
通过建立仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验方式,确保了通过模拟潜在的危险场景的安全性,为测试在各种环境中提供了可扩展性,快速原型设计的能力,对更广泛的研究社区的可访问性,精确研究的受控环境,用于训练和评估的数据生成,以及用于算法比较的标准基准。
对于制约具身智能发展的数据瓶颈,2024 年,AI 教母李飞飞发布的空间智能及相关大世界模型,犹如一颗重磅炸弹,在自动驾驶及更广泛的具身智能应用场景中展现出了巨大的发展与应用潜力,为解决数据瓶颈问题提供了全新的思路。
与生成式 AI 工具生成的 2D 内容不同,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。按照李飞飞的阐释,空间智能意味着 AI 能够在三维空间与时间维度中,以立体的视角进行感知、推理以及行动,并切实地与现实世界产生互动交流。
世界模型在具身智能的潜在应用范围极为广泛。以自动驾驶为例,世界模型可以实时精准地把握道路状况,并对其变化趋势进行精确预测,重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。在人形机器人领域,世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用,可以精准地解析外部动态环境,并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面,世界模型可以敏锐地捕捉并预测更为抽象的行为动态,诸如社会交往互动以及人类决策制定等过程。
具身智能的重要引擎和加速器