专栏名称: 大数据文摘

普及数据思维，传播数据文化

王兴兴、王鹤、卢宗青、邵林、高阳等专家共论具身前沿

大数据文摘 · 公众号 · · 2024-06-19 13:30

正文

大数据文摘受权转载自智源社区

从Figure01和人类交流自如、特斯拉Optimus叠衬衫，以及宇树G1惊艳发布，再到公众对人形机器人的争相追逐可以看出，具身智能是2024年最炙手可热的科技概念。

当前，具身智能在学术层面已经实现了哪些跃迁？距离具身智能走进千家万户，还需要实现哪些方面的突破？理想与现实之间，卡脖子的关键因素还有哪些？

在6月15日的具身智能论坛的panel环节中，来自北京大学、清华大学、NUS、 UCSD 、宇树科技的顶尖专家们，从数据、算法、系统角度“隔空回答”了这些问题。

清华大学助理教授，视觉与具身智能实验室主任高阳 认为成本是阻碍的重要因素：“机器人本体的高成本是限制仿生人工智能发展的主要瓶颈之一。”

宇树科技创始人&CEO王兴兴 认为目前训练数据不够多维，限制了具身智能的发展，他表示：如果结合实际操作中的真实数据进行强化学习，效果会更好。

NUS助理教授邵林 也对数据的重要性表示认同：核心问题在于如何定义和处理数据，实现最高效和实用的解决方案，关键是对数据的理解和有效利用。

同时学者们对未来发展也有独到的见解，例如 北京大学副教授，智源学者卢宗青 认为“机器人触觉”至关重要：如果没有触觉，就像是在玩一场虚拟游戏，而不是与真实世界进行交互。

北京大学助理教授，智源学者王鹤 表示“模块化系统”或许是关键：即使在工厂这种复杂环境中，只要设计一个良好的模块化系统，也可以实现sim-to-real的无缝转换。

......

以下是具身智能圆桌论坛的实录，编辑做了不改变原意的整理。

01 关于虚拟与现实：不同的技能库

主持人：王鹤丨北京大学助理教授、智源学者

王鹤：虚拟环境中的智能体与具身智能体有哪些异同？它们之间的技术怎样相互借鉴？

卢宗青：每个Agent在不同世界中的技能库不同，但在技能库之上可以实现统一。无论是多模态模型还是统一具身模型，只需更换技能库。就像人类可以在现实世界行走，也可以操作电脑。

数字世界的优势在于可以低成本地模拟强化学习过程，研究成本远低于物理世界。关键在于通过丰富的交互机会，让智能体学会自主完成任务的方法。

先前的训练策略是在模拟器中进行的，目的是为现实世界提供模拟。如果能解决从模拟到现实的问题，两者的差距将会缩小。

王鹤：在《我的世界》游戏中，一个Agent可以完成非常复杂的生产全过程。在物理世界中，这个过程有何类比？对我们有何启发？

卢宗青：《我的世界》可以通过两种方式实现：一种是调用API进行代码生成（code generation），另一种是通过强化学习，在动作空间上学习策略。

可以借用API对机器人控制，但成本仍然很高，现实中无法直接用GPT-4调用API来完成复杂任务。例如，可在《我的世界》中建造房子，但不能直接在物理世界调用API实现。

《我的世界》中建造房子

这其实涉及到底层的策略学习问题，在更高层次上，无论是在虚拟环境还是现实环境，依然可以通过调用技能库来完成各种任务。

高阳：在高层次数据方面，互联网上有大量资源，可以直接用于训练大模型。而对于机器人来说，难点在于如何处理底层技能的实现。

具身智能（比如机器人）的问题更复杂。虚拟智能体可以在计算机环境中运行，但具身智能需要模拟器，这中间有一个转换的问题。所以，尽管两者在大框架上面临的挑战类似，但在具体的操作策略上还是有区别的。

02 关于算法：追求统一

王鹤：怎么看待目前具身智能体在技能层面的现状？有哪些API可供调度？如何才能扩大它们的应用范围？

邵林丨NUS助理教授

邵林：理想的API应该是一个统一的模块化系统。我们不希望机器人在实际执行任务时，要从100个不同中挑选一个。这不仅耗时，还可能导致选择错误。

理想的解决方案是将所有API整合为一个统一的API，这样有两个主要好处：

首先，可扩展。无论是什么任务或底层技能，只要能用统一的方式表示，就可以整合进来，大大提高系统的灵活性和适应性。

其次，提高泛化。通过统一的API，我们可以更好地适应不同的任务和环境，使系统在各种应用场景中都能表现出色。

王鹤：Contact map 是一种通用的表示方法吗？它能否把操控整合并统一到一个API？

邵林：关于操控（manipulation）的定义，很多人都无法给出明确的答案。不过，卡耐基梅隆大学的教授对此有一个描述：所谓操控，就是机器人通过与物体接触（Contact）来改变物体形态的过程。

在这个过程中，机器人通过与物体接触，施加某种力量和力矩，改变物体的当前形态，使其达到所需的状态。当描述这个过程时，并没有提到使用什么样的机器人或操作什么样的物体。关键在于通过机器人与物体的接触，施加力量，从而改变物体的形态，这就是操控的核心。

“接触”是一个广泛的概念，包括所有物体之间的一般接触（general contact）和特定接触（level contact）。这种接触不仅是一次性的，而是涉及物体空间内的各种接触形式。

具体来说，接触不仅是机器人与物体在某些区域的接触，还包括机器人如何作用于物体，比如拉动、推挤或细微移动。像抓取和放置的过程，不只是简单的推拉，还包含更复杂的操作。所有这些都属于一般接触。

总的来说，接触不仅包括直接的物理接触，还涉及复杂的操控方式。通过这些接触和施加的力量，机器人可以改变物体的形态和状态。

高阳：接触（contact）和流动（flow）是同一事物的两面。接触关注物体接触的瞬间及位置；流动则关注接触后如何操作。一个完整的表示需要结合两者，既要明确接触点，也要知道如何移动物体。尽管将来可能会有更统一的表示方式，目前结合接触和流动，已经能实现通用操作表示。

王鹤：目前，人形机器人主要通过强化学习来实现行走，让强化学习效果稳健的秘诀是什么？为什么踢机器人一脚它都不会倒？

王兴兴丨宇树科技创始人&CEO

王兴兴：这个问题其实不复杂。国内外的学术圈已经利用机器人发表了许多顶尖的学术论文，可以直接查看这些论文，就能获得大致的了解。

机器人行业，包括传统算法和AI部分。强化学习是一个很好的概念，但要真正落地，还需要许多其他技术的支持。我们不仅使用了强化学习，还结合了模仿学习和对抗生成网络等技术。强化学习只是一个总体框架，实际的模型架构设计更加复杂。不是简单地搭建一个多层神经网络，再加上强化学习的反馈机制就能解决问题，实际操作要复杂得多。

王鹤：在这个问题上，我们可以请教一下卢宗青老师。卢老师，您怎么看待Sim-to-Real技术？

03 关于数据：Sim和Real并举

卢宗青：仿真数据和真实数据都非常重要。真实数据帮助缩小仿真环境和实际物理环境的差距，需要通过迭代收集大量数据进行优化。训练完成后，我们在真实机器人上测试，收集数据，然后调整奖励函数，形成训练和测试的循环，逐步提高性能。

在运动控制上，大量数据用于训练机器人完成任务是正确的方法。要提升策略的泛化性，可以使用transformer策略，通过提示学习等方法，教机器人完成任务，减少对数据的依赖。研究如何在不依赖大量数据的情况下提升策略的泛化性，也是一个重要的课题。

王鹤：过去一两年，在仿真器开发上，尤其是可变形物体和流体模拟领域，进行了不少工作。“从仿真到现实的差距”是否能够弥合？目前有哪些进展？

邵林：这是一个非常有趣的问题，尤其是对于机器人操作的仿真器而言，存在很高的需求。然而，图形学领域的重点可能与此不同。机器人操控任务需要在物理建模方面非常精确，而对渲染的要求相对较低。

我们团队一直希望仿真器在物理上尽可能逼真。例如，我们开发了一个让机器人学习打领带的系统。打领带涉及复杂的弯曲和拓扑变化，对仿真要求很高。实现机器人在真实物体上打领带，也是一种突破。

04 关于数据：卡脖子的关键

王鹤：如何看待具身智能体的数据来源？

王兴兴：目前，我们的机器狗和人形机器人主要通过纯深度强化学习在仿真环境中训练，然后直接应用于实际机器人。如果第一次训练效果不理想，会调整奖励函数再训练，经过几次尝试，通常可以取得较好的效果。通过仿真环境中的实时交互数据进行训练，效果非常好，尤其是在纯运动控制领域，如跑步、跳跃或跳舞，仿真数据已经足够。

然而，如果结合实际操作中的真实数据进行强化学习，效果会更好。尤其是在让全尺寸人形机器人执行复杂任务或进行人机交互时，单靠仿真数据可能不够。主要问题是：现有仿真环境对接触的模拟很粗糙，为了效率，使用的模型过于简单。

如果希望机器人在更真实的环境中操作，比如做饭或装配零部件，就需要使用高精度仿真环境，这要求更高性能的仿真器和显卡，如更真实的RGB相机，需要强大的显卡处理能力，这会增加成本。因此，我认为，与其投入大量资源在高度真实的仿真上，不如直接用实际机器人操作，采集的数据量很大，成本相对低廉。

简而言之，接近真实环境的高精度仿真代价很高，特别是对布料和流体的仿真几乎不可行。所以，我认为可以先用仿真环境解决问题，解决不了时再用真实数据调整。最终，真实数据的使用是不可避免的。

王鹤：今年 ICRA 大会的最佳论文展示了一种“新的数据集”。这种数据采集方式与传统的方法相比，有何区别和优势？

高阳丨清华大学助理教授，视觉与具身智能实验室主任

高阳：仿真技术取得了很大进展，但核心问题是，获取一个技能需要多少成本。无论仿真器多复杂，最终需要专业人员开发。一旦建成，就能通过大量计算获取数据来训练技能。

在现实世界中，数据需要通过人工采集。两者没有绝对的优劣。在当前技术阶段，简单的运动任务可以通过仿真解决，如拾取和放置等简单接触任务。

然而，复杂任务，如转笔任务，需要长时间研究，因为这类任务涉及高度接触和动态变化，仿真和现实之间的微小差异都会影响策略的有效性。因此，对于简单任务，仿真数据非常有用，而复杂任务仍需依赖现实世界的数据。

王鹤：对于简单任务，如平地行走或简单物体抓取，仿真效果较好。对于复杂任务，有两种可能：在真实世界中学习或提升仿真器性能。请问，如何看待在真实世界中学习的效率？

王兴兴：对于简单任务，如跳舞或行走，目前并不大量依赖真实数据，但在某些情况下，会使用真实数据作为参考。通常，先用模型预测控制生成运动轨迹，或者从仿真中获取轨迹，再让机器人进行模仿学习。

例如，机器人学习跳舞时，初始动作来自真实表演的数据。采集后筛选优化，再输入仿真环境训练，从而让机器人准确执行舞蹈动作。

对于更复杂的任务，如灵巧手的模仿学习，目前在仿真和实物上都有尝试，但机械臂主要依赖真实数据，虽然数据量不大，但成功率和实用性尚不理想。机械臂主要应用于简单的抓取任务，泛用性和处理复杂任务的能力仍然不足。

在工业场景等复杂操作中，使用真实数据非常重要，因为涉及大量零部件的接触和复杂的物理环境，仿真训练可能效果有限。仿真器需要处理准确的物理模拟和材料变形，调整仿真器的时间成本很高，且仿真与真实环境差距较大，尤其在复杂任务中，如转笔任务，实际操作效率可能更高。总的来说，对于复杂操作任务，实物数据在当前阶段仍是更有效的解决方案。

王鹤：今天的多模态大模型主要依赖互联网数据。如果设想中的多模态图文大模型有三条数据来源，第一条显然是互联网数据；第二条是合成数据；第三条则应该来自未来的通用机器人。正如马斯克所说，未来如果有100亿个仿人机器人，它们可以随时随地录制数据，因为人类在日常生活中并不总是在用相机记录一切。只有当通用机器人数量足够多时，才能解决图文大模型特别是图像数据的覆盖不足问题。

如何看待这种说法？

邵林：对于视觉或图文多模态大模型，应用于机器人领域的核心问题仍然是数据采集。正如之前提到的，机器人数据采集非常昂贵，我们需要成熟的数据集或规模适中的技能库供机器人使用。目前的挑战在于，基础技能库不足以支持机器人在大模型中的广泛应用。

虽然我们能够制造大量机器人，但如何为它们配备足够可用、安全且高效的系统，以便有效采集数据，是一个亟待解决的关键问题。

王兴兴： 目前我们面临的是一个“先有鸡还是先有蛋”的问题 ：现有模型质量不高，导致机器人无法采集到高质量数据；而没有足够的数据，我们又无法做出优质的模型。因此，无论是多模态大模型还是机器人模型，结构上还有很多改进空间。

理想情况下，我们应开发对数据需求较低的模型，就像人类和动物一样。一个小孩在成长过程中，通过较少的数据就能学会很多东西，包括语言。相比之下，现有的大语言模型对数据依赖性很强，这与人类学习方式不同。

在智能模型和模型结构方面，还有很多探索空间。现有的神经网络架构可能并非最优，可以研究脉冲神经网络或其他新结构。因此，我认为，与其继续完善现有的大语言模型和多模态大模型，不如探索开发全新模型，这样可能会带来更大突破。

05 关于系统：两种技术路线

王鹤：当前最火的具身大模型之一是自动驾驶领域。特斯拉从最初的模块化系统，将感知、规划和控制分为三步，到如今声称实现了端到端的大模型。特斯拉认为，端到端方案成功实现了L4级别的自动驾驶，而模块化方案未能达到这一目标。

如何看待这两种方案？

卢宗青丨北京大学副教授、智源学者

卢宗青：模块化系统是一种将任务分成模块化的方式，这与自然界中将功能划分到不同模块的理念类似。对于自动驾驶，模块化的方法可能涉及到更多的数据收集，以实现端到端的解决方案。可以这样理解，人类的大脑也可以被人为地分成多个区域，每个区域都有特定的功能。尽管大脑本身并不认为自己是由不同区域组成的，但这种模块化的思维方式是人类的先验认知，认为这样做会更有效地实现某些功能。

在科研和产品开发的过程中，模块化是我们可以采用的第一步，因为它可以带来一些初步的成果。随着数据和解决方案的积累，我们可能会找到更好的方法。无论最终的产品是基于模块化的方法还是端到端的方法，这可能并不重要。对我而言，端到端的方法可能最终会与其他方法融合，形成更加完善的解决方案。

高阳：两种方法各自都有其优点和出色之处。我个人更倾向于相信端到端的方法。比如人类在执行任务时，并不会刻意地先做这件事再做那件事，而是非常自然地完成整个过程。例如，当我们想拿起一个杯子时，我们的手自然地伸过去，整个流程非常流畅和高效。

模块化的方法可能是当前数据不够充分时的过渡形态。在短期内，由于缺乏足够的数据，我们无法训练出一个海量数据支持的端到端模型，因此采用模块化的方法。当数据量足够多时，最终我们会转向端到端的方法，因为它能够更自然和高效地解决问题。

王鹤：模型在切换任务时，似乎需要重置。那么，什么时候才能把这些技能全部整合到一个网络中，以实现端到端的处理？

王兴兴：当前的四足机器人和人体运动算法大多采用端到端方式，但在技能训练上，如空翻和行走，通常还是分开进行，尽管这些模型在结构上相似。理论上，可以将这些技能整合到一个模型中训练，难度并不大。

在具体任务上，使用端到端方法已经很普遍。例如，机器人翻越障碍时，会通过深度相机直接控制关节角度，整个流程非常端到端。

但在复杂系统中，直接训练复杂的端到端模型难度很大。就像早期的深度学习只能训练浅层网络，而通过新技术才能训练更深的网络，训练技术至关重要。面对复杂系统时，大模型难以控制和收敛，因此通常将其拆解成小模块，在中间加入约束以便于训练。

目前，直接训练复杂的大模型来实现多任务学习非常困难。将任务分解、分别训练，再合并整体训练的方法更为简单有效。

王鹤：不论是追求通用表示还是实现端到端方案，直接输出动作更合适，还是生成中间表示（如接触图）比较好？对未来系统的发展方向怎么看？

邵林：讨论端到端和模块化时，需要明确“端”指的是什么，以及它的定义位置。端到端的关键在于清晰地定义“端”的位置；端到端模型指的是联合优化和直接从数据中学习，其优势在于能够从数据中直接学习到最优结果。模块化则是将系统拆解成不同部分，再进行组合，强调的是分解和重组的能力。

端到端中可以包含模块化元素，模块化中也可体现端到端思维。核心问题在于如何定义和处理数据，实现最高效和实用的解决方案，关键是对数据的理解和有效利用。

06 关于未来：One more thing

王鹤：目前的多模态大模型有哪些不足之处？我们应该如何提升它们？