专栏名称: 海外独角兽

研究科技大航海时代的伟大公司。

Chelsea Finn：RL 是如何在 Robot Learning 领域创造价值的？

海外独角兽 · 公众号 · 科技公司 · 2024-09-27 20:00

主要观点总结

本文是对Physical Intelligence创始人Chelsea Finn的访谈，介绍了她在机器人领域的研究，包括模拟和机器学习在机器人技术中的应用，以及基于Meta-RL的作业打分系统的开发。文中还提到了机器人技术在家庭场景中的应用前景和机器人形态的发展。

关键观点总结

关键观点1: 机器人领域的发展状况和挑战

机器人技术正在取得进展，但仍然存在很多挑战，包括模拟的困难、数据收集的问题、不同任务的适应性和可爱的形态设计等。从长远来看，模拟可能成为机器人发展的阻碍，因为有些任务很难模拟，而且模拟的效率也可能不如实时高。

关键观点2: 机器学习在机器人技术中的应用

机器学习在机器人控制中越来越重要，特别是强化学习。通过使用强化学习等工具，机器人可以自我学习和适应新环境。不过，也需要人类在必要时提供指导和监督。

关键观点3: 基于Meta-RL的作业打分系统

开发了一个基于Meta-RL的作业打分系统，可以自动玩游戏并找到其中的bug，从而给学生提供反馈和评分。该系统可以在不同环境下快速适应并学习新策略。

关键观点4: 家用机器人的前景和挑战

家用机器人具有很大的潜力，但实现这一愿景还需要克服许多挑战，包括数据收集、技术开发和用户接受度等。

正文

请到「今天看啥」查看全文

在海外独角兽对 AI Robtocis 的行业分析中，我们提出，相较于 LLM ，通用机器人的发展要更为长期，在当下时点，选择支持明星 researchers、成功连续创业者组建的团队更有机会找到机器人领域的 OpenAI。

Physical Intelligence 就是一个典型代表，它由 robot learning 领域公认全球最强的 researcher Sergey Levine 带队，公司的目标是做可以适配所有硬件的通用机器人 foundation model，为机器人开发一个超级大脑。Physical Intelligence 创立于 2024 年 3 月，首轮融资金额就达到了 7000 万美元，估值大约 4 亿美元，领投方为 Thrive Capital，跟投方为 OpenAI, Sequoia Capital，Khosla Ventures 以及 Lux Capital。

本篇内容是对 Physical Intelligence 核心创始成员 Chelsea Finn 的深度访谈。 Chelsea 目前是斯坦福大学计算机科学与电子工程系的助理教授，Chelsea 的实验室 IRIS 主要的研究方向是通过大规模机器人交互实现智能，爆火的“家务机器人”ALOHA 就是 Chelsea 指导参与的。

Chelsea Finn 在其博士期间中提出的 MAML（Model-Agnostic Meta-Learning）是目前元学习的三大方法之一，MAML 在少样本模仿学习、元强化学习（Meta RL）、少样本目标推断等中都获得了很好的应用。

💡 目录 💡

01 机器人领域的强化学习

02 模拟可能会是机器人发展的阻碍

03 基于 Meta-RL 的作业打分系统

01.

机器人领域的强化学习

Lukas Biewald: 我看过你的研究视频，你们的机器人能完成各种高难度任务，但我感觉在现实世界中，其实很难让机器人做真正有意义的事情，你能谈谈机器人技术的现状吗，哪些方面已经实现，哪些方面还在探索？

Chelsea Finn: 目前机器人在某些领域表现得确实很不错，但在其他方面，要进入现实世界，还有很长的路要走。可能很多人都看过波士顿动力的视频，他们的机器人能完成后空翻、抓取物体等高难度动作。我们的机器人也能完成一些灵巧任务，比如用机械臂拿抹刀盛东西，或者撕胶带等等。从这些视频来看，机器人的能力很强，已经可以在现实生活中应用了。 但问题在于，只有在特定场景中，它们才能有好的表现。

比如波士顿动力的机器人就是专门为了特定配置和环境调试的，我们的机器人也是在有限的环境下训练的。一旦环境或者交互对象发生改变，机器人的表现就可能大打折扣。这与人类不同，我们一般会认为，如果一个人能完成某个高难度任务，那么他应该也能完成其他类似的任务。比如，无论什么样的水瓶，都不影响人完成倒水这个动作。

但机器人和人类差别很大，所以我们除了要研究怎么提升机器人的灵巧性，也在努力提高他们的泛化能力，让机器人最终能胜任各种场景。

Lukas Biewald: 这让我想起了 20 年前我在 NLP 领域做研究的时候，虽然当时能完成的任务看起来很厉害，但很难泛化，和现在机器人领域的情况很像。现在 NLP 的很多任务都能很好地泛化，机器视觉领域也取得了显著进步，甚至在某些方面超越了人类的表现。你认为机器人技术是否也会迎来类似的飞跃，还是说机器人领域有一些更底层的难题需要解决？

Chelsea Finn: 我相信我们能取得突破，而且我们的确已经取得了不小的进展，但机器人技术和 NLP 有一个很大的不同点是，互联网上没有现成的数据来教机器人怎么控制电机来系鞋带，而在 NLP 领域，我们有 Wikipedia，在视觉领域，我们有 flicker 和大量的图像数据。

不过，互联网上的图像和文本数据仍然能够帮助机器人更好地理解世界。 所以我们并不是从零开始起步的，但确实也面临很多数据上的挑战。我们正在建立更大的数据集，对数据集做整合。如果能收集足够多的数据，我们就能训出泛化能力更强的策略和行为。

我可以举一些我们收集数据的例子。有些任务比较简单，我们尝试过把机器人放在某个地方让它随机摆动双臂，它就可以在箱子里推动物体。随后，我们让机器人夜以继日不停歇地做这个做类似动作，这样就能收集到大量数据。但后来我们发现，如果我们的设定是让机器人随机做动作，那么它就只会一直推东西，而不是去做类似于倒水这样的复杂任务。换句话说，虽然我们当时收集到了很多数据，但数据质量并不高。 相比之下，Wikipedia 上的数据质量就很高，这是因为 Wikipedia 是人们围绕特定话题撰写出来的，内容质量很高，知识量也很丰富。

所以我们开始收集人类操作机器人的数据。比如，让人通过 VR 或者直接操作机械臂，演示如何从水瓶里倒水，如何拿起一个物体并移动到另一个位置等等。在 Google 工作的时候，我们收集了大约 10 万到 20 万条演示轨迹数据，包括视频和控制机器人的电机命令序列。 虽然 10 万条数据对于机器学习来说不算多，但这些数据已经能帮我们训出更强的策略。

我们正在做的一个工作是，基于预训练的视觉和语言模型来 fine-tuning 这些数据。这样做的话，就能够让机器人实现语义层面的泛化（semic generalization），即使在之前的数据中它从没见过某个物体或者名人，也能通过 pre-train 的模型正确识别并执行任务。比方说，我们让机器人把物体递给一张 Taylor Swift 的照片，即便它从没见过 Taylor Swift，也能准确地把物体递给正确的人，因为 pre-train 的模型能够把互联网上的知识转移到机器人控制中。

我们还在一直尝试去整合不同机器人 labs 和平台的数据，基于这些数据，我们已经成功训练出了一种策略，可以同时控制六种不同类型的机器人。

Physical Intelligence (π) 官网简介

Lukas Biewald: 人体姿态估计（human pose estimation）领域有很多很有趣的研究和实践，我们是不是也可以把人类的身体类比成某种机器人平台？机器人研究能不能从人体姿态估计这里获得一些灵感？

💡

人体姿态估计（Human Pose Estimation）是计算机视觉中的一个重要任务，旨在从图像或视频中检测和识别出人体的关键点位置，并根据这些关键点构建人体骨架以估计其姿态。

Chelsea Finn: 就像我我刚才提到的，我们可以训练策略来控制各类机器人，人类在某种程度上也是一种系统，所以也可以把人类数据拿来训练。不过，虽然我们可以用视频记录人类行为，但还是不能了解人类在不同的任务和动作中是如何控制肌肉的。在机器人训练中，正是这种信息可以帮助机器人控制电机，作出相应的动作。所以，仅仅依赖于人体姿态估计是远远不够的，尤其是在涉及更复杂的任务时，除了姿态估计，还需要考虑诸如力的作用等因素。但只要能准确地进行姿态估计，就能很好地把这类数据整合到训练里。

Lukas Biewald: 你关于 robot learning 的研究也很有趣，尤其是 learning through play 这个方向上的讨论。我自己也有两个孩子，当我观察小孩子适应环境的过程时，会发现这个过程也很像一个强化学习的过程。你是怎么看机器人领域的强化学习的？

Chelsea Finn: 我在 Berkeley 读 PhD 的时候，我们 lab 里有一个博士后，他的研究主题就是机器人的强化学习，机器人通过一系列试错的过程来学习各种能力。其中有一个任务是让机器人堆积木，机器人需要把一个很大的乐高 Duplo 积木块堆到另外一个 Duplo 积木上，和孩子们玩积木一样，机器人会先弄清楚这两个积木是如何组合的，并且这个过程会越来越熟练，大概 10 到 15 分钟就能学会这个任务，有时候甚至更快。亲眼看到机器人学习和“玩耍”的过程，让我感到非常神奇，这也是为什么我选择了这个研究方向。

我的第一个项目是机器人的 RL，这个研究本质上是对之前的系统进行拓展，让机器人能够直接从像素级别中的数据中学习，之前的系统下，机器人拼积木的行为其实是“闭着眼睛”的，所以我们的目标是让机器人学习“看”的能力， 是第一个从像素值到扭矩值的端到端的神经网络项目。 当时是 2014 年、2015 年左右，我们让机器人同步学会了感知和行动。

到今天，在 Robot Learning 领域，RL 依然很有价值。机器人通过试错完成自主学习的过程是智能的核心要素。只会模仿学习的机器人，它的智能水平可能比试错学习的机器人要低。而且， 通过试错学习让机器人能够自己收集学习大规模数据。

尽管目前的试错过程还需要人类监督，但长期来看，这种学自主学习的能力可以帮助机器人实现落地。在学习过程中，数据收集的规模和实际部署都非常重要。在现实场景中，如果一个机器人出了错，它需要迅速纠正错误，从错误中学习，尝试不同的方法，这样它就能越来越有用。

Lukas Biewald: 我看到过你们一个机器狗穿旱冰鞋、拉盒子的案例，当时定义这个任务的目标是什么？机器狗是如何学习这些任务的？

Chelsea Finn: 我们是这么想这件事的，机械狗其实已经具备了一定技能：它已经学会了走路，也学会了在某条腿残疾的情况下走路，但是还没有遇到过滑轮或者负重的场景。 我们的目标是，它要能在测试时能即时得想出新的办法来适应这些新场景和任务。

我们做了两个方面的工作。第一，使用 RL 的 fine tuning 让机械狗适应新场景，不过这只会让机械狗小幅、缓慢地改变自己的动作。第二，让机械狗适应行为空间的 higher level，在不同的时间节点上，动态选择不同的技能，以此来适应新的场景。比方说，如果现实场景需要它用左前腿向前滑动，它能够选择出相对应的技能。

Lukas Biewald: 机械狗在移动时，模型的 input 和 output 是什么？fine tuning 在这里的作用是什么？

Chelsea Finn: 机械狗身上有各种传感器，可以不停地传输数据，这就是 input。我们也有外部传感器，不过一般会用机载传感器，比方说，电机上就有编码器，能测量关节的角度。我们也会用 IMU 来记录加速度。

💡

IMU：惯性测量单元（Inertial Measurement Unit），是一类对物理运动参数（包括加速度、旋转或位置变化）作出反应或感知这些物理量的设备。加速度计是 IMU 中的关键组件之一，主要功能是测量物体在各个轴向上的线性加速度。

我们也会用深度或者 RGB 摄像头等方法去测量速度，然后把各种速度数据喂给机械狗，这也是 input。output 同样是在关节上，可以通过控制位置、速度或是扭矩等不同方式控制关节。

Lukas Biewald: 那么模型的目标是什么？训练模型时的损失函数是什么？

Chelsea Finn: 在研究中，我们的训练目标是让机器人能往前走或往前跑，所以奖励函数通常是前进速度，通常也可以是让机器人执行更复杂的任务。我们发了一篇论文介绍怎么训练机械狗学习跑酷等等技能， 虽然我们的目标还是让它往前移动，但我们会设置一些障碍物，机械狗需要跳过障碍物、越过豁口、爬到箱子上，或者俯身通过障碍物。

Lukas Biewald: 在这种场景下，机械狗并不是一直在向前移动，怎么让它学会做一下当下没有给到反馈的任务呢？

Chelsea Finn: 这就是我们需要强化学习这类工具的原因。在某些情况下，我们不能直接优化前向速度。无法直接从输出关节命令的策略参数获得关于前向笛卡尔速度的梯度。RL 为我们提供了解决这个问题的方法。我们通常会使用价值函数来估计未来折扣回报的总和，再在这个基础上开始做优化。

Lukas Biewald: 也就是说你们会把给到机械狗的任务定义为一种 RL 问题？

Chelsea Finn: 是的，我们会把 RL 当作一种优化工具，来实现 fine-tuning。如果要适应 high-level 的不同行为，我们会用不同技能的价值函数，来确定哪种技能最适合某种特定场景。我们还加了一个正则化器，用来提高选择的效率。所以说 RL 在我们的工作中其实是扮演了非常重要的角色。

很多情况下，我们没办法确定奖励函数是什么。

对于足式机器人（legged robot）来说，前进速度是一个非常可靠的奖励函数，可以让机器人学习有趣的行为，但并不适用于所有情况。比如，如果目标是从水瓶中倒水，由于无法通过传感器知道杯子里的水量，所以没办法直接确定奖励函数。理论上，我们可以使用秤和碗来测量，但即便如此，我们也无法直接测量是否有水溢出等情况。

所以今天还有有很多人就在研究奖励函数，或者研究怎么去激发机器人做出多样化或探索性的行为，也通过这些过程来了解奖励函数。

Lukas Biewald: 如果我让一个机器人只是向前移动，能让它持续在实验室运行一整晚吗？我一直觉得如果让机器人单独运行，在一段时间后一定会出问题，所以在实际中可以通过这样的方式来做测试吗？

Chelsea Finn: 我们实验室对足式机器人的研究还处于初期，我们买足式机器人的时间还不到一年，所以还没有做过这样的实验。我印象中，如果长时间进行实验，需要有人在机器人卡住的时候做出干预。我们的机械臂已经可以在没有人的情况下整夜进行实验，它会自己收集数据，改善表现。

当然，机器人还是有可能会卡住。一个典型的例子是，它可能会把所有物品都掉到地上，这样一来实验就没办法继续进行下去了。即使软件栈能让机器人长时间运行，它也不会收集到可以让我们使用的数据。不过总的来说，在软件栈出问题之前，机械臂已经能运行一整夜甚至一天半。

02.

模拟可能会是机器人发展的阻碍

Lukas Biewald: 有很多大公司或者研究项目在做关于机械臂的研究时，只专注于怎么让抓取任务更加可靠？抓取在机器人领域是一个很难的任务吗？

Chelsea Finn: 是的，抓取和拾取物体确实是个很大的挑战，但在仓储和物流领域非常有价值，所以确实有一些公司专注于这个方向。抓取物品之所以很有挑战性是因为有很多长尾任务，比如不同的场景、物体等都会影响任务的进行，也会遇到很多我们甚至从没想到过的任务。

另一个原因是，针对不同的物体，需要采取不同的操作策略。物体的位置不同，处理的方式也完全不同，在拿取一个物品时，它在箱子里、架子上还是冰箱里都会是不同的操作流程，如果这个物品上面还有其他东西，就还得先把它拿开。这增加了问题的复杂性。

还有一个原因是，机器人领域过去并没有广泛使用 Machine Learning。我读 PhD 研究机器人的端到端学习和 Deep Learning 的时候，还没什么人用 ML 来研究机器人控制。当时有一场大型的机器人与自动化会议，100 多个 session 里，只有两个和 ML 和自适应系统（adaptive system）有关，并且这两场 session 里有一半的论文都是我们实验室的。当然现在情况已经很不一样了，ML 越来越成为主流。

当时围绕 ML 的路径还是有很多人持怀疑态度，因为我们不能证明它一定是有效的。虽然传统的控制方法已经能提供一定的保证，但在处理长尾场景和各种异形物体这些任务时，ML 变得非常重要。

Lukas Biewald: 你觉得今天机器人领域 ML 发展得怎么样？现在的机械臂在物体主体抓取的表现上足够可靠了吗？

Chelsea Finn: 有些我接触过的初创公司认为他们已经解决了抓取问题，但其实并不是，他们之所以这么想，是因为他们的物体数量足够大，但是在实际的仓库中，我们不会遇到类似箱子里有一个巨大的南瓜的这样的情况的，实际中，会有各种各样的箱子和对应大小的物品。

在我看来，今天 top-down 的抓取任务至少是已经解决了。但如果是其他类型的抓取，比如从任意表面抓取任意物体，难度会大些。

Lukas Biewald: 有一些机器人领域的专家认为模拟（simulation）很重要，你怎么看模拟对于机器人表现的重要性？和在真实环境中收集数据相比有什么区别？

Chelsea Finn: 我的想法可能跟其他人的观点不太一样。首先，模拟技术确实已经取得了很大进展，特别是在原型开发阶段，可以先训出一个策略，然后直接应用到真实的足式机器人上，模拟的效率非常高。比方说，我们之前的跑酷就是先模拟，再在现实世界中零样本部署。只是过程很不稳定，需要做 fine tuning。操作机械臂的一些任务也可以通过模拟完成。

但长期来看，要想打造一个能执行所有任务的机器人，模拟可能会成为阻碍，因为有很多任务很难模拟，而且设置模拟环境也要耗费大量的精力和知识，尤其是操作类任务，我不认为模拟会是其中的关键。

另外，计算机视觉研究和语言研究的研究人员，他们用的也都是真实数据，我们能取得的最大的成果都是基于真实数据集获得的。所以有很多任务很难去模拟，即便可以模拟，也不会比实时更快，因为模拟对时频要求非常高。

Lukas Biewald: 也有人提到说叠衣服这种任务物体很柔软或者很松散的任务是很模拟的？

Chelsea Finn: 是的，这类物体通常被称为可变形物体，模拟起来非常困难，如果想要模拟食物烹饪的过程也是很困难的，做饭类任务还会涉及到清理环节。不仅烹饪过程很难模拟，清理烹饪失败品也同样费时。

我们现在做做饭这类任务是是通过模仿学习（imitation learning）的方式，这样机器人就不需要笨拙地一次次去尝试。长远来看，我希望机器人学习新任务的效率能像人类一样高。如果让小孩子学习做饭，即使他们会搞得一团糟，也不会像机器人从零开始学习那样差。

Lukas Biewald: 你怎么看家用机器人？我觉得光是抓取功能就物有所值，比如我可以让它帮我叠衣服。你觉得要实现这些还需要多久？

Chelsea Finn: 我对于家庭机器人的落地其实有点悲观。我不认为未来 5 年内就能实现，不过我也确实同意机器人技术确实取得了很大进展。我们现在处在这样一个阶段：只要我们给机器人系统提供的数据质量够高，它的表现就会非常出色，不仅能在范例比较少的情况下学会复杂任务，还能够实现泛化。无论我们给模型提供什么数据，它都可以学习。这也是我对整个行业感到兴奋的原因。

我觉得我们之所以能取得很大进展，很大程度上要归结于数据，要想获得涵盖所有家庭场景的数据，不仅很具有挑战性，成本也很高，需要大量的前期投资。虽然初始成本巨大，但一旦我们有了一个有点用处的机器人系统，它就可以收集更多数据。

数据只是我们面对的一部分挑战。我还觉得，相比起 NLP 和 LM 开发，专注研究机器人技术的人并不多。虽然我们已经取得了很大进展，但其实和 AI 其他领域的发展相比还差很多。

我觉得另外一个关键是要让人们能更好地接触到机器人技术。LLM 开发领域之所以有那么多人，是因为他们只需要一台电脑和 GPU 就可以上手了。现在有的机器人的价格其实比 GPU 要便宜很多。5000 美元的机械臂就能完成相当灵巧的任务，我当时用的机器人要 40 万美元，现在的价格差不多便宜了一百倍。

Lukas Biewald: 听起来机器人领域也符合摩尔定律，这倒确实是个好迹象。

Chelsea Finn: 是的，就像手机一样，当手机对人们有用的时候，人们就有了需求，一旦有了需求，制造过程就会使得价格大幅下降，变得更加亲民。

Lukas Biewald: 有些人觉得人形机器人能更好融入现实世界、是更有效的形态，你怎么看？

Chelsea Finn: 我觉得一方面，我们可能高估了人形机器人的价值，我觉得不需要腿的形态机器人也可以走很远，实际上带轮基座加两条手臂就足够了。不过，我最近也给实验室订购了一台人形机器人，所以我也不能完全肯定。

Lukas Biewald: 机械狗的价值大吗？

Chelsea Finn: 有人认为，机器人的尺寸要和人类相当，才能更好地完成任务。我们大概在一年前开始用一个手指更小的机器人，结果因为它的手指更小，其实反而可以执行更有意思的任务。所以说回机械狗，如果有陪伴需求，这个形态确实不错。我觉得机器人的外形很重要，因为人们会把很多东西拟人化。如果机器人看起来很可爱，人们就会愿意与它互动。

在讨论机器人的形态时肯定会有恐怖谷效应。所以我并不是说机器人必须做得多逼真，而是说它应该设计成可爱的形态。它不需要有一个可爱的人形，只要具备可爱的特征就行了。比方说，我们正在给四足机器人安装夹爪，这样它就可以一边走一边抓取物品。目前我们的夹爪是侧着安装的，机器人像个钳子或蝎子一样，有点吓人。如果我们把夹具旋转一下，它可能会可爱一点，像只鸭子什么的。但出于实际考虑，我们还是得侧着装，这样更容易抓取物体。虽然机器人并不拟人，也不像什么动物，但也就是这样微小的变化，也会影响机器人的外观。

03.

基于 Meta-RL 的作业打分系统

Lukas Biewald: 你在做助理教授的时候做过哪些和今天的机器人研究相关的事情吗？

Chelsea Finn: 我可以聊一个比较新的。CS 课程里往往会要求学生编写游戏或者互动应用。比方说，斯坦福大学的基础 CS 课就要求学生编写一个越狱游戏。在 code.org 上也有一个叫 Bounce 的弹跳游戏，让学生们去编程。这种作业对学生来说非常有吸引力，因为他们能构建东西并与之互动。但是对于教师来说，反馈或打分相当耗时，因为他们必须与系统互动。斯坦福的助教们通过玩游戏找 bug 来给学生编写的游戏评分。一个很典型的 bug 是，如果球被挡板侧面击中，它不会反弹回来。

所以，我们想构建一个工具，让它可以自动玩游戏，找到其中的 bug，从而给学生反馈。它可以用来给学生即时反馈，指出程序中的问题，然后给出提示以便修复。也可以用它帮助教更快更准地进行评分。所以我们开发了一个系统，只要有数据，就可以训练它对任一游戏进行评分。我们在 code.org 和基础 CS 上都做了训练，还把系统部署到了斯坦福，整合到了助教的评分界面中。这个系统会预填评分表供助教参考。结果我们发现，使用这个系统后，评分更准确，速度也更快。

Lukas Biewald: 你们是怎么训练这个系统的？这个系统的 LAST（）函数和 output 是什么？

Chelsea Finn: 我们用 Meta-RL 来训它。RL 一般使用马尔可夫决策过程，也就是在环境中优化奖励函数，而 Meta-RL 涉及多个环境和奖励函数。Meta-RL 非常适合用在学生编程的场合，因为每个学生编写的游戏都不一样，每个游戏都相当于 MDP 中不同的环境。

我们的目标是让系统在面对新环境时，能够迅速学习策略，通过玩游戏来找到其中的 bug。我们沿用了之前开发的一种 Meta-RL 算法，如果这个策略能提供评分的信息，或者发现学生作业里的 bug，它就会得到奖励。如果不断训练策略，就能让它尽可能多地提供这种信息。

如果想找到“当球碰到地面时，游戏是否正确地扣除一条生命值”的 bug，我们会训一个策略，故意避免球碰到地面，这样就能暴露出这个 bug。Meta-RL 也很适合用在机器人领域，因为机器人需要快速适应新环境。

💡

Meta-RL：元强化学习（meta-RL）是一类机器学习（ML）方法，使用样本低效的 ML 来学习样本高效的 RL 算法或其组件。Meta-RL 最常在问题设置中进行研究，在给定任务分布时，目标是学习一种能够用尽可能少的数据从任务分布中适应任何新任务的策略。

我们现在也正在准备开源这个越狱游戏的自动评分器，这样其他大学的教师也能在教学中用到这个游戏。我们也在想在其他游戏上进行训练，如果教师用其他游戏教学，他们也能得到相应的反馈。

我们还考虑用其他游戏来继续训练这个系统，从而得出一套自动评分器和课程作业，供不同的教师使用。还可以用它找其他软件的 bug，不局限于学生的编程作业或者教育领域。不过现在还在头脑风暴阶段。

Lukas Biewald: 为什么这个系统能像真正的老师那样给学生提供反馈？这是怎么做到的？

Chelsea Finn: 因为我们的系统可以玩游戏、找 bug，理论上它也可以直接给学生评分。但因为成绩对学生影响很大，所以在最终评分前，我们想进行一次人工审核，所以我们设计了一个界面，让助教能看到视频和各个 bug 的评分。在提交成绩前，助教可以先检查预评分、观看视频，然后修改成绩。总的来说，评分快了很多，也更加准确。

Lukas Biewald: 你最近有在做什么有意思的研究吗？

Chelsea Finn: 我还是专注机器人的研究。我们开发了一个低成本的双臂操作系统，它有两只机械臂，可以执行非常灵巧的任务。它的第一个任务是做了一道虾仁的菜。我们打算下周正式发表论文。播客上线时，论文已经就已经公布了。（拾象注：这里指 Mobile ALOHA 项目）

Lukas Biewald: 你们为什么选择用两只机械臂来做这个任务？

Chelsea Finn: 其实也可以只用一只机械臂。不过其中一个步骤是给虾仁翻面，这个过程要用到两只机械臂，一只手臂拿铲子，另一只手臂握住锅，然后这样来翻虾。用左手臂把锅斜过来能帮它更好给菜品翻面。这个机器人很特殊，它设在一个移动底座上，所以它还可以拿着锅，移动到厨房另一边的一个碗边，把做好的虾仁倒进去。

Lukas Biewald: 你们用这个机器人煮了多少次虾？

Chelsea Finn: 理论上我们倾向于每种方法做 20 次试验来评估某个策略，因为测试次数越多，效果就越能体现出来。20 次就很不错了，不过由于煮虾还涉及烹饪等其他操作，测试的次数没那么多，可能只做了 5 次试验。因每种方法的评估成本都会很高。尤其是要在不同机器人平台、不同任务上进行测试的话，费用就会飙升。而且还不能写一个脚本就让它自动完成，我们得参与进来，和机器人一起操作。

Lukas Biewald: 在这个过程中你们用了视觉来做操纵吗？

Chelsea Finn: 是的，我们总共安装了 4 个 RGB 摄像头，分别安装在机器人的每只手腕上。手腕上的摄像头在机器人操作中非常有用，让我们能近距离观察正在交互的物体对象。安装在手腕上还有一个好处是，我们得到的数据是稳定的，比如不管从哪个角度去拿，手腕摄像头看到的物体外观都是一样的，因此数据效率更高，只要学会从一个方向抓取，也能掌握从其他方向抓取的方法。

排版：Doro