专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
科学网  ·  同济大学领导班子调整 ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

大神Pieter Abbeel创业公司Covariant发布机器人大模型RFM-1:具备人类的推理能力!

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-03-17 00:15

正文


今天,Covariant 在社交媒体上发布 RFM-1:机器人基础模型,并宣称已具备机器人类似人类推理能力。RFM-1 是一种机器人基础模型,它在大量丰富的多模态数据和物理真实世界交互数据以及通用互联网数据上进行了训练。这代表了在构建能够在物理世界苛刻条件下(如仓库环境)准确模拟和操作的广义 AI 模型方面的重大进展。

过去的一个世纪带给我们变革性的技术进步,从计算机和互联网,到先进的计算能力,再到现在的人工智能。这些进步影响了每个学科领域、每个行业和人类生活的方方面面。

Covariant 相信下一个重大技术突破在于将这些进步延伸到物理领域。机器人技术处于这一转变的前沿,准备解锁物理世界中与数字世界相似的高效能力。

最近基础模型的进展导致了能够在各个领域产生逼真、美学和创造性内容的模型,包括文本、图像、视频、音乐,甚至代码。这些卓越的基础模型的通用问题解决能力来自于它们在互联网上数以万计的任务中进行预训练,涵盖了来自互联网的数万亿个词语。然而,由于训练数据的限制,现有模型在理解真实物理规律、实现机器人的有效和自主的真实世界交互方面仍然存在困难,无法达到所需的准确性、精度和可靠性。

RFM-1 是一种机器人基础模型,它不仅在通用互联网数据上进行训练,还使用了丰富的物理真实世界交互数据,这代表了在构建能够准确模拟和操作物理世界中苛刻条件下的广义 AI 模型方面的重大进展。

以真实世界多模态机器人数据为基础的基础模型

“基础模型”这个近期流行的概念背后蕴含着多个久经考验的学术领域,如自监督学习、生成建模和基于模型的强化学习,这些领域的广泛前提是通过大量数据理解世界来实现智能和泛化。

遵循智能行为源于实体与环境的物理交互的体现假设,Covariant 迈向开发最先进的具身化人工智能的目标始于 2017 年。自那时以来,Covariant 已经在全球范围内部署了一批高性能的机器人系统,将显著价值交付给客户,同时创造了一个庞大且多模态的真实世界数据集。

为什么 Covariant 需要收集自己的数据来训练机器人基础模型?第一个原因是性能。大多数现有的机器人数据集包含在类似实验室环境中以缓慢速度移动的机器人,在主要是准静态条件下与物体进行交互。相比之下,Covariant 的系统已经被要求在要求高度精准和高性能的真实世界环境中工作。为了构建能够在真实世界中实现高效率的机器人基础模型,训练数据必须包含在这些苛刻环境中的机器人交互情况。

现实世界中的协变机器人通常每小时可成功完成 1000 个周期,并且精度可达 99% 以上

Covariant 的系统一直在操作可变形物体,处理高度遮挡,推理各种材料上不同吸附动力学的变化,处理运动中的不规则形状物品的混乱,并处理从化妆品和服装到杂货和机械零件等各种不同物体。

现实世界中的对象以及它们呈现给机器人的方式可能有很大差异。它们可以是可变形的、形状奇特的、透明的、排列混乱或紧密的

由此产生的多模态数据集反映了将系统部署到真实世界的复杂性,并通过图像、各个角度的视频、站点和任务描述、电机编码器和压力传感器的传感器数据以及各种形式的定量指标和结果来丰富数据。

Covariant 需要构建自己的机器人数据集的第二个原因是,对物理世界的真正强大理解来自于遇到许多罕见事件并理解它们。通过在不断变化的仓库环境中全天候运行,Covariant的系统发现了这些在类似实验室环境中很难遇到的长尾事件。

RFM-1 是 Covariant 的机器人基础模型的新一代,从仓库自动化领域的各种操作开始,展示了机器人基础模型的强大能力。Covariant的方法是将最大规模的真实世界机器人生产数据集与大量的互联网数据结合起来,为仓库应用开启了新的准确性和生产力水平,并展示了扩展到其他机器人形态和更广泛行业应用的明确路径。

什么是 RFM-1

RFM-1 是一个多模态的任意到任意序列模型,使用了 80 亿个参数的 Transformer,在文本、图像、视频、机器人动作和各种数值传感器读数上进行了训练。

通过将所有模态标记化为一个共同空间,并进行自回归的下一个标记预测,RFM-1 利用其广泛的输入和输出模态实现了多样化的应用。

例如,它可以进行图像到图像的学习,用于场景分析任务,如分割和识别。它可以将文本指令与图像观察结果相结合,生成所需的抓取动作或运动序列。它可以将场景图像与目标抓取图像配对,预测视频中的结果,或模拟沿途可能发生的数值传感器读数。 现在 Covariant 将更深入地探讨 RFM-1 在物理和语言理解方面的能力。

通过学习世界模型理解物理

学习的世界模型是物理仿真的未来。与传统的仿真方法相比,它们提供了无数的好处,包括能够推理出先验未知信息的相互作用、在实时计算要求下运行以及随着时间推移提高准确性。尤其在当前高性能基础模型的时代,这种世界模型的预测能力可以使机器人发展出在Covariant的世界中操作所必需的物理直觉。

Covariant开发 RFM-1 时正是考虑到了这一目标:处理现实世界机器人的复杂动力学和物理约束,其中优化的空间非常狭窄,成功与失败之间的界线很薄,准确性要求高,即使一小部分厘米的误差也可能导致操作停止。在这里,重点从仅仅识别像洋葱这样的物体转向了管理其精确而高效的操作,同时最大限度地减小风险并与其他系统协调,以提高效率。

RFM-1 对物理的理解来自于学习生成视频:通过输入初始图像和机器人动作的标记,它充当一个物理世界模型来预测未来的视频标记。

RFM-1 根据初始图像(左上)和规定的要拾取的物品(右上)模拟拾取动作(左下)。实际的现实世界选择结果位于右下角

通过动作条件视频预测任务,RFM-1 可以学习一个低级别的世界模型,模拟每一秒钟内世界的变化。有时候,仅仅预测机器人动作的高级结果更加高效。由于Covariant的结构化多模态数据集和 RFM-1 的灵活任意到任意的形式,RFM-1 自然地提供了这种高级世界模型。在下面的示例中,RFM-1 直接预测了机器人在几秒后进行指定的抓取动作后,位于机器人前方的容器将如何变化,充当一个高级的世界模型。

RFM-1 生成的图像显示,如果从起始手提袋(左)中选取特定物品(中),则预测手提袋的外观(右)

这些示例表明,该模型理解规定的机器人动作,并且可以纯粹根据下一个令牌预测来推断这些动作是否会成功以及垃圾箱的内容将如何变化。

这些高保真世界模型可用于通过规划进行在线决策,也可用于其他模型和政策的离线训练。 AlphaGo 等先前的研究表明,在世界模型中进行规划可能对于实现超人类水平的表现至关重要。此外,从这些世界建模任务中产生的物理理解直接增强了 RFM-1 的其他功能,例如将图像映射到机器人动作的能力。

利用语言帮助机器人和人协作

在过去的几十年里,只有经验丰富的机器人工程师才能对新的机器人行为进行编程,这一直是一项艰巨的任务。 RFM-1 能够处理文本标记作为输入并预测文本标记作为输出,这为直观的自然语言界面打开了大门,使任何人都可以在几分钟而不是几周或几个月内快速编程新的机器人行为。

语言引导的机器人编程

RFM-1 允许机器人操作员和工程师使用简单的英语指导机器人执行特定的拣选动作。通过允许人们指导机器人而无需重新编程,RFM-1 降低了定制 AI 行为的障碍,以满足每个客户的动态业务需求和极端案例场景的长尾需求。

操作员用简单的英语与机器人协作并指示其拾取某些物体

RFM-1 不仅可以通过理解自然语言命令来使机器人更容易完成任务,还可以使机器人能够向人类寻求帮助。例如,如果机器人在挑选特定物品时遇到困难,它可以将其传达给机器人操作员或工程师。然后,操作员可以为机器人提供新的运动策略,例如通过移动或击倒物体来扰动物体,以找到更好的抓取点。展望未来,机器人可以将这种新策略应用到未来的行动中。

局限性

RFM-1 只是Covariant为通用机器人构建基础模型的旅程的开始,目前Covariant将在正在进行的研究计划中解决一些限制,以扩大算法前沿并进行创新。







请到「今天看啥」查看全文