近日,FigureAI公司公开展示了其与OpenAI合作的研究成就。搭载了OpenAI技术的Figure01 机器人在执行清理垃圾的任务同时,能够清晰地阐述之前向人类递交苹果的行为逻辑,这一能力显著震惊了众人。
而就在FigureAI发布升级版Figure01的前两日,
美国人工智能及机器人科技企业Covariant也宣布推出了其最新的通用型机器人智能平台RFM-1。
该公司将旗下的通用机器人人工智能平台RFM-1
定位为机器人基础模型,其核心目标是赋予机器人类似于人类的推理能力。
根据公司官方网站的介绍,
RFM-1平台通过广泛的互联网数据以及与物理现实世界的深入交互数据进行训练,这代表了在构建通用人工智能模型领域取得的重要进展。此外,该模型还能够在机器人面临的严苛环境中精确地模拟和操控现实世界。
那么,这个模型的具体情况究竟怎样呢?接下来,和机器人大讲堂一起深入探索其奥秘吧!
▍
什么是RFM-1?
RFM-1 被设计为一个多模态任意序列模型,这个拥有
80亿参数
的转换器经过了文本、图像、视频、机器人动作以及一系列数值型传感器读数的综合训练。
通过将所有模式的数据投射至统一的空间,并执行自回归式的下一个标记预测任务,RFM-1 利用其包罗万象的输入与输出模式,以
适应不同的应用需求。
比如,在需要分析的场景理解任务中,
它能够实现从图像到图像的学习,针对分割和识别等问题进行处理。它能结合文本指令和视觉观察,生成所需的抓取动作或者运动序列。它还可以将场景图像与期望的抓取目标图像配对,以视频的形式预测结果,或模拟出在达成抓取过程中的数值型传感器读数。
目前,Covariant将进一步深入探索 RFM-1 的能力,尤其是在物理和语言理解方面的表现。
▍
RFM-1能干啥?
学习世界模型
代表了物理模拟领域的未来方向。与传统的模拟手段相比,它们带来了诸多优势,包括能够在不完整信息的情况下推理交互作用、满足实时计算的需求以及随着时间推进提高预测的准确性。特别是在如今高性能基础模型盛行的背景下,这类世界模型的预测能力至关重要,它
能让机器人发展出对于人类世界中运作所必需的物理直觉。
Covariant 开发的RFM-1 旨在解决现实环境下机器人技术所面对的复杂动力学和物理约束挑战。
在这些环境中,优化的条件极为苛刻,成功与失败的分界线十分微妙,对精度的要求极为严格——甚至细微到几厘米的误差都可能招致任务失败。此处的关注点不再仅仅是物体识别这么简单,而是转移到了如何精确而有效地管理操作上,同时还需降低风险并与其他系统协同合作,以提高整体作业的效率。
RFM-1 根据初始图像(左上)和规定的要拾取的物品(右上)模拟拾取动作(左下)。实际的现实世界选择结果位于右下角。
RFM-1对物理世界的理解源自于其学习生成视频的过程:
它通过接受初始图像和机器人动作的输入,充当一个物理世界模型来预测接下来视频帧的变化。这种动作条件视频预测任务使得 RFM-1掌握了模拟世界每个瞬间变化的低层次世界模型。
然而,
在某些情况下,预测机器人行为的高层次结果可能更为有效。得益于Covariant提供的结构化多模态数据集,以及RFM-1灵活的“任意到任意”架构,它也有能力提供这样的高层次世界模型。
例如,在下面的案例中,RFM-1能够直接预测由于特定机器人抓取动作,其前方物料箱在未来几秒内将发生的变化,从而充当了一个高层次的世界模型。
RFM-1生成的图像显示,如果从起始手提袋(左)中选取特定物品(中),则预测手提袋的外观(右)。
这些示例清晰表明,
该模型不仅能够理解预定的机器人动作,还能通过预测下一个标记来推断这些动作是否能够成功执行,以及物料箱内容的变化情况。
这种高保真的世界模型在在线决策的规划中极为有用,同时也适用于其他模型和策略的离线训练。正如 AlphaGo等前沿研究所表明的,利用世界模型进行规划对于达到超越人类水平的性能至关重要。此外,RFM-1 从这些世界建模任务中获得的对物理世界的理解,还直接提升了其其他能力,例如将图像信息映射到具体的机器人动作上。
在过去几十年中,为机器人编程以执行新任务一直是一项挑战,只有那些经验丰富的工程师才能完成。然而,RFM-1能够接受文本标记作为输入并预测出相应的输出,这极大地简化了操作界面,现在,
即便是没有专业技术背景的人也能在短短几分钟内快速编程出新的机器人行为,而不再是需要数周甚至数月的时间。
RFM-1允许让机器人操作者和工程师得以用简洁的英语指导机器人执行精确的挑选动作。它免去了重新编程的需求,让人们能够直接指导机器人,
极大地降低了个性化 AI 行为定制的门槛,从而迎合了每个客户不断变化的业务需求和极端案例场景的小众市场。
操作员用简单的英语与机器人协作并指示其拾取某些物体
RFM-1 不仅使机器人通过解析自然语言指令更便捷地完成任务,还赋予了机器人向人类求助的能力。例如,在挑选特定物品遇到难题时,机器人能够向操作员或工程师传达其挑战所在,并说明挑选过程中所遇到的困难点。操作员随后可以教授机器人新的运动策略,比如移动或推倒障碍物来获得更佳的抓取机会。随着时间的推移,机器人可以将这类新策略内化,并在未来的操作中加以应用。
操作员教机器人一种干扰物体的新方法,以找到更好的抓握点
▍
RFM-1的数据支撑来源
目前,基础模型已经催生了能够横跨多个领域(如文本、图像、视频、音乐和代码)产生逼真、有创意的内容的模型。这些模型之所以具备出色的问题解决能力,是因为它们经过了数百万个任务的预训练,这些任务以互联网上的数万亿单词为数据基础。
然而,由于训练数据的局限,现有模型在掌握现实世界的物理定律以及实现机器人在现实世界中高效、自主交互所需的精确性和可靠性方面仍存在挑战。
Covariant自2017年起便开始朝着开发先进具身人工智能的目标迈进,基于“智能行为源于实体与其环境的物理交互”的理念,通过大量的数据收集,推动自监督学习、生成建模和基于模型的强化学习等多个学术领域的发展。Covariant在世界各地的真实客户站点部署了高性能的具身人工智能系统,不仅为客户提供了巨大的价值,同时也创建了庞大的多模态真实世界数据集。
据 Covariant 的官方资料介绍,其自主研发数据集以训练机器人基础模型的首要驱动因素是性能的提升。
与在受控实验室条件下缓慢操作并与物件交互的传统机器人相比,Covariant 的系统设计用于在现实的苛刻环境中进行高精度、高效率的工作。为了培养出能够在现实世界中快速、准确操作的机器人基础模型,训练所用的数据必须涵盖机器人在这些挑战性环境中的实际交互情况。
现实世界中的协变机器人通常每小时可成功完成 1000 个周期,并且精度可达 99% 以上
通过持续操作形态各异的物体,系统积累了宝贵的实操经验,这包括对可变形物体的操控、在高遮挡环境中的操作、对不同材料吸力反应的推理、管理运动中不规则形状物体引起的混乱情况,以及处理涵盖从化妆品、服装到日用品和机械零件等广泛种类的物品。这一过程孕育出的多模态数据集,不仅映射了系统部署于现实环境时需应对的复杂场景,还显著扩充了数据维度,这些数据维度包括图像、多视角视频、站点及任务描述、电机编码器和压力传感器等各类传感器数据,以及众多定量数据指标和结果。
现实世界中的对象以及它们呈现给机器人的方式可能有很大差异。它们可以是可变形的、形状奇特的、透明的、排列混乱或紧密的。
Covariant构建自己的机器人数据集的第二个原因则源于模型对物理世界真正可靠的理解来自于遇到许多罕见事件并理解它们。
长尾事件(例如物品在传送带上无限滚动或意外破裂)有助于让 RFM-1 对物理世界有更深入的了解
通过在不断变化的仓库环境中全天候运行,Covariant系统能够发现那些在实验室环境中很难遇到的长尾事件。以仓库自动化领域的多元操作为跳板,Covariant新一代人工智能(RFM-1)展现了机器人基础模型的强大潜能。Covariant采纳了一种创新的方法,将庞大的实际机器人操作数据集与海量互联网数据相结合,这不仅显著提升了仓库自动化应用的准确率和生产效率,也为机器人在不同形态尺寸的拓展及跨行业应用奠定了重要基础。
▍关于Covariant
Covariant是一家成立于2017年的新兴机器人初创企业,由OpenAI前机器人团队成员Pieter Abbeel和Rocky Duan等人联合创立。这家以人工智能与机器人技术为核心使命的公司致力于开发高级机器人系统,旨在让机器人能够自主完成现实世界中的各种复杂任务,包括但不限于物流、仓储和制造行业的自动化作业。
Covariant技术囊括了深度学习、计算机视觉、自然语言处理等多个领域,团队尝试通过赋予机器人更卓越的感知与决策力,以适应多变且充满不确定性的工作环境。
Covariant 的核心产品——协变大脑(Covariant Brain),代表了达到人类水平自主性的人工智能机器人解决方案。该大脑能够自动化仓库和配送中心的拾放流程,已成为众多顶尖的仓库集成商(如 ABB、KNAPP、Bastian)及全球客户的 AI 机器人平台之选,用以实现机器人拣选作业的自动化。
随着市场需求的不断增长,Covariant 持续开发并推出新的解决方案,应对仓库中多样化的取放场景。比如,协变机器人的货到人拣选系统、Putwall、以及感应式解决方案等,都进一步拓宽了 Covariant 的产品系列,巩固了其在行业中的创新领导地位。