芝能科技出品
谷歌 DeepMind 近日推出了两款基于 Gemini 2.0 的新型机器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。
这两款模型将 AI 能力从数字世界扩展至物理世界,使得我们可以尝试迈向通用性、交互性和灵巧性。
●
Gemini Robotics
是一个先进的视觉-语言-动作模型,能够处理未训练过的任务、理解自然语言指令并实时适应环境变化;
●
Gemini Robotics-ER
则专注于增强空间理解能力,支持跨平台应用并提升安全性,为未来机器人在日常生活中的广泛应用奠定了基础。
当前技术仍面临动作缓慢、数据不足等挑战,距离成熟商用尚需时日。
Gemini Robotics:
迈向通用机器人的里程碑
●
通用性:突破特定任务的限制
机器人技术长期以来面临的一个核心难题是其在陌生环境中的适应能力不足。
正如谷歌 DeepMind 机器人研究主管 Kanishka Rao 所指出的:“机器人通常只在经历过的场景中表现良好,但在面对陌生情况时完全无能为力。”
传统机器人往往依赖预编程或针对特定任务的训练,一旦超出已知范围,性能便大幅下降。
而 Gemini Robotics 的出现,通过其卓越的通用性,显著缓解了这一痛点。Gemini Robotics 能够在全新、未曾训练过的任务和环境中自主操作。
根据 DeepMind 的技术报告,该模型在综合泛化能力基准测试中的表现比当前最先进的视觉-语言-动作模型高出两倍多。
这一突破意味着机器人无需为每个具体应用场景进行专门训练,便能适应新物体、多样化指令和新环境。
例如,在演示中,研究人员摆放了小碟子、葡萄和香蕉,并指示机器人:“把香蕉放进透明容器里。”机器人迅速识别出香蕉和容器,完成任务。即使容器位置随后被移动,机器人也能实时调整,重新定位并执行指令。
更令人惊讶的是,
当研究人员展示一个玩具篮球和篮网,并要求“灌篮”时,尽管机器人从未接触过这些物体,它依然理解指令并完成动作。
这些例子生动展示了 Gemini Robotics 对新任务的泛化能力,使其成为迈向通用机器人的关键一步。
●
交互性:自然语言与实时适应
Gemini Robotics 的另一大优势在于其交互性。
◎
基于 Gemini 2.0 的强大语言理解能力,该模型能够响应日常会话式语言指令,甚至支持多语言交流。
这意味着用户无需使用专业术语或固定命令格式,只需以自然语言与机器人沟通。例如,用户可以说:“帮我把桌上的葡萄放进餐盒里。”机器人便能理解并执行。
◎
具备实时适应环境变化的能力。它能持续监测周围环境,检测物体位置变化或意外情况,并迅速调整行动。例如,当葡萄从抓取中滑落,或容器被移动时,机器人能够重新规划路径并继续任务。
这种动态适应性对于在不确定性较高的现实世界中工作尤为关键,使 Gemini Robotics 在与人类协作时更具实用性。
●
灵巧性:精细操作的实现
灵巧性是机器人实用性的重要衡量标准。
许多人类轻松完成的日常任务,如折纸或打包零食,对机器人而言却极具挑战性。Gemini Robotics 在这方面表现出色,展示了强大的精细动作控制能力。
◎
它能够处理需要精确操作的复杂多步骤任务,例如折叠纸张或将零食装入密封袋。在演示视频中,机器人通过双臂协作完成折纸任务,这不仅要求动作精度,还需对手部协调和物理材质的理解。
◎
此外,它还能将饭盒装入包中,展现了对柔软物体和力控制的掌握。这些能力表明,Gemini Robotics 不仅能在宏观层面执行任务,还能在微观层面实现精细操作,为其在家庭、医疗和工业等领域的应用打开了可能性。
●
技术基础与训练方式
Gemini Robotics 是一个视觉-语言-动作
(VLA)
模型,在 Gemini 2.0 基础上增加了物理动作输出,直接控制机器人。其训练数据来源多样,包括模拟环境中的合成数据和现实世界中的远程操作数据。
◎
在模拟环境中,机器人学习物理规则,如不能穿墙而过;
◎
通过远程操作,人类引导机器人完成现实任务。