2024年3月13日,谷歌DeepMind团队发布了一项关于可扩展指令型多环境智能体(SIMA)的研究,该智能体能够理解并执行自然语言的指令,在3D游戏场景中完成各种任务。
SIMA的名词解释=Scalable Instructable Multiworld Agent(可扩展可指导多世界智能体)
项目背景(Human-level control through deep reinforcement learning)
早在2015年谷歌DeepMind团队就与雅达利游戏开发商合作,通过学习数百个雅达利2600游戏来模仿人类玩游戏。DeepMind团队证明,仅接收像素和游戏分数作为输入的深度 Q 网络代理能够超越所有先前算法的性能,并在一组 49 个游戏中达到与专业人类游戏测试人员相当的水平,使用相同的算法、网络架构和超参数。
智能体面临着一个艰巨的任务,它们必须从高维感官输入中派生出有效的环境表示,并使用这些表示将过去的经验推广到新的情况中,也就是泛化性。值得注意的是,人类和其他动物通过强化学习和分层感官处理系统的结合来解决这个问题,前者由大量的神经数据支持,揭示了多巴胺能神经元发出的相位信号与时间差分强化学习算法之间显著的相似性。
DeepMind团队利用最近在训练深度神经网络方面的进展,开发了一种名为深度Q网络(deep Q-network)的新型智能体,它可以直接从高维感官输入中通过端到端的强化学习学习成功的策略。
这项工作弥合了高维感官输入和动作之间的鸿沟,从而产生了第一个能够学习在多样化的具有挑战性的任务中表现出卓越的智能体。
如何训练
为了让SIMA接触到众多环境,DeepMind与游戏开发者建立了多个研究合作伙伴关系。DeepMind与八家游戏工作室合作,训练并测试SIMA在九款不同的视频游戏上,例如Hello Games的《无人深空》(No Man's Sky)和Tuxedo Labs的《拆解》(Teardown)。SIMA组合中的每款游戏都打开了一个全新的互动世界,包括了一系列需要学习的技能,从简单的导航和菜单使用,到挖掘资源、驾驶太空船或制作头盔。
DeepMind还使用了四个研究环境——包括他们用Unity构建的一个名为“建筑实验室”(Construction Lab)的新环境,在这个世界里,智能体需要从积木中构建雕塑,这测试了它们的对象操作能力和对物理世界的直观理解。
通过在不同的游戏世界中学习,SIMA掌握了语言如何与游戏玩法行为相联系。DeepMind的第一种方法是记录他们组合中的游戏中的人类玩家对,一个玩家观看并指导另一个玩家。他们还让玩家自由地玩游戏,然后回放他们的行为,并记录那些会导致他们游戏动作的指令。
SIMA包括预先训练的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型。
多功能 AI Agent
SIMA 是一种 AI 智能体,可以感知和理解各种环境,然后采取行动来实现指令的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。根据SIMA产品组合中特定于3D设置的训练数据对这些模型进行了微调。
SIMA 不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像和用户提供的简单、自然语言的指令。SIMA使用键盘和鼠标输出来控制游戏的中心字符来执行这些指令。这个简单的界面是人类使用的,这意味着SIMA可以与任何虚拟环境进行交互。
SIMA 的当前版本针对 600 项基本技能进行了评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。我们已经训练 SIMA 执行可以在大约 10 秒内完成的简单任务。
泛化性
DeepMind团队指出,一个受过许多游戏训练的智能体比一个只学会了如何玩游戏的智能体的效果要更好。在DeepMind团队的实验中,展示了一个在众多游戏中受过训练的智能体相较于只学习单一游戏的智能体表现得更为出色。在评估中发现,接受过九款3D游戏训练的SIMA智能体在每一款单独游戏中的表现都显著超越了只针对每款游戏进行特化训练的智能体。
更令人振奋的是,即使在缺少一款游戏训练的情况下,一个智能体在未见过的游戏中的表现几乎与专门为那款游戏训练的智能体一样好,平均而言。重要的是,这种在全新环境中依然能够发挥作用的能力,突显了SIMA智能体超越其训练范畴的泛化能力。这是一个充满希望的初步结果,但要让SIMA智能体在已知和未知的游戏中达到人类水平,还需要更多的研究。
DeepMind团队的研究结果还表明,SIMA智能体的表现依赖于语言。在一个对照测试中,当智能体没有接受任何语言训练或指令时,它的行为虽然合适,但却缺乏目标性。例如,我可能会收集资源——一种常见的行为,而不是按照指示前往指定地点。
想象一下
一个
游戏陪玩贾维斯
,它能够在各种各样的电脑游戏里听从你的指令,就像真人一样玩游戏。它不仅能够听懂你说的话,还能根据游戏中的图像来判断情况,然后用键盘和鼠标来控制游戏角色,完成你的任务。它不仅仅能学会一个游戏里的特定技能,而是能够把这些技能应用到其他它从未见过的新游戏中去。