引言
随着对大模型的深入研究,人们逐步开始回溯大语言模型的能力。最近,Google的一篇文章重新审视了大模型的能力,指出大模型规划并不能模拟人类思维,因为人类在做规划时需要提前在头脑中进行细致的想象、策划和回溯,而大模型生成只是执行了对下一个Token的预测任务。
同样,亚利桑那州立大学(ASU)的研究也指出:
大语言模型(LLMs)自身无法进行规划推理
,它只是将问题从一种语法格式转换成另外一种符号表示,如要真正解决问题还需靠外部符号求解器。
然而就在最近,微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。所以说,随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战,为此用好大模型能力,构建大模型Agent将是大势所趋,这或许是今年大模型的重要发力点。
为此,今天作者给大家整理了6篇最新的大模型Agent研究成果,供大家学习参考!
论文获取方式:
大模型Agent
DS-Agent
传统的数据处理和分析大多依赖专业的数据科学家,费时费力。如果能够让大语言模型智能体扮演数据科学家的角色,那么除了能够为我们提供更高效的洞察和分析,还可以开启前所未有的工业模式和研究范式。这样一来只要给定数据任务需求,专注于数据科学的Agent就可以自主地处理海量数据,发现隐藏在数据背后的模式和趋势。更广阔地,可以提供清晰模型构建的策略和代码,调用机器进行模型部署推理,最后利用数据可视化,使复杂的数据关系一目了然。
近期,
吉大、上交等提出了 DS-Agent,这一Agent的角色定位是一名数据科学家,其目标是处理复杂的机器学习建模任务
。技术层面上,团队采用了一种经典的人工智能策略 —— 基于案例的推理(Case-Based Reasoning,CBR),赋予了Agent “参考” 他山之石的能力,使其能够利用以往解决类似问题的经验来解决新问题。
LLM-Modulo
对于大语言模型的规划和推理能力,不同的人有不同的看法。一种是过于乐观,认为只要采用合适的提示策略,LLMs就能完成这些任务;另一种是过于悲观,LMs 在规划/推理任务中的唯一好处就是将问题从一种句法格式翻译成另一种,真正解决问题还得靠外部符号求解器。
「
本文作者核心观点是:大语言模型(LLMs)自身无法进行规划推理
」,但是却能在解决规划问题上发挥积极的作用。为此,作者还提出了一个新的LLM-Modulo框架,这个框架把大型语言模型和一些外部的验证工具结合起来,使LLMs在规划任务中发挥了重要作用。
SceneCraft
SceneCraft是一个创新的大语言模型Agent,能够将文本描述转换成可在Blender中执行的Python脚本,用于创建复杂的3D场景
。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。
具体来说:SceneCraft首先创建场景图,然后编写脚本,将空间关系转换为具体的数值约束。此外,它使用视觉-语言模型的感知能力来分析和迭代改进场景。SceneCraft还具备库学习机制,使得无需调整LLM参数即可实现自我改进。评估结果显示,SceneCraft在渲染复杂场景方面的表现优于现有技术,并展示了其在3D场景重建和视频生成模型控制方面的应用潜力。
GitAgent
本文研究是关于怎么让那些大型的语言模型,比如ChatGPT和GPT-4,变得更厉害,特别是在处理那些复杂和需要多种技能的任务上。现在的问题是,这些模型虽然在语言处理上很厉害,但是它们能用的工具有限,有时候就应付不了用户提出的各种问题,尤其是那些需要专业知识的问题。
为此,本文作者想了个办法,就是让这些模型自己从GitHub上找到合适的代码库,然后加到自己的工具箱里。开发了一个叫做GITAGENT的agent,这个agent能自动做这件事。
GITAGENT工作的时候,会分四个步骤,如果遇到问题,它还会去GitHub上看看别人是怎么解决的,学习经验。作者对此进行实验,用GITAGENT处理了30个用户的问题,结果发现平均有69.4%的成功率,验证了该种方案的可行性。
LearnAct
虽然大型语言模型(LLM)Agent备受关注,但它们在试错学习方面存在局限性。本研究认为,从经验中学习新action对于LLM Agent的学习能力提升至关重要。与人类通过体验式学习自然扩展动作空间和技能不同,LLM Agent通常在固定的动作空间内操作,这限制了它们的成长潜力。简单来说:作者思考的问题在于,很多场景的 action space 是固定的, 模型不能从过去的 trace 里学习、组合新的 action。
为了解决这一问题,研究提出了一个名为
LearnAct的框架,采用迭代学习策略,通过创建和改进Python函数形式的动作来进行开放式动作学习