2024年大模型的发力点：大模型Agent，分享6篇最新LLM Agent研究成果

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-27 01:28

正文

点击上方 “ AINLPer “ ，设为星标

更多干货，第一时间送达

引言

随着对大模型的深入研究，人们逐步开始回溯大语言模型的能力。最近，Google的一篇文章重新审视了大模型的能力，指出大模型规划并不能模拟人类思维，因为人类在做规划时需要提前在头脑中进行细致的想象、策划和回溯，而大模型生成只是执行了对下一个Token的预测任务。

同样，亚利桑那州立大学（ASU）的研究也指出： 大语言模型（LLMs）自身无法进行规划推理 ，它只是将问题从一种语法格式转换成另外一种符号表示，如要真正解决问题还需靠外部符号求解器。

然而就在最近，微软研究人员也深入探讨了Agent AI的基础，强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力，并指出Agent AI或是下一代人工智能的关键。所以说，随着大模型应用场景越来越复杂化，单纯依赖大模型的能力将面临巨大的挑战，为此用好大模型能力，构建大模型Agent将是大势所趋，这或许是今年大模型的重要发力点。

为此，今天作者给大家整理了6篇最新的大模型Agent研究成果，供大家学习参考！论文获取方式： 大模型Agent

DS-Agent

传统的数据处理和分析大多依赖专业的数据科学家，费时费力。如果能够让大语言模型智能体扮演数据科学家的角色，那么除了能够为我们提供更高效的洞察和分析，还可以开启前所未有的工业模式和研究范式。这样一来只要给定数据任务需求，专注于数据科学的Agent就可以自主地处理海量数据，发现隐藏在数据背后的模式和趋势。更广阔地，可以提供清晰模型构建的策略和代码，调用机器进行模型部署推理，最后利用数据可视化，使复杂的数据关系一目了然。近期，吉大、上交等提出了 DS-Agent，这一Agent的角色定位是一名数据科学家，其目标是处理复杂的机器学习建模任务。技术层面上，团队采用了一种经典的人工智能策略 —— 基于案例的推理（Case-Based Reasoning，CBR），赋予了Agent “参考” 他山之石的能力，使其能够利用以往解决类似问题的经验来解决新问题。

LLM-Modulo

对于大语言模型的规划和推理能力，不同的人有不同的看法。一种是过于乐观，认为只要采用合适的提示策略，LLMs就能完成这些任务；另一种是过于悲观，LMs 在规划/推理任务中的唯一好处就是将问题从一种句法格式翻译成另一种，真正解决问题还得靠外部符号求解器。「本文作者核心观点是：大语言模型（LLMs）自身无法进行规划推理」，但是却能在解决规划问题上发挥积极的作用。为此，作者还提出了一个新的LLM-Modulo框架，这个框架把大型语言模型和一些外部的验证工具结合起来，使LLMs在规划任务中发挥了重要作用。

SceneCraft

SceneCraft是一个创新的大语言模型Agent，能够将文本描述转换成可在Blender中执行的Python脚本，用于创建复杂的3D场景。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。具体来说：SceneCraft首先创建场景图，然后编写脚本，将空间关系转换为具体的数值约束。此外，它使用视觉-语言模型的感知能力来分析和迭代改进场景。SceneCraft还具备库学习机制，使得无需调整LLM参数即可实现自我改进。评估结果显示，SceneCraft在渲染复杂场景方面的表现优于现有技术，并展示了其在3D场景重建和视频生成模型控制方面的应用潜力。

GitAgent

本文研究是关于怎么让那些大型的语言模型，比如ChatGPT和GPT-4，变得更厉害，特别是在处理那些复杂和需要多种技能的任务上。现在的问题是，这些模型虽然在语言处理上很厉害，但是它们能用的工具有限，有时候就应付不了用户提出的各种问题，尤其是那些需要专业知识的问题。为此，本文作者想了个办法，就是让这些模型自己从GitHub上找到合适的代码库，然后加到自己的工具箱里。开发了一个叫做GITAGENT的agent，这个agent能自动做这件事。 GITAGENT工作的时候，会分四个步骤，如果遇到问题，它还会去GitHub上看看别人是怎么解决的，学习经验。作者对此进行实验，用GITAGENT处理了30个用户的问题，结果发现平均有69.4%的成功率，验证了该种方案的可行性。

LearnAct

虽然大型语言模型（LLM）Agent备受关注，但它们在试错学习方面存在局限性。本研究认为，从经验中学习新action对于LLM Agent的学习能力提升至关重要。与人类通过体验式学习自然扩展动作空间和技能不同，LLM Agent通常在固定的动作空间内操作，这限制了它们的成长潜力。简单来说：作者思考的问题在于，很多场景的 action space 是固定的，模型不能从过去的 trace 里学习、组合新的 action。为了解决这一问题，研究提出了一个名为 LearnAct的框架，采用迭代学习策略，通过创建和改进Python函数形式的动作来进行开放式动作学习