专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
募格学术  ·  官方发文:鼓励高校教师在职办公司 ·  10 小时前  
社会学理论大缸  ·  今晚开课PPT丨寒假论文写作训练营:如何通过 ... ·  昨天  
PaperWeekly  ·  科研实习 | ... ·  5 天前  
募格学术  ·  突破校史!地方高校,获国家重点研发计划 ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

OmAgent v0.2.2 重磅更新!智能体算子来袭,智能体评测平台同步启用!

PaperWeekly  · 公众号  · 科研  · 2025-01-17 13:00

主要观点总结

OmAgent v0.2.2 新版本发布,引入了智能体算子,帮助开发者便捷构建复杂智能体功能。同时推出了开源大语言模型智能体评测平台 Open Agent Leaderboard,解决智能体算法性能对比的难题。平台具有全面的评测指标、丰富的算法支持、多模型兼容和简单易用等核心优势。

关键观点总结

关键观点1: OmAgent v0.2.2 新版本引入智能体算子

使开发者能够便捷地在项目中调用子工作流实现复杂智能体功能,涵盖了CoT、SC-CoT、PoT、ReAct等算子。

关键观点2: 推出开源大语言模型智能体评测平台 Open Agent Leaderboard

基于统一的评测框架对主流智能体算法进行标准化复现,提供可靠的性能参考,解决智能体算法性能对比的难题。

关键观点3: Open Agent Leaderboard 的核心优势

包括全面的评测指标、丰富的算法支持、多模型兼容和简单易用等特点,提供准确率、通过率等多维度评估,计算推理成本,帮助开发者权衡性能和效率。

关键观点4: OmAgent v0.2.2 新版本的其他优化

包括优化 prompt、worker 的超时机制、模块注册机制禁止重名模块注册,并提供使用 Ollama 进行本地大模型部署的方案等,全方位提升了开发与应用体验。


正文


OmAgent v0.2.2 新版本正式发布,新版本引入了智能体算子「Agent Operator」,使开发者能够便捷地在项目中调用子工作流实现复杂智能体功能,目前已涵盖 CoT、SC-CoT、PoT、ReAct 等算子,能够帮助开发者快速构建复杂智能体功能,极大地拓展了应用的可能性。 


同时,OmAgent v0.2.2 版本还推出了「Open Agent Leaderboard」这一开源大语言模型智能体评测平台,依据智能体算子对不同算子和模型效果进行评估对比,且算子实现与原论文代码结果对齐,确保评估公平客观。



根据目前数据,OmAgent 已获超 1100 颗 GitHub 星标👇

 https://github.com/om-ai-lab/OmAgent 



Open Agent Leaderboard

开源大语言模型智能体评测平台

随着基于 LLM 的智能体(Agent)技术蓬勃发展,目前已经涌现出 CoT、PoT、ReAct 等多种智能体算法,但由于实现细节、评测环境和基准数据集的差异,很难对这些算法进行公平的性能对比。 

为了解决这个问题,OmAgent 团队开发了「Open Agent Leaderboard」—— 一个开源的智能体评测平台。该平台基于统一的评测框架,对主流智能体算法进行了标准化复现,并在相同的数据集和评测指标下进行对比,为研究人员和开发者提供了可靠的性能参考。 

平台的主要贡献包括:

  • 统一实现了多个主流智能体算法(CoT、SC-CoT、PoT、ReAct 等),确保实现的一致性和可比性;
  • 建立了标准化的评测流程,包括数据处理和结果评估;
  • 提供了多维度的评测指标,包括准确率、推理成本等;
  • 对智能体算法和大语言模型的组合进行了综合效果评估;
  • 开源了所有代码和评测结果,方便社区验证和使用。
「Open Agent Leaderboard」包括四大核心优势:


一、全面的评测指标
  • 支持多个基准数据集:gsm8k、AQuA ,未来将开放更多数据集和任务,请关注我们
  • 提供准确率、通过率等多维度评估
  • 计算推理成本,帮助开发者权衡性能和效率 
二、丰富的算法支持
  • Chain-of-thought (CoT)

  • Self-Consistency CoT (SC-CoT) 

  • Program of Thoughts (PoT) 

  • ReAct ... 

三、多模型兼容

  • GPT-3.5-turbo
  • Doubao-lite-32k 
  • 开放扩展支持更多模型 

四、简单易用

  • 基于 OmAgent 框架开发 (https://github.com/om-ai-lab/OmAgent)
  • 提供完整的评测流程

关注下方链接,获取最新的评测结果:

https://github.com/om-ai-lab/open-agent-leaderboard

https://huggingface.co/spaces/omlab/open-agent-leaderboard
「Open Agent Leaderboard」为智能体技术评测提供了一个开放、公平的平台。希望通过这个项目,能够推动智能体技术的发展,帮助研究人员和开发者构建更好的 AI 应用。 
此外,OmAgent v0.2.2 新版本还在多方面进行了优化,如优化了 prompt,支持通过配置文件在提示模板中传递变量;优化了 worker 的超时机制;模块注册机制禁止了重名模块注册;提供了使用 Ollama 进行本地大模型部署的方案等,全方位提升了开发与应用体验。

您可以在 GitHub 查看更多详情:

https://github.com/om-ai-lab/OmAgent/releases/tag/v0.2.2

你也可以访问 OmAgent 的 GitHub 仓库(https://github.com/om-ai-lab/OmAgent)获取更多信息,通过 Issue 或 PR 参与项目建设。 
如有其他任何问题,欢迎在社群中交流讨论。
让我们一起推动智能体技术的进步!

 ▼ 点击阅读原文,了解更多