专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
山西省教育厅  ·  山西省教育厅关于组织参加2025年寒假教师研 ... ·  2 天前  
山西省教育厅  ·  山西省教育厅关于组织参加2025年寒假教师研 ... ·  2 天前  
青海教育  ·  AI时代,如何做不可替代的智慧教师? ·  2 天前  
青海教育  ·  AI时代,如何做不可替代的智慧教师? ·  2 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

通义WebWalker: 大模型乘风破浪,探索网页深海

深度学习自然语言处理  · 公众号  ·  · 2025-01-20 16:27

正文

检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明,WebWalkerQA具有挑战性,证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。

论文 : https://arxiv.org/pdf/2501.07572
主页 : https://alibaba-nlp.github.io/WebWalker
代码 : https://github.com/Alibaba-nlp/WebWalker
ModelScope-Demo : https://www.modelscope.cn/studios/iic/WebWalker
Huggingface-Demo : https://huggingface.co/spaces/callanwu/WebWalker


作者 Wzl
编辑 深度学习自然语言处理

动机

大型语言模型(LLM)通常处于知识固定状态(无法实时更新)。尽管使用检索增强生成(RAG)可以获取最新信息,但传统搜索引擎(如谷歌、百度等)的横向搜索方式限制了对信息的深层挖掘能力,无法像人类一样通过逐步点击等操作获取更多细节,从而更“聪明”地获取所需信息。因此,作者提出了一个新任务——Web Traversal,旨在给定与查询相关的初始网站,系统地遍历网页以揭露隐藏在其中的信息。

WebWalkerQA和WebWalker

  • [Dataset] WebWalkerQA :根据网站的URL树,通过四个阶段,构建单源/多源的easy、medium、hard难度的QA对,涵盖四种常见官网来源及中英两种语言。
  • [Method] WebWalker :采用多代理框架,由一个探测代理(explorer agent)和一个裁判代理(critic agent)组成。探测代理基于ReAct,遵循思考-行动-观察范式,模拟人在网页中点击按钮跳转页面的过程;裁判代理则负责存储搜索过程中的信息,在探测代理点击的过程中,保存对查询有帮助的信息,并判断何时能够停止探测代理的探索。

实验

  • Table3 展示了不同模型作为backbone,WebWalkerQA使用不同方法的代理性能结果。






请到「今天看啥」查看全文