检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明,WebWalkerQA具有挑战性,证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。
论文
: https://arxiv.org/pdf/2501.07572
主页
: https://alibaba-nlp.github.io/WebWalker
代码
: https://github.com/Alibaba-nlp/WebWalker
ModelScope-Demo
: https://www.modelscope.cn/studios/iic/WebWalker
Huggingface-Demo
: https://huggingface.co/spaces/callanwu/WebWalker
作者
:
Wzl
编辑
:
深度学习自然语言处理
动机
大型语言模型(LLM)通常处于知识固定状态(无法实时更新)。尽管使用检索增强生成(RAG)可以获取最新信息,但传统搜索引擎(如谷歌、百度等)的横向搜索方式限制了对信息的深层挖掘能力,无法像人类一样通过逐步点击等操作获取更多细节,从而更“聪明”地获取所需信息。因此,作者提出了一个新任务——Web Traversal,旨在给定与查询相关的初始网站,系统地遍历网页以揭露隐藏在其中的信息。
WebWalkerQA和WebWalker
-
[Dataset] WebWalkerQA
:根据网站的URL树,通过四个阶段,构建单源/多源的easy、medium、hard难度的QA对,涵盖四种常见官网来源及中英两种语言。
-
[Method] WebWalker
:采用多代理框架,由一个探测代理(explorer agent)和一个裁判代理(critic agent)组成。探测代理基于ReAct,遵循思考-行动-观察范式,模拟人在网页中点击按钮跳转页面的过程;裁判代理则负责存储搜索过程中的信息,在探测代理点击的过程中,保存对查询有帮助的信息,并判断何时能够停止探测代理的探索。
实验
-
Table3
展示了不同模型作为backbone,WebWalkerQA使用不同方法的代理性能结果。