专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

通义WebWalker: 大模型乘风破浪，探索网页深海

深度学习自然语言处理 · 公众号 · · 2025-01-20 16:27

正文

检索增强生成（RAG）在开放域问答任务中表现出色。然而，传统搜索引擎可能会检索浅层内容，限制了大型语言模型（LLM）处理复杂、多层次信息的能力。为了解决这个问题，我们引入了WebWalkerQA，一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker，一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明，WebWalkerQA具有挑战性，证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。

论文 : https://arxiv.org/pdf/2501.07572
主页 : https://alibaba-nlp.github.io/WebWalker
代码 : https://github.com/Alibaba-nlp/WebWalker
ModelScope-Demo : https://www.modelscope.cn/studios/iic/WebWalker
Huggingface-Demo : https://huggingface.co/spaces/callanwu/WebWalker

作者： Wzl
编辑：深度学习自然语言处理

动机

大型语言模型（LLM）通常处于知识固定状态（无法实时更新）。尽管使用检索增强生成（RAG）可以获取最新信息，但传统搜索引擎（如谷歌、百度等）的横向搜索方式限制了对信息的深层挖掘能力，无法像人类一样通过逐步点击等操作获取更多细节，从而更“聪明”地获取所需信息。因此，作者提出了一个新任务——Web Traversal，旨在给定与查询相关的初始网站，系统地遍历网页以揭露隐藏在其中的信息。

WebWalkerQA和WebWalker

[Dataset] WebWalkerQA ：根据网站的URL树，通过四个阶段，构建单源/多源的easy、medium、hard难度的QA对，涵盖四种常见官网来源及中英两种语言。
[Method] WebWalker ：采用多代理框架，由一个探测代理（explorer agent）和一个裁判代理（critic agent）组成。探测代理基于ReAct，遵循思考-行动-观察范式，模拟人在网页中点击按钮跳转页面的过程；裁判代理则负责存储搜索过程中的信息，在探测代理点击的过程中，保存对查询有帮助的信息，并判断何时能够停止探测代理的探索。