RAG与Tool Using的深度解析

DataFunTalk · 公众号 · · 2025-02-11 13:00

正文

超大开工加油包，祝您🐍年巳巳如意！

1. 【PDF】《数智知识地图3.0》（2500个知识点）

2. 【电子书】ChatBI/RAG/Agent落地案例（30篇+）

3. 【PDF】5个技术成熟度曲线，治理/指标/湖仓/AB/风控

扫码下载知识地图

本文是数据智能知识地图3.0发布会圆桌讨论记录，主题为如何提升大模型效果，以及幻觉控制的方式，包括但不限于RAG、Agent planning 、多模态、微调PPO 与 DPO等话题，并探讨了 deep seek在降低成本基础上实现更好效果的方法，强调了多模态、训练手段、工程优化和数据处理等可借鉴的点，最后，展望了未来大模型的发展趋势，包括多模态、垂直领域大模型及基模与场景结合的优化方向。

本圆桌的参与老师有：滴普模型工程部经理黄荣平、爱可生的 Chat DBA研发负责人李剑楠、蚂蚁数科NLP算法负责人齐翔、知乎智能算法部负责人张亚峰。

请滴普、蚂蚁数科、爱可生、知乎分享过去一年在大模型效果提升方面的工作。

黄荣平： 我讲三个案例。第一个是制造行业的案例，我们结合训练行业模型，打造了一个AI辅助工程设计的知识问答系统，融合LLM和RAG进行联合微调。这个系统为企业提供了AI搜索能力，极大提升了工程设计领域信息检索的速度和精度，有效辅助了工程设计。

第二个案例是医疗领域的实践。我们通过微调大模型，为患者提供AI智能指引，辅助患者，同时也帮助医生收集诊断单信息。

第三个案例在零售行业，我们参考覆盖多品类上万家店铺多年的历史数据报表，助力企业开展私有化大模型的训练与应用。现在能在十秒内为任意一家零售店铺生成数据分析与评估报告。以上就是我们过去一年在制造业、医疗和零售这三个领域所做的工作。

主持人李剑楠： 荣平老师在多个场景做了微调、RAG等尝试。在不同场景做微调，有什么差异吗？

黄荣平： 差异肯定是有的。首先，客户需求不一样。做落地场景时，训练方向要结合用户需求。比如在制造、建筑行业，更多是知识问答场景；医疗领域面对患者，涉及科室治疗等场景。不同领域客户需求不同，微调方向和数据整理也就不一样。简单说，根据不同场景需求，微调或做RAG的任务目标不同，方法自然也会有差异。

主持人李剑楠： 好的，下面请齐翔老师分享下蚂蚁数科在大模型效果提升方面的工作。

齐翔： 好的。大家知道蚂蚁数科主要面向的也是比较严肃的to B场景。从售前咨询到售后客服，再到中间的产品使用助手，整个阶段都有AI嵌入，为我们的SaaS产品赋能。同时，一些交付型项目以及KA客户也会用到相关技术。

我们关注的方向，一个是RAG（检索增强生成），一个是工具使用（Tool Using）。在过去一年to B的探索中，我们在这两个方向上有一些不同的价值选择。

先说RAG，我们特别关注知识工程。现在有很多高级检索策略，比如分级、分段检索，构建从小到大各种结构的高级检索方式。但检索和回答策略过于复杂，会导致线上响应时间变长，延迟增加，而且回答结果不一定好。因为线上受时间限制，很多复杂模型用不了。

所以我们的思路是把大量复杂工作前置到离线阶段，也就是知识消化阶段。在离线阶段，你可以随意调整大模型，进行知识工程处理，将原始文档输入，经过解析、摘要、过滤等步骤，最后甚至可以生成常见问题解答（FAQ）。这个过程虽然耗时，但属于t + 1模式，不影响线上实时性。线上检索阶段就可以做得比较简单，只要能命中FAQ就能得到较好结论。

这里又引出一个问题，即便知识库中有相关知识，大模型检索到后，也不一定会遵循。这是我们今年团队和中科大合作的一篇论文研究的课题。我们希望大模型能“遗忘”自身参数知识，尽量遵循检索到的FAQ中的知识，这个可以通过强化学习的对齐方式来实现。如果后面讨论，我们可以再展开。

在实际to B商业应用中，RAG还有很多产品化设计，比如答案展示、引用溯源等。这方面真的是要做到精益求精。

再说说Tool Using，这个其实比RAG更难。因为经常会有多步的工具使用需求，需要现场推理。我们最早和大家一样，采用ReAct方式，但发现效果不好，模型经常来回抖动，很久出不了结果。后来逐步发展到静态的Plan-and-Hold方式，再到现在Plan-and-Hold和ReAct相结合，这大概是目前的范式。

和RAG类似，Tool Using也可以通过知识工程增强。我们可以在离线的playground里，采用t + 1模式，让大模型尝试调用API，如果能解决某个问题，就把问题和API调用链路总结记录下来。线上遇到类似问题时，就能快速判断意图。

总之，不管是RAG还是Tool Using，我们的总体思路是把复杂难做的事情往线下移，线上只做遵循规则的简单操作。

最后还有很重要的一点，场景评测。在严肃的交付场景中，模型能跑通可不行，得有评测指标来引导优化。大家都说大模型时代，一周出个演示版本（demo）很简单，但半年都用不好也很正常，评测就是指导优化的关键要素。

目前比较成熟的评测主要集中在RAG领域，用CFQA生成数据，再用RAG - AS打分。我们把这种评测扩展到不仅是RAG，Tool Using以及下游BI（商业智能）等场景，都能进行场景化的自动化评测。并且除了评测数据集指标外，还加了一个归因模块，以便在严肃商业场景中逐步优化各个环节。

这就是我们团队过去一段时间在大模型效果提升方面的工作总结，知识工程很重要，把复杂工作前置，线上推理系统注重遵循性。

主持人李剑楠： 我发现这和我们2024年在 ChatDBA工作过程中的一些经验很相似。我们在ChatDBA第一阶段也是遵循比较原始的RAG方式开发，结果发现线上检索如果设计复杂流程，确实很耗时。所以我们也会提前对知识库，也就是数据库的故障诊断工单，进行知识工程处理，把它们整理成标准格式化的格式，这样在线上就能通过简单流程快速命中想要召回的工单。思路大致是类似的。

RAG与Tool Using的深度解析

正文

请到「今天看啥」查看全文