1.
【PDF】《数智知识地图3.0》(2500个知识点)
2.
【电子书】ChatBI/RAG/Agent落地案例(30篇+)
3.
【PDF】5个技术成熟度曲线,治理/指标/湖仓/AB/风控
本文是数据智能知识地图3.0发布会圆桌讨论记录,主题为如何提升大模型效果,以及幻觉控制的方式,包括但不限于RAG、Agent planning 、多模态、微调PPO 与 DPO等话题,并探讨了 deep seek在降低成本基础上实现更好效果的方法,强调了多模态、训练手段、工程优化和数据处理等可借鉴的点,最后,展望了未来大模型的发展趋势,包括多模态、垂直领域大模型及基模与场景结合的优化方向。
本圆桌的参与老师有:滴普模型工程部经理黄荣平、爱可生的 Chat DBA研发负责人李剑楠、蚂蚁数科NLP算法负责人齐翔、知乎智能算法部负责人张亚峰。
黄荣平:
我讲三个案例。第一个是制造行业的案例,我们结合训练行业模型,打造了一个AI辅助工程设计的知识问答系统,融合LLM和RAG进行联合微调。这个系统为企业提供了AI搜索能力,极大提升了工程设计领域信息检索的速度和精度,有效辅助了工程设计。
第二个案例是医疗领域的实践。我们通过微调大模型,为患者提供AI智能指引,辅助患者,同时也帮助医生收集诊断单信息。
第三个案例在零售行业,我们参考覆盖多品类上万家店铺多年的历史数据报表,助力企业开展私有化大模型的训练与应用。现在能在十秒内为任意一家零售店铺生成数据分析与评估报告。以上就是我们过去一年在制造业、医疗和零售这三个领域所做的工作。
主持人李剑楠:
荣平老师在多个场景做了微调、RAG等尝试。在不同场景做微调,有什么差异吗?
黄荣平:
差异肯定是有的。首先,客户需求不一样。做落地场景时,训练方向要结合用户需求。比如在制造、建筑行业,更多是知识问答场景;医疗领域面对患者,涉及科室治疗等场景。不同领域客户需求不同,微调方向和数据整理也就不一样。简单说,根据不同场景需求,微调或做RAG的任务目标不同,方法自然也会有差异。
主持人李剑楠:
好的,下面请齐翔老师分享下蚂蚁数科在大模型效果提升方面的工作。
齐翔:
好的。大家知道蚂蚁数科主要面向的也是比较严肃的to B场景。从售前咨询到售后客服,再到中间的产品使用助手,整个阶段都有AI嵌入,为我们的SaaS产品赋能。同时,一些交付型项目以及KA客户也会用到相关技术。
我们关注的方向,一个是RAG(检索增强生成),一个是工具使用(Tool Using)。在过去一年to B的探索中,我们在这两个方向上有一些不同的价值选择。
先说RAG,我们特别关注知识工程。现在有很多高级检索策略,比如分级、分段检索,构建从小到大各种结构的高级检索方式。但检索和回答策略过于复杂,会导致线上响应时间变长,延迟增加,而且回答结果不一定好。因为线上受时间限制,很多复杂模型用不了。
所以我们的思路是把大量复杂工作前置到离线阶段,也就是知识消化阶段。在离线阶段,你可以随意调整大模型,进行知识工程处理,将原始文档输入,经过解析、摘要、过滤等步骤,最后甚至可以生成常见问题解答(FAQ)。这个过程虽然耗时,但属于t + 1模式,不影响线上实时性。线上检索阶段就可以做得比较简单,只要能命中FAQ就能得到较好结论。
这里又引出一个问题,即便知识库中有相关知识,大模型检索到后,也不一定会遵循。这是我们今年团队和中科大合作的一篇论文研究的课题。我们希望大模型能“遗忘”自身参数知识,尽量遵循检索到的FAQ中的知识,这个可以通过强化学习的对齐方式来实现。如果后面讨论,我们可以再展开。
在实际to B商业应用中,RAG还有很多产品化设计,比如答案展示、引用溯源等。这方面真的是要做到精益求精。
再说说Tool Using,这个其实比RAG更难。因为经常会有多步的工具使用需求,需要现场推理。我们最早和大家一样,采用ReAct方式,但发现效果不好,模型经常来回抖动,很久出不了结果。后来逐步发展到静态的Plan-and-Hold方式,再到现在Plan-and-Hold和ReAct相结合,这大概是目前的范式。
和RAG类似,Tool Using也可以通过知识工程增强。我们可以在离线的playground里,采用t + 1模式,让大模型尝试调用API,如果能解决某个问题,就把问题和API调用链路总结记录下来。线上遇到类似问题时,就能快速判断意图。
总之,不管是RAG还是Tool Using,我们的总体思路是把复杂难做的事情往线下移,线上只做遵循规则的简单操作。
最后还有很重要的一点,场景评测。在严肃的交付场景中,模型能跑通可不行,得有评测指标来引导优化。大家都说大模型时代,一周出个演示版本(demo)很简单,但半年都用不好也很正常,评测就是指导优化的关键要素。
目前比较成熟的评测主要集中在RAG领域,用CFQA生成数据,再用RAG - AS打分。我们把这种评测扩展到不仅是RAG,Tool Using以及下游BI(商业智能)等场景,都能进行场景化的自动化评测。并且除了评测数据集指标外,还加了一个归因模块,以便在严肃商业场景中逐步优化各个环节。
这就是我们团队过去一段时间在大模型效果提升方面的工作总结,知识工程很重要,把复杂工作前置,线上推理系统注重遵循性。
主持人李剑楠:
我发现这和我们2024年在 ChatDBA工作过程中的一些经验很相似。我们在ChatDBA第一阶段也是遵循比较原始的RAG方式开发,结果发现线上检索如果设计复杂流程,确实很耗时。所以我们也会提前对知识库,也就是数据库的故障诊断工单,进行知识工程处理,把它们整理成标准格式化的格式,这样在线上就能通过简单流程快速命中想要召回的工单。思路大致是类似的。