1.
【PDF】《数智知识地图3.0》(2500个知识点)
2.
【电子书】ChatBI/RAG/Agent落地案例(30篇+)
3.
【PDF】5个技术成熟度曲线,治理/指标/湖仓/AB/风控
齐翔:
RAG提供了上限
,能捡回正确知识,比如解决大模型因训练时间导致的信息过时问题。去年我们探索如何触摸这个上限,起初在prompt写指令包装召回信息,但模型较小时,准确性不一定高。后来我们针对性地调整回答模型,让它更遵循召回知识,通过强化学习对齐实现。
具体做法是从真实召回知识样本和大模型回答中抠出实体等关键要素,对齐就加分,不对齐但符合模型原生知识就扣分。这种策略效果提升显著,尤其对小模型。
但这依赖检索能精确命中期望文档。
黄荣平:
模型参数量小时,自身知识和检索文档有矛盾。开始用RAFT算法,能提升模型过滤和筛选信息能力,但预训练知识上限有限。后来用72b大模型,自身能力不错,再用数据微调效果可以。另外,
企业通告等文档有时效性,新文档更新后旧文档作废,这种场景更能体现rag有效性。
张亚峰:
RAG本身不能降低幻觉,关键是提前召回数据集质量。
若数据集靠谱,效果才靠谱。做好RAG的pipeline很重要,数据是基础,包括数据源质量、搜索基本功、AIGC含量等。如果能选高质量基础模型,就不用在后面费力调整,实在不行就在数据源和召回上下功夫。
主持人李剑楠:
在RAG 场景下,通过NER 形式提取实体等关键要素,对比模型回答与检索知识中的实体等要素,对得上加分,若回答与检索知识对不上但与自身原生知识对得上则扣分,鼓励模型使用检索知识。我们发现采用合理策略后,对小模型效果提升显著,大模型通过写 prompt 也能有较好表现。
黄荣平:
齐翔老师之前提到,小模型在自身知识与检索文档知识选择上存在矛盾。我们起初尝试 RAFT 算法,它能提升模型筛选信息能力,但预训练阶段知识上限有限。后续采用七十二 b 模型,用已有数据微调,效果不错。此外,强化微调也是平衡两者的好方式。同时,企业文档有时效性,这更体现了 RAG 的有效性。
张亚峰:
我重申之前观点,RAG 本身不能降低幻觉,关键在于提前召回数据集的质量。要做好 RAG 降低幻觉效果,整个 pipeline 很重要,数据是关键。调用普通搜索 API 数据可能有幻觉,应多花时间在数据源、召回及摄取上。若能选用性能强、数据质量高的基础模型更好,不行的话就从数据源和召回方面下功夫。
主持人李剑楠:
在训练过程中强化学习的强化微调是热门话题,想请大家分享在 PPO 和 DPO 等优化算法中如何选择、取舍及在生产环境中的使用。
黄荣平:
我们做 to b 领域,模型做完 SFT 后指令遵循能力和安全性会下降,此时强化微调适用。垂直领域数据量有限,采用 PPO 方式训练奖励模型成本高。所以我们将 SFT 后的模型在用户场景试运行,引导用户采集数据,联合用户和专家分析优化数据,采用 DPO 滚动训练方式,更贴合用户实际场景。
主持人李剑楠:
在 to b 垂直场景做强化学习的强化微调,如何定义数据集中的正例和负例?
黄荣平:
模型试运行时,收集超出自定义评估集范围、回答不好的数据,联合专家给出正确答案,滚动处理,无论前期建设还是后期客户运行都适用。
张亚峰:
实际上 DPO 和 PPO 都会用到,但场景不同。
多数简单应用场景倾向选 DPO
,它直接针对期望反应更新模型参数,更直接快速。PPO 泛化性能好,但训练成本高,模型可能为迎合奖励做奇怪动作导致性能下降。除非对适配性和鲁棒性要求极高的不可控场景,否则 DPO 成本更低。
主持人李剑楠:
在强化学习训练过程中,若模型过于贴合正例回答,甚至学错方向,关注语言风格等,各位老师有类似经验或小技巧分享吗?
张亚峰:
若只是对语言风格有要求,尝试做小样本 SFT,结合 prompt 工程和少量样本能较好迁移。
主持人李剑楠:
RAG 与图数据库结合的落地案例,落地过程中遇到什么困难及如何解决?以及向量检索和图检索哪个方式更好?
黄荣平:
基于向量检索是铺底,召回率高但简化东西较多,权威性稍弱。图检索适合做实体对实体、关键词对关键词、结构化数据互联关系等信息的召回,二者互为补充。向量检索有标准做法,图检索有多种方案,效果和表现各异,虽有效果提升但仍处于探索阶段,尤其在专业领域处理复杂关系时更有优势。
张亚峰:
图检索能有效处理多跳场景,但涉及数据处理成本问题,构造图的时间和成本较高,且需检查图中关系是否出错,应结合自身情况在向量检索和图检索间做取舍。
张亚峰:
上一段时间大家对 AI 搜索关注度高,基于 planning 和基于 COT 的方式处理复杂 query 成主流标配。要注意成本和性能平衡,还有用户体验平衡。理论上设计思维链越复杂,只要是有效计算对效果有提升,但要思考是否必要。可通过小模型预判复杂度,根据用户场景和成本耐受能力做决策,如知乎 AI 搜索就据此做了取舍。
齐翔:
此问题类似投控部的原教值问题 planning。目前解决方案有两个流派,一个是从 COT 到 TOT、GOT 等,不关注反馈,思考越来越长,给出启发式但差外部搜索;另一个如 react,尝试行动并根据反馈决定下一步。但两者都成本高,可考虑上缓存,离线阶段学习 SOP,线上阶段匹配意图目标直接召回 plan。另外,允许人工反馈,人机结合规划也是产品化方向。
黄荣平:
亚峰老师和齐翔老师从大视角和 c 端角度分析很全面,无非是成本和性能的权衡取舍。我们做 to b 尝试过离线 cache 方式解决检索耗时问题,采用多路召回方式解决实际问题,复杂场景结合知识图谱,哪个好用用哪个。
齐翔:
这是我未来一年着重研究领域,目前没什么可分享,但确实是重要热门问题。
张亚峰:
如果自己构建样本成本高或不愿意花太多成本,可以用好的模型造样本,让强模型输出长且标准准确的数据来训练自己的模型,这是大家普遍在用的方法。
主持人李剑楠:
DeepSeek V3 在基准测试表现好,价格仅为同类产品的 10%,掀起了行业风暴。请老师们讲讲对 DeepSeek V3 的看法。
黄荣平:
我认为 DeepSeek V3 是很好的创新。从几个角度看,一是它极致利用资源,采用多 orpipe 算法,减少资源损耗;二是模型架构采用 MOE 架构,训练成本比传统 transformer 架构低;三是采用 FP8 混合精度训练,代价较低。从数据收集到模型架构设计再到硬件利用,都是精心设计的成果。