第十一届GACA(金口奖)获奖名单公布,FGIS启动中
1、DeepSeek 模 型 DeepSeek R1:
论文技术报告写得好,发布时包含R1和 R2 两个模型,两者使用技术不同。
R1 未 用SFT ( 微 调 ) , 用posttraining(后续训练)的强化学习能力,效果不太好;R2 用 了 SFT, 效果更好。
在一些逻辑推理题和代码生成的评测中,DeepSeek R1与 OpenAI 的 GPT 相比,分数差距较 大,原因是模型处理能力不同,R1 注重逻辑推理。
DeepSeek R1的训练采用基于强化学习的post training模型,主要用到GPO 算法,该算法是 在设计 DeepSeek Math 模型时的新算法,但真正的核心可能是强化学习训出的自博弈或自成 长模型的效果。
强化学习中奖励模型的设计很重要,其决定了模型的学习方向,这里面讲了如何设计奖励来 引导模型。
随着训练时间和迭代时间的增加,DeepSeek R1的精度会提高,能够实现自学习,但存在中英文混淆回答和推理时停不下来等问题。
被认为是降低算力的重要模型,V3模型发布后,英伟达股价下跌。
V3 模型被认为是最好的大模型,后发布的2.5max 模型比V3 略好,但差距不大。
V3 的训练分为三阶段:高质量训练,数据越多越好;逐步扩展序列长度;进行SFT 和知识 蒸馏的后训练。
V3在工程上有很大改变,算法上采用无辅助损失的均衡负载策略 (MOE 架构),使专家之 间的路由更稳定,减少 Loss抖动和训练回滚,模型参数量变大,激活也增多。
采用多方位联合提升训练,使用英伟达未开源的分布式训练框架,业界大多用英伟达提供的 Megatron 分布式框架进行魔改。
首次用FP8 混合精度进行训练,证明了FP8 能 够work, 提升了训练效率,业界首创。
推理方面,以前大模型推理在单机或经过量化后在一个节点进行,现在V3 用白卡进行部署, 采用GPU 分离,32卡全量推理,320卡做增量推理,以实现极致的吞吐量,虽推理成本高, 但能容纳更多用户访问,降低价格。
V3 训练先做预训练,再扩展长度,最后进行后训练,后训练方式包括监督微调、强化学习、 蒸馏等,通过多步训练使RE 效果更好,还进行了集群训练的并行策略配置和工程优化,提高了模型训练速度。
推理成本方面,V3采用算法与工程结合的方式,根据模型的专家数量确定所需卡的数量, 并非越多越好,否则会增加并行成本,导致推理变慢,存在一个瓶颈,超过该瓶颈后增加卡 数无意义。
用 reasoning的模型进行蒸馏,即DeepSeek RE蒸馏,能够明显提升模型效果,小模型在接 受新知识和新数据方面可能得到提升。
以前的蒸馏技术未用到reasoning模型,而DeepSeekRE证明了这一新技术路线,OpenAI 或 其他机构可能会借鉴这一方案,使小模型的能力得到提升。
3、强化学习在大语言模型中的应用 强化学习应用于大语言模型的问题:
业界曾尝试用强化学习加大模型的方式,受AlphaGo 启发,使用蒙特卡罗搜索树,但难以得 到收敛结果,业界在这一错误路线上进行了大量探索。
01的成功表明强化学习加到大语言模型的训练中是可行的,关键在于掌握训练的能力和技
巧,包括调参等,强化学习的训练难度大,容易不收敛或发散。
强化学习应用于大语言模型的优势:
强化学习应用于大语言模型最重要的是让模型具备自我推理的能力,而SFT做不到长文本的 自我演绎和自问自答。
强化学习针对Al for science或有明确垂直场景的客户群体,如OpenAI 的0系列在逻辑推理 方面的应用,而对于创作性或普通问答的客户群体,可能不是RL的路线。
DeepSeek V3采 用MOE(Mixture of Experts) 技术路线,而LLaMA坚定走稠密路线,业界大 多参考LLaMA 的稠密路线,只有幻方走稀疏路线。
未来哪种技术路线是主流尚不明确,可能两种路线长期并存,取决于开源模型的效果和业界 的选择,数据、算力和研发层面的工程能力是影响模型效果的重要因素。
目前对实现模型泛化的技术路线不清楚,存在很多偶然性。
GPT系列在post-training scaling中不断发展,但retraining 的 scaling开 始 放 缓 ,post-training
消耗大量算力,其与 training 消耗资源的量化比较较难。
COT(思维链)的研究存在很多不确定性,包括其数据准备、长短控制、思考层数等,业界 正在对COT 的相关问题进行研究。
DeepSeekV3的训练成本仅计算了正儿八经训练模型的部分,其试错、数据准备等沉没成本 未算,且后训练部分的算力使用情况不确定,但总体比预训练少。
国内可能会参考DeepSeek 的方案来降低训练模型的成本,但国外技术自主路线较强,可能 不太会完全照搬。
DeepSeek v3通过工程和算法的双向优化来摊薄成本,若业界往此方向发展,可能会降低成 本,但具体情况需看工程优化情况。
DeepSeek 的推理成本下降,是通过采用Mixture of Experts架构,结合算法和工程优化,增 大吞吐,以降低 token 数和实验时间,从而降低价格,但推理成本是否绝对下降需看并发量 和吞吐量。
对于MOE 架构,其是否成为推理模型的主流架构取决于推理场景,在云端有大量用户访问 请求的前提下,MOE 架构能提高性价比,但在追求极致时延的场景,如板载卡或推理卡上, 稠密模型更适合。
目前推理端有从使用A100、A40 等转向使用H800、H100 等做推理的趋势,短时间内推理端 的算力需求可能会有所下降。
7、强化学习的技术细节 RL的 PPO 逻辑和优化点:
actor 生成数据和分布,critics 通 过reference model约束并更新 critics model,world model 评判actor model的输出,整体有四个模型,现在通过将两个模型变为一个函数,减少了一
个完全相同参数的模型,使训练更易且稳定。奖励模型的实现难度与挑战:
实现格式奖励的难度不大,但确定每个奖励对模型的作用和影响,以及针对不同垂直场景和 通用场景的奖励配比,需要大量调参技巧,尝试难度较大。
V3模型算力节约的环节:dual pipeline的设计实现了双流并行,使计算和通讯几乎全面掩盖,是一个重要创新点。FP8的成功实践是首次混合精度的新尝试,对降低算力有重要意义。
并行策略中TP 等 于 1 ,EP 等于6,是以前未尝试过的,极大降低了模型的算力资源消耗。