专栏名称: 游理游据研究院
分享游戏行业实用资料,追踪行业前沿研究信息,促进行业可持续发展。 Research Institute of the Origin of Game Theory
目录
相关文章推荐
高校人才网V  ·  事业编制!高层次人才,湘潭大学等你来! ·  昨天  
高校人才网V  ·  青岛黄海学院2025年博士招聘公告 ·  3 天前  
高校人才网V  ·  西南财经大学天府学院2025年人才引进公告 ·  4 天前  
51好读  ›  专栏  ›  游理游据研究院

AI专家解读Deepseek

游理游据研究院  · 公众号  ·  · 2025-02-04 09:00

正文

第十一届GACA(金口奖)获奖名单公布,FGIS启动中

会议要点
1、DeepSeek 模 型 DeepSeek R1:
论文技术报告写得好,发布时包含R1和 R2 两个模型,两者使用技术不同。
R1 未 用SFT ( 微 调 ) , 用posttraining(后续训练)的强化学习能力,效果不太好;R2 用 了 SFT, 效果更好。
在一些逻辑推理题和代码生成的评测中,DeepSeek R1与 OpenAI 的 GPT 相比,分数差距较 大,原因是模型处理能力不同,R1 注重逻辑推理。
DeepSeek R1的训练采用基于强化学习的post training模型,主要用到GPO 算法,该算法是 在设计 DeepSeek Math 模型时的新算法,但真正的核心可能是强化学习训出的自博弈或自成 长模型的效果。
强化学习中奖励模型的设计很重要,其决定了模型的学习方向,这里面讲了如何设计奖励来 引导模型。
随着训练时间和迭代时间的增加,DeepSeek R1的精度会提高,能够实现自学习,但存在中英文混淆回答和推理时停不下来等问题。
DeepSeekV3:
被认为是降低算力的重要模型,V3模型发布后,英伟达股价下跌。
V3 模型被认为是最好的大模型,后发布的2.5max 模型比V3 略好,但差距不大。
V3 的训练分为三阶段:高质量训练,数据越多越好;逐步扩展序列长度;进行SFT 和知识 蒸馏的后训练。
V3在工程上有很大改变,算法上采用无辅助损失的均衡负载策略 (MOE 架构),使专家之 间的路由更稳定,减少 Loss抖动和训练回滚,模型参数量变大,激活也增多。
采用多方位联合提升训练,使用英伟达未开源的分布式训练框架,业界大多用英伟达提供的 Megatron 分布式框架进行魔改。
首次用FP8 混合精度进行训练,证明了FP8 能 够work, 提升了训练效率,业界首创。
推理方面,以前大模型推理在单机或经过量化后在一个节点进行,现在V3 用白卡进行部署, 采用GPU 分离,32卡全量推理,320卡做增量推理,以实现极致的吞吐量,虽推理成本高, 但能容纳更多用户访问,降低价格。
V3 训练先做预训练,再扩展长度,最后进行后训练,后训练方式包括监督微调、强化学习、 蒸馏等,通过多步训练使RE 效果更好,还进行了集群训练的并行策略配置和工程优化,提高了模型训练速度。
推理成本方面,V3采用算法与工程结合的方式,根据模型的专家数量确定所需卡的数量, 并非越多越好,否则会增加并行成本,导致推理变慢,存在一个瓶颈,超过该瓶颈后增加卡 数无意义。
2、模型蒸馏
DeepSeek 模型的蒸馏:
用 reasoning的模型进行蒸馏,即DeepSeek RE蒸馏,能够明显提升模型效果,小模型在接 受新知识和新数据方面可能得到提升。
以前的蒸馏技术未用到reasoning模型,而DeepSeekRE证明了这一新技术路线,OpenAI 或 其他机构可能会借鉴这一方案,使小模型的能力得到提升。
3、强化学习在大语言模型中的应用 强化学习应用于大语言模型的问题:
业界曾尝试用强化学习加大模型的方式,受AlphaGo 启发,使用蒙特卡罗搜索树,但难以得 到收敛结果,业界在这一错误路线上进行了大量探索。
01的成功表明强化学习加到大语言模型的训练中是可行的,关键在于掌握训练的能力和技 巧,包括调参等,强化学习的训练难度大,容易不收敛或发散。 强化学习应用于大语言模型的优势:
强化学习应用于大语言模型最重要的是让模型具备自我推理的能力,而SFT做不到长文本的 自我演绎和自问自答。
强化学习针对Al for science或有明确垂直场景的客户群体,如OpenAI 的0系列在逻辑推理 方面的应用,而对于创作性或普通问答的客户群体,可能不是RL的路线。
4、模型结构与技术路线 未来技术路线的探讨:
DeepSeek V3采 用MOE(Mixture of Experts) 技术路线,而LLaMA坚定走稠密路线,业界大 多参考LLaMA 的稠密路线,只有幻方走稀疏路线。
未来哪种技术路线是主流尚不明确,可能两种路线长期并存,取决于开源模型的效果和业界 的选择,数据、算力和研发层面的工程能力是影响模型效果的重要因素。
5、模型的泛化能力
目前对实现模型泛化的技术路线不清楚,存在很多偶然性。
GPT系列在post-training scaling中不断发展,但retraining 的 scaling开 始 放 缓 ,post-training
消耗大量算力,其与 training 消耗资源的量化比较较难。
COT(思维链)的研究存在很多不确定性,包括其数据准备、长短控制、思考层数等,业界 正在对COT 的相关问题进行研究。
6、模型的成本与应用 模型成本与训练方式:
DeepSeekV3的训练成本仅计算了正儿八经训练模型的部分,其试错、数据准备等沉没成本 未算,且后训练部分的算力使用情况不确定,但总体比预训练少。
国内可能会参考DeepSeek 的方案来降低训练模型的成本,但国外技术自主路线较强,可能 不太会完全照搬。
DeepSeek v3通过工程和算法的双向优化来摊薄成本,若业界往此方向发展,可能会降低成 本,但具体情况需看工程优化情况。
模型的推理成本与应用场景:
DeepSeek 的推理成本下降,是通过采用Mixture of Experts架构,结合算法和工程优化,增 大吞吐,以降低 token 数和实验时间,从而降低价格,但推理成本是否绝对下降需看并发量 和吞吐量。
对于MOE 架构,其是否成为推理模型的主流架构取决于推理场景,在云端有大量用户访问 请求的前提下,MOE 架构能提高性价比,但在追求极致时延的场景,如板载卡或推理卡上, 稠密模型更适合。
目前推理端有从使用A100、A40 等转向使用H800、H100 等做推理的趋势,短时间内推理端 的算力需求可能会有所下降。
7、强化学习的技术细节 RL的 PPO 逻辑和优化点:
PPO算法复杂,涉及多个模型的逻辑调度。
actor 生成数据和分布,critics 通 过reference model约束并更新 critics model,world model 评判actor model的输出,整体有四个模型,现在通过将两个模型变为一个函数,减少了一
个完全相同参数的模型,使训练更易且稳定。奖励模型的实现难度与挑战:
实现格式奖励的难度不大,但确定每个奖励对模型的作用和影响,以及针对不同垂直场景和 通用场景的奖励配比,需要大量调参技巧,尝试难度较大。
V3模型算力节约的环节:dual pipeline的设计实现了双流并行,使计算和通讯几乎全面掩盖,是一个重要创新点。FP8的成功实践是首次混合精度的新尝试,对降低算力有重要意义。
并行策略中TP 等 于 1 ,EP 等于6,是以前未尝试过的,极大降低了模型的算力资源消耗。
更多QA可联系 小助手 yxrb2024






请到「今天看啥」查看全文