专栏名称: 观星老道伽利略
观星夜,知天下大势
目录
相关文章推荐
数据中心运维管理  ·  探索数据中心的多模光纤距离限制 ·  4 天前  
数据中心运维管理  ·  DeepSeek加速大马数据中心发展 ·  3 天前  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
太格有物  ·  品牌故事|茶酔:推广清醒好奇文化 ... ·  4 天前  
数据分析与开发  ·  为 DeepSeek 辟谣:五大误解与真相解读 ·  4 天前  
51好读  ›  专栏  ›  观星老道伽利略

马斯克质疑deepseek是抄的

观星老道伽利略  · 公众号  ·  · 2025-01-30 06:50

正文

关于deepseek被各种质疑的问题我已经借着前段时间深夜局交流市场态势的时候借着对的deepseek提问进行答疑并展开说了说看法,回味: 1月24号市场交流深夜局


今天再转一段:


#马斯克质疑DeepSeek低成本训练#

成本之外,白宫官员还暗示deepseek是chatgpt蒸馏来的


这种谣言攻击很毒,一般人不懂什么是distillation蒸馏。懂技术的很容易明白,为什么deepseek是原始创新。本来就是美国搞大模型研发的圈里人先开始惊叹的,之后才破圈的。


蒸馏,是说有个参数多能力高的“教师模型”,再有个原本参数少能力弱的“学生模型”,还有训练数据。如果直接对训练数据(有已经打好的真实标签)训练学生模型,效果不好,因为学不到精髓,样本表现好不代表实际使用好 。


这时,教师模型对这些样本跑的结果,能更好引导学生模型的训练。例如“软标签”,真实打标是(0,1,0)代表第二个结果对,第一第三不对。但是跑教师模型的输出是(0.2,0.7,0.3),这样还能判断是第二个对,但区别没那么硬,软化区别,反而训练表现更好。训练时,学生模型同时考虑软硬两套标签,能学会教师模型的能力,只损失一点,参数规模却少的多,有利于工业部署。


deepseek公布的论文里,r1是教师模型6700亿个参数,QWEN和LLama不同版本是六个学生模型,参数少15亿个到700亿个。训练样本是用r1精心选择的80万个。这样蒸馏后,六个学生模型的数学、编程、逻辑推理能力大幅提升。但是学生模型不可能能力超过教师模型,会差一些。







请到「今天看啥」查看全文