专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
宝玉xp  ·  看到这个帖子:“让DeepSeek修改一篇论 ... ·  5 小时前  
爱可可-爱生活  ·  【DeepSeek-R1图解:深度解析Dee ... ·  2 天前  
爱可可-爱生活  ·  deepseek R1 使用的 GRPO ... ·  3 天前  
爱可可-爱生活  ·  【[27星]wadler_lindig:一个 ... ·  3 天前  
爱可可-爱生活  ·  【[147星]NexusTrader:专业级 ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

回复@阴阳怪气奇:出一个错题这个例子不错👍//@阴阳怪气奇:回-20250128124914

宝玉xp  · 微博  · AI  · 2025-01-28 12:49

正文

2025-01-28 12:49

回复@阴阳怪气奇:出一个错题这个例子不错👍//@阴阳怪气奇:回复@凯文-许:非常简单 你出一个错题 比喻一元三次方程求根公式 他在尝试求解无果之后会返回去怀疑题目是不是有问题 这点太牛逼了
转:deepseek 能力解读 by JundeWu

deepseek在英文圈已经被吹上天了,发现中文圈还有很多非AI业内人士,对deepseek的能力没有一个清晰的认识,所以用中文发一条,先说结论,我认为行业贡献而言:GPT>deepseek>gemini>llama及其他

很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型,但这是结果,更重要的他能做到这一点的技术:

deepseek这次最亮眼的是证明了纯粹的outcome reward RL能够直接把模型提到o1水平,在他出来之前,业内所有人(包括deepmind)都认为需要prm (process reward model)才能做到这点,这就已经是颠覆行业的发现了,现在所有除gpt外的llm大组,都在推倒重来,copying他们的训练方法

另外非常重要的是deepseek还发现了这种训练方式甚至能够让模型自己学会longer-chain reasoning以及reflection,他们所谓“aha moment”。相当于只训练llm得到更准确的结果,llm就能自己学会反思,思考到一半知道自己这样做下去会错,然后尝试自己纠错,这种模型“自我进化”的特性是业内仅次于GPT intelligence emergence的重大发现

就结果而言,“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单,更是一种improvement of scaling law,意味着这种方法往上堆更多的卡有可能把模型能力再往上提升一个数量级,甚至直接达到AGI/ASI

这就是为什么这次业内这么hyper,deepseek开源的价值远大于llama,llama基本是大家已知的方法堆卡训练,deepseek带来太多的惊喜

来源:x.com/JundeMorsenWu/status/1883306180287836491