专栏名称: 信号与噪声
财经观察官 互联网科技博主 应该是美股等海外投资信息最多的号了吧~当笔记本用的,看到有用的海外投资信息都往这里放~另,《信号与噪声》是一本很值得看的书啊~
目录
相关文章推荐
高分子科技  ·  浙大王征科课题组《Appl. Mater. ... ·  昨天  
艾邦高分子  ·  【邀请函】2025艾邦东南亚新材料论坛(4月 ... ·  昨天  
高分子科学前沿  ·  南方科技大学赵天寿院士、李一举等《Angew ... ·  昨天  
高分子科技  ·  清华大学杨忠强课题组 Matter ... ·  2 天前  
51好读  ›  专栏  ›  信号与噪声

#deepseek#在英文圈已经被吹上天了,发现中文圈还有很多非-20250126200936

信号与噪声  · 微博  ·  · 2025-01-26 20:09

正文

2025-01-26 20:09

#deepseek# 在英文圈已经被吹上天了,发现中文圈还有很多非AI业内人士,对deepseek的能力没有一个清晰的认识

先说结论,我认为行业贡献而言:GPT>deepseek>gemini>llama及其他

很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型,但这是结果,更重要的他能做到这一点的技术:

deepseek这次最亮眼的是证明了纯粹的outcome reward RL能够直接把模型提到o1水平,在他出来之前,业内所有人(包括deepmind)都认为需要prm (process reward model)才能做到这点,这就已经是颠覆行业的发现了,现在所有除gpt外的llm大组,都在推倒重来,copying他们的训练方法

另外非常重要的是deepseek还发现了这种训练方式甚至能够让模型自己学会longer-chain reasoning以及reflection,他们所谓“aha moment”。相当于只训练llm得到更准确的结果,llm就能自己学会反思,思考到一半知道自己这样做下去会错,然后尝试自己纠错,这种模型“自我进化”的特性是业内仅次于GPT intelligence emergence的重大发现

就结果而言,“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单,更是一种improvement of scaling law,意味着这种方法往上堆更多的卡有可能把模型能力再往上提升一个数量级,甚至直接达到AGI/ASI

这就是为什么这次业内这么hyper,deepseek开源的价值远大于llama,llama基本是大家已知的方法堆卡训练,deepseek带来太多的惊喜from群友






请到「今天看啥」查看全文