专栏名称: 大树乡谈
讲逻辑,说人话,有意思。让我们一起穿越时代迷雾、共同成长至少20年。
目录
相关文章推荐
杭州日报  ·  跌破-10℃!确认了:下午起,影响杭州!这波 ... ·  21 小时前  
FM93交通之声  ·  今晚,请务必早睡1小时! ·  昨天  
FM93交通之声  ·  刚刚预报:浙江这些地方要下雪! ·  4 天前  
杭州日报  ·  今晚起,睡觉务必调整一下! ·  5 天前  
51好读  ›  专栏  ›  大树乡谈

不吹捧,不贬低,不捧杀

大树乡谈  · 公众号  ·  · 2025-01-27 23:08

正文

明天除夕,可能要请假,那么今天就是龙年最后一篇,写一篇总结性质的文章。主要例子是为什么是DeepSeek实现了突破?

2024年中国科技井喷,这当然值得开心,但也出现了一些错误的认识,速胜论者从失败主义中走出来,又大谈起了速胜论,开始宣扬美国的崩溃、中国的超越,这不对。

小镇认为,要适应中美都是世界独一档大国的新常态,要有平常心,做到“三个不”。
不吹捧:不能吹捧美国,也不宜吹捧中国;

不贬低:不能贬低中国,也不宜贬低美国;

不捧杀:决不能捧杀中国的突破与成就。

接下来结合例子,展开谈谈这三点。

小镇在2024年写了不少与美国有关的事情,美国大选后一连写了14篇,断定特朗普上台后短期内顾不上针对中国,还分析拜登会针对特朗普制造很多麻烦等,基本都验证了,还差一篇中国如何应对的没写。

此外,还重点谈了美国金融至上导致的严重恶果,包括疯狂的AI炒作、巨头对中小创新企业的压制、美国制造业无法回归等等,还有一些贴近普通人生活的,如美国房地产的“郊区化”、高昂的固定基本生活成本等;2024年以前的也有不少,比如美国海军造舰能力是如何被私人化、金融化瓦解的,还有美国的盟友正在成为美国的负累等。

这些与美国有关的文章,小镇自认是站得住脚的,都有客观现实支撑,做出的预判也基本成真了。不过也因为批评美国多了,所以也经常有读者留言问小镇美国什么时候崩溃,有的还颇为恶意。

这就误解了。小镇之前谈加州大火,认为美国处于帝国末期,帝国末期与崩溃是两码事,具体参见《帝国末期,灾祸横行》,更何况美国现在只是处于衰落阶段,而不是崩溃,具体在《天灾会不会成为美国金融危机爆发的导火索?》专门阐述了区别。只是因为美国的辉煌与霸权建立在科技和军事的绝对实力基础上,现在与中国的距离越来越近,美国被祛魅了,就更容易发现金玉之下的不堪。

但美国仍然强大,自2008年以后,如果不计中国,美国的全球优势更大了。今天的美国仍然具有极强的基础创新能力,论科学和基础创新能力,美国整体上仍然领先我们,当然我们正在加速缩小差距,在技术和应用创新层面,中国已具有无可比拟的优势。

这个道理应该不必多解释。

就拿最近被广泛关注的DeepSeek-R1来说,小镇昨天也写了《美国试图在AI领域吃独食的图谋,破产了》,但注意,小镇并没有说自此之后中国就在AI领域超越美国了,吃独食的图谋破产跟超越是两个概念。

就像在半导体领域,打破美国封锁,并不需要我们在各个方面都达到世界最先进水平,只要我们能够突破技术难点,哪怕以更大的成本拿出来性能差一点的产品,那么国外掌握先进技术和产品的国家、企业,就会想办法突破美国的封锁,把东西卖给中国。目前阿斯麦正在努力斡旋,希望恢复对中国的正常出口。

但网上过于浮躁了。上个周末,小镇一打开短视频平台,铺天盖地出现的就是对DeepSeek-R1的吹捧,顺带是对美国OpenAI、硅谷大厂的嘲笑与贬低。的确,整个2024年美国各大企业并没有拿出来像样的新产品,OpenAI被卡住了,下一代模型原本预计2025年上半年能拿出来就不错;而2024年拿出来自家产品的也就是Google和Meta,但谷歌的东西还达不到中国大模型2023年的水平,而Meta空有庞大的算力矩阵,结果从发布Llama2之后,下一代也卡住了。

但不能因为美国各大AI团队被卡住了,就认为他们不行了,只能证明他们走的这条路,到了死胡同。

DeepSeek-R1并不是是猴子突然蹦出来的,就像2023年初引爆AI的ChatGPT也已经是3.0版本,只不过之前的突破并没有破圈而已。

DeepSeek在2023年11月就已经推出了第一代模型Coder,把大模型的价格打下来了;2024年5月推出第二代模型V2,将已经卷起来的国内大模型价格又打下来一大半;2024年12月的V3,一举逼近国际顶尖水平;再到2025年1月的R1,在各项性能上与OpenAI对齐,这才有了破圈之后,惊爆全网的声势。

但如果一直关注这些动态,就不会对2025年1月的“惊变”感到惊讶,也就不会对今天的科技股过于期待,早就是旧闻了。这也是为什么小镇在2023年初就一直说:中美AI之间不存在代差,最多两三年中国就能赶上来。

事实上,在ChatGPT3.0出现之前,在美国开始炒作AI故事之前,一提到AI,最常被提到是中国,不是美国,中国也是AI技术应用最广泛的国家。只不过那时候AI还不太被重视,尤其是大家还没有找到一条通往更先进AI的可行路径。

直到ChatGPT3.0推出,大家才发现,原来可以通过不断增加训练参数,获得更进一步的AI模型,而走这条路就需要不断堆叠算力,还要投入更多人力搞数据标记提供足够的训练数据。于是从GPT-3的1750亿个参数,GPT-4就到了1.8万亿个参数。

而之所以2024年美国各大AI团队被卡住了,就是因为GPT开创的不断增加训练参数的做法走到头了,所以全年经常看到各家出面谈可用数据枯竭。

小镇2023年初之所以判断中国AI大模型会很快赶上美国,并不是从技术或者从业者角度出发,当时月内人士反而悲观。小镇做出这一判断,就是从底层逻辑出发:一是边际递减,二是中国更擅长应用和工程创新

GPT堆叠算力、增加训练参数的做法,一定会到极限,这是最简单的边际递减理论,越接近极限,投入的成本越大、消耗的时间越多,而产出不断减少,就体现在后续更先进版本推出越来越慢;而当GPT探索出了堆训练量的成功做法之后,基本理论都是开放的,就算GPT不开源,对业内人士来说,也完全可以短时间内摸索出来。

这就像可控氢聚变,任何一个国家实现了商用化突破,其他国家距离突破也就不远了。因为在探索未知领域上,最重要的就是有人证明这条路是对的、能够走通。

而当GPT验证堆叠数据量这条道路可行以后,大模型训练就从原始创新变成了一个工程学的应用创新问题,这是中国的强项。

中国拥有全世界数量最多、数理逻辑等基础最扎实的工程师队伍,基于已经被验证可行的理论,还有可供参考的开源大模型,那么在设计一个新的大模型的时候,完全可以引入更多不同的特殊模型结构,而并非一定要沿着GPT开拓的方向,毕竟后来GPT后来也拒绝开源了。

仅根据最基本的边际递减、基础创新变成应用创新,小镇再根据对中国AI的了解,参考中国类似领域追赶的速度,再考虑国家对AI的重视,就在2023年初得出了最多2-3年,中国AI大模型就能赶上美国的判断。

事实也确实如此。

DeepSeek的成就很大程度是享受了GPT突破带来的红利。所以DeepSeek的创始人梁文峰去年7月谈V2模型时,也说“在美国每天发生的大量创新中,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新”。

梁文峰说的很客观,这就是不吹捧、不贬低、不捧杀。

也难怪开发《黑神话:悟空》的游戏科学创始人冯骥最近对DeepSeek颇为惺惺相惜,成名前的不被看好,成名后的捧杀,感受太相近了。

对比下DeepSeek从2023年11月推出第一代模型,6个月后第二代,再6个月第三代,再一个月第四代,迭代的速度越来越快。而同时期,美国以OpenAI为代表的各大团队纷纷陷入瓶颈。

这绝不是因为能力,更本质的是DeepSeek成功开拓了新的确定性方向,一个只需要继续投入资源,就能够源源不断拿出更先进产品的新路线。

而此前GPT之所以引领全球浪潮,恰恰是因为找到了堆叠训练参数量来强行训练模型的路线。

只要找到一条确定性的路线,再到达困境前,新产出就是很快。

DeepSeek找到的这条路其实早在2023年就已经有人提出了,那就是强化学习,只不过具体技术路径还未经验证。而DeepSeek最新的R1验证了多条技术路线的可行性。

比如多阶段渐进训练,从一个简单的结构或者较小的数据集开始训练,来初步验证学习效果,然后是中间阶段增加模型复杂度,优化阶段进行精细化调整,经过多次迭代最终达到较为稳定的最终阶段。

还有模型蒸馏。

其实OpenAI在碰到瓶颈之后,也在考虑强化学习的路线可行性,只不过还没有拿出产品。而DeepSeek R1是第一款证明这一路线可行的产品。

这背后,并非能力问题,毕竟大模型训练还没有进入实际产出阶段,并没有跟其他产业尤其制造业相结合,美国理论上仍然具备科技和人才优势。

美国之所以晚了,小镇认为罪魁祸首就是金融至上。美国企业一切以市值为先,为支撑泡沫疯狂炒作AI故事,不断追求大算力,这非常容易哄抬市值,还能够扼杀中小微初创企业。而对打工人来说,这种靠钱硬砸的路线,工作也简单,还更容易要高薪,何乐而不为?

在这种大环境下,强化学习这一条不需要太高算力、训练成本也更为低廉的路线,当然被嫌弃。要不是实在无法突破瓶颈,相信美国各大公司还是会继续在堆叠算力的路上走到死,反正时不时拿出个产品,做一下“美化”就行了。

国内互联网大厂也有类似的问题。
为什么是DeepSeek成为全球第一个验证强化学习路线的团队?
小镇猜测恰恰是因为心态更平和,不急于求成。因为这家公司主业是量化交易,在AI领域就不急于拿出成果,确定了走强化学习这条路线之后,有更多耐心去反复尝试,可以多在初始化阶段打磨验证,根据反馈不断调整,这更像是一场科研游戏,反而保持了初心。

小镇极力赞扬DeepSeek,并不是因为R1这款产品有多么强,小镇试用后感觉确实很不错,但也并没有太超越其他已有产品,最大的优势是开拓新路、对算力和成本的需求更低。
关键是DeepSeek走出了一条非常适合中国的创新道路,既要有明确的未来规划,又有耐心从工程的角度去摸索靠近,突破的过程稳扎稳打,这很适合中国从工程应用领域向基础创新大举进军。

套用外交名词,如果说基础创新是一轨科研,应用创新是二轨科研,那么DeepSeek验证的这条路,就是1.5轨。

之后几个月,美国一定能够拿出来基于强化学习的AI大模型,也一定会在一些方面重新占据领先位置。这也是情势所迫,美国股市泡沫离不开AI神话,但这也是美国科研团队应有的能力,要提前打个预防针,别到时候又从速胜论变成了投降论。

反过来,更要对中国的科研有足够的信心,不要再贬低中国科研能力了。诺贝尔奖并不能代表一切,这是一个滞后奖、成就奖、意识形态奖,铁的事实已经证明了,中国的基础教育相比美国更有利于科研创新,AI领域已经快变成了中国人与在美华人之间的竞争。

小镇也很确信,2025年中国会有更多、更大科技和产业突破,在这种情况下,更需要客观理性,决不能捧杀。

龙年即将过去,象征智慧和顽强的蛇年即将到来。希望在新的一年,能够看到越来越多如DeepSeek这样打破惯性,积极变革的新力量,这才是中国的未来。

其他文章推荐

■  改革大方向未定,尚待决策拍板





请到「今天看啥」查看全文