专栏名称: 大树乡谈

讲逻辑，说人话，有意思。让我们一起穿越时代迷雾、共同成长至少20年。

不吹捧，不贬低，不捧杀

大树乡谈 · 公众号 · · 2025-01-27 23:08

正文

明天除夕，可能要请假，那么今天就是龙年最后一篇，写一篇总结性质的文章。主要例子是为什么是DeepSeek实现了突破？

2024年中国科技井喷，这当然值得开心，但也出现了一些错误的认识，速胜论者从失败主义中走出来，又大谈起了速胜论，开始宣扬美国的崩溃、中国的超越，这不对。

小镇认为，要适应中美都是世界独一档大国的新常态，要有平常心，做到“三个不”。

不吹捧：不能吹捧美国，也不宜吹捧中国；

不贬低：不能贬低中国，也不宜贬低美国；

不捧杀：决不能捧杀中国的突破与成就。

接下来结合例子，展开谈谈这三点。

小镇在2024年写了不少与美国有关的事情，美国大选后一连写了14篇，断定特朗普上台后短期内顾不上针对中国，还分析拜登会针对特朗普制造很多麻烦等，基本都验证了，还差一篇中国如何应对的没写。

此外，还重点谈了美国金融至上导致的严重恶果，包括疯狂的AI炒作、巨头对中小创新企业的压制、美国制造业无法回归等等，还有一些贴近普通人生活的，如美国房地产的“郊区化”、高昂的固定基本生活成本等；2024年以前的也有不少，比如美国海军造舰能力是如何被私人化、金融化瓦解的，还有美国的盟友正在成为美国的负累等。

这些与美国有关的文章，小镇自认是站得住脚的，都有客观现实支撑，做出的预判也基本成真了。不过也因为批评美国多了，所以也经常有读者留言问小镇美国什么时候崩溃，有的还颇为恶意。

这就误解了。小镇之前谈加州大火，认为美国处于帝国末期，帝国末期与崩溃是两码事，具体参见《帝国末期，灾祸横行》，更何况美国现在只是处于衰落阶段，而不是崩溃，具体在《天灾会不会成为美国金融危机爆发的导火索？》专门阐述了区别。只是因为美国的辉煌与霸权建立在科技和军事的绝对实力基础上，现在与中国的距离越来越近，美国被祛魅了，就更容易发现金玉之下的不堪。

但美国仍然强大，自2008年以后，如果不计中国，美国的全球优势更大了。今天的美国仍然具有极强的基础创新能力，论科学和基础创新能力，美国整体上仍然领先我们，当然我们正在加速缩小差距，在技术和应用创新层面，中国已具有无可比拟的优势。

这个道理应该不必多解释。

就拿最近被广泛关注的DeepSeek-R1来说，小镇昨天也写了《美国试图在AI领域吃独食的图谋，破产了》，但注意，小镇并没有说自此之后中国就在AI领域超越美国了，吃独食的图谋破产跟超越是两个概念。

就像在半导体领域，打破美国封锁，并不需要我们在各个方面都达到世界最先进水平，只要我们能够突破技术难点，哪怕以更大的成本拿出来性能差一点的产品，那么国外掌握先进技术和产品的国家、企业，就会想办法突破美国的封锁，把东西卖给中国。目前阿斯麦正在努力斡旋，希望恢复对中国的正常出口。

但网上过于浮躁了。上个周末，小镇一打开短视频平台，铺天盖地出现的就是对DeepSeek-R1的吹捧，顺带是对美国OpenAI、硅谷大厂的嘲笑与贬低。的确，整个2024年美国各大企业并没有拿出来像样的新产品，OpenAI被卡住了，下一代模型原本预计2025年上半年能拿出来就不错；而2024年拿出来自家产品的也就是Google和Meta，但谷歌的东西还达不到中国大模型2023年的水平，而Meta空有庞大的算力矩阵，结果从发布Llama2之后，下一代也卡住了。

但不能因为美国各大AI团队被卡住了，就认为他们不行了，只能证明他们走的这条路，到了死胡同。

DeepSeek-R1并不是是猴子突然蹦出来的，就像2023年初引爆AI的ChatGPT也已经是3.0版本，只不过之前的突破并没有破圈而已。

DeepSeek在2023年11月就已经推出了第一代模型Coder，把大模型的价格打下来了；2024年5月推出第二代模型V2，将已经卷起来的国内大模型价格又打下来一大半；2024年12月的V3，一举逼近国际顶尖水平；再到2025年1月的R1，在各项性能上与OpenAI对齐，这才有了破圈之后，惊爆全网的声势。

但如果一直关注这些动态，就不会对2025年1月的“惊变”感到惊讶，也就不会对今天的科技股过于期待，早就是旧闻了。这也是为什么小镇在2023年初就一直说：中美AI之间不存在代差，最多两三年中国就能赶上来。

事实上，在ChatGPT3.0出现之前，在美国开始炒作AI故事之前，一提到AI，最常被提到是中国，不是美国，中国也是AI技术应用最广泛的国家。只不过那时候AI还不太被重视，尤其是大家还没有找到一条通往更先进AI的可行路径。

直到ChatGPT3.0推出，大家才发现，原来可以通过不断增加训练参数，获得更进一步的AI模型，而走这条路就需要不断堆叠算力，还要投入更多人力搞数据标记提供足够的训练数据。于是从GPT-3的1750亿个参数，GPT-4就到了1.8万亿个参数。

而之所以2024年美国各大AI团队被卡住了，就是因为GPT开创的不断增加训练参数的做法走到头了，所以全年经常看到各家出面谈可用数据枯竭。

小镇2023年初之所以判断中国AI大模型会很快赶上美国，并不是从技术或者从业者角度出发，当时月内人士反而悲观。小镇做出这一判断，就是从底层逻辑出发：一是边际递减，二是中国更擅长应用和工程创新。

GPT堆叠算力、增加训练参数的做法，一定会到极限，这是最简单的边际递减理论，越接近极限，投入的成本越大、消耗的时间越多，而产出不断减少，就体现在后续更先进版本推出越来越慢；而当GPT探索出了堆训练量的成功做法之后，基本理论都是开放的，就算GPT不开源，对业内人士来说，也完全可以短时间内摸索出来。

这就像可控氢聚变，任何一个国家实现了商用化突破，其他国家距离突破也就不远了。因为在探索未知领域上，最重要的就是有人证明这条路是对的、能够走通。

而当GPT验证堆叠数据量这条道路可行以后，大模型训练就从原始创新变成了一个工程学的应用创新问题，这是中国的强项。

中国拥有全世界数量最多、数理逻辑等基础最扎实的工程师队伍，基于已经被验证可行的理论，还有可供参考的开源大模型，那么在设计一个新的大模型的时候，完全可以引入更多不同的特殊模型结构，而并非一定要沿着GPT开拓的方向，毕竟后来GPT后来也拒绝开源了。

仅根据最基本的边际递减、基础创新变成应用创新，小镇再根据对中国AI的了解，参考中国类似领域追赶的速度，再考虑国家对AI的重视，就在2023年初得出了最多2-3年，中国AI大模型就能赶上美国的判断。

事实也确实如此。

DeepSeek的成就很大程度是享受了GPT突破带来的红利。所以DeepSeek的创始人梁文峰去年7月谈V2模型时，也说“在美国每天发生的大量创新中，这是非常普通的一个。他们之所以惊讶，是因为这是一个中国公司，在以创新贡献者的身份，加入到他们游戏里去。毕竟大部分中国公司习惯follow，而不是创新”。

梁文峰说的很客观，这就是不吹捧、不贬低、不捧杀。

也难怪开发《黑神话：悟空》的游戏科学创始人冯骥最近对DeepSeek颇为惺惺相惜，成名前的不被看好，成名后的捧杀，感受太相近了。

对比下DeepSeek从2023年11月推出第一代模型，6个月后第二代，再6个月第三代，再一个月第四代，迭代的速度越来越快。而同时期，美国以OpenAI为代表的各大团队纷纷陷入瓶颈。

这绝不是因为能力，更本质的是DeepSeek成功开拓了新的确定性方向，一个只需要继续投入资源，就能够源源不断拿出更先进产品的新路线。

而此前GPT之所以引领全球浪潮，恰恰是因为找到了堆叠训练参数量来强行训练模型的路线。

只要找到一条确定性的路线，再到达困境前，新产出就是很快。

DeepSeek找到的这条路其实早在2023年就已经有人提出了，那就是强化学习，只不过具体技术路径还未经验证。而DeepSeek最新的R1验证了多条技术路线的可行性。

比如多阶段渐进训练，从一个简单的结构或者较小的数据集开始训练，来初步验证学习效果，然后是中间阶段增加模型复杂度，优化阶段进行精细化调整，经过多次迭代最终达到较为稳定的最终阶段。

还有模型蒸馏。

其实OpenAI在碰到瓶颈之后，也在考虑强化学习的路线可行性，只不过还没有拿出产品。而DeepSeek R1是第一款证明这一路线可行的产品。

这背后，并非能力问题，毕竟大模型训练还没有进入实际产出阶段，并没有跟其他产业尤其制造业相结合，美国理论上仍然具备科技和人才优势。

美国之所以晚了，小镇认为罪魁祸首就是金融至上。美国企业一切以市值为先，为支撑泡沫疯狂炒作AI故事，不断追求大算力，这非常容易哄抬市值，还能够扼杀中小微初创企业。而对打工人来说，这种靠钱硬砸的路线，工作也简单，还更容易要高薪，何乐而不为？

在这种大环境下，强化学习这一条不需要太高算力、训练成本也更为低廉的路线，当然被嫌弃。要不是实在无法突破瓶颈，相信美国各大公司还是会继续在堆叠算力的路上走到死，反正时不时拿出个产品，做一下“美化”就行了。

国内互联网大厂也有类似的问题。

为什么是DeepSeek成为全球第一个验证强化学习路线的团队？

小镇猜测恰恰是因为心态更平和，不急于求成。因为这家公司主业是量化交易，在AI领域就不急于拿出成果，确定了走强化学习这条路线之后，有更多耐心去反复尝试，可以多在初始化阶段打磨验证，根据反馈不断调整，这更像是一场科研游戏，反而保持了初心。

小镇极力赞扬DeepSeek，并不是因为R1这款产品有多么强，小镇试用后感觉确实很不错，但也并没有太超越其他已有产品，最大的优势是开拓新路、对算力和成本的需求更低。

关键是DeepSeek走出了一条非常适合中国的创新道路，既要有明确的未来规划，又有耐心从工程的角度去摸索靠近，突破的过程稳扎稳打，这很适合中国从工程应用领域向基础创新大举进军。

套用外交名词，如果说基础创新是一轨科研，应用创新是二轨科研，那么DeepSeek验证的这条路，就是1.5轨。

之后几个月，美国一定能够拿出来基于强化学习的AI大模型，也一定会在一些方面重新占据领先位置。这也是情势所迫，美国股市泡沫离不开AI神话，但这也是美国科研团队应有的能力，要提前打个预防针，别到时候又从速胜论变成了投降论。

反过来，更要对中国的科研有足够的信心，不要再贬低中国科研能力了。诺贝尔奖并不能代表一切，这是一个滞后奖、成就奖、意识形态奖，铁的事实已经证明了，中国的基础教育相比美国更有利于科研创新，AI领域已经快变成了中国人与在美华人之间的竞争。

小镇也很确信，2025年中国会有更多、更大科技和产业突破，在这种情况下，更需要客观理性，决不能捧杀。

龙年即将过去，象征智慧和顽强的蛇年即将到来。希望在新的一年，能够看到越来越多如DeepSeek这样打破惯性，积极变革的新力量，这才是中国的未来。

其他文章推荐

■ 改革大方向未定，尚待决策拍板

不吹捧，不贬低，不捧杀

正文

请到「今天看啥」查看全文