专栏名称: 数字力场
抵抗熵增,打捞有趣。你的内心,就是力场。
目录
相关文章推荐
北京市场监管  ·  “瑞蛇迎鸿·广告映善”公益广告展播 | ... ·  昨天  
舰大官人  ·  Black Hawk is down. ... ·  2 天前  
舰大官人  ·  四年后再次分享。-20250130001635 ·  2 天前  
舰大官人  ·  龙年的最后一天,再多说说龙🐲吧。 ... ·  4 天前  
51好读  ›  专栏  ›  数字力场

DeepSeek启示录:伟大不能被计划

数字力场  · 公众号  · 自媒体  · 2025-01-31 19:00

正文

正如梁文锋所说:「创新都是自己产生的,不是刻意安排的。」

















文 | 佘宗明




「国运级科技突破」「美国的斯普特尼克时刻」「AI珍珠港事件」……DeepSeek刮起的「最炫民族AI风」,远没有停下来的迹象。


美国方面对DeepSeek以国家安全调查名义展开「猎巫」,又为其舆论热度火上浇了油。


看上去,DeepSeek才是「春节档」最大赢家:成立仅1年半的DeepSeek于无声处酿出了惊雷,堪比作「魔童闹海」;使出降龙十八掌直接重创纳斯达克的DeepSeek提振了国人信心,不啻为「侠之大者」;掀起AI领域「算力起义」的DeepSeek改写了AI权力游戏规则,配得上被「封神」。


正因如此,在国内外舆论场,DeepSeek几乎被各种震惊体围裹。



《黑神话·悟空》制作人冯骥将DeepSeek-R1视作国运级别的科技成果。


在宏大叙事框架下,DeepSeek的异军突起,很容易被人拿来跟华为突破美国封堵重新推出「争气机」5G手机华为Mate60 Pro并论,跟大国科技崛起的话语绑定。


在芯片法案与TikTok剥离法案已成中美科技竞赛烈度直观反映的当下,这类解读在所难免。


但不能因此就抹杀DeepSeek奇迹中「去Nationalism」的部分,要看到,DeepSeek能变成眼下的DeepSeek,跟很多具体因素有关,如梁文锋的极致技术理想主义,如DeepSeek人才使用的反经验主义。


也正是DeepSeek身上的多重独特性,使得它可以像荆棘花那般不惧凛风与涸土地盛开。


在我看来,如果要用一句话总结DeepSeek启示录的精髓,那就是:伟大不能被计划。




01 

「伟大不能被计划」,言下之意是,不要试图去设计规划好一切,很多事情本就是「无心插柳」的结果。


DeepSeek能同时登顶苹果App Store中美下载排行榜第一,就是最直观的验证。它的崛起之路,有着太多的「让人意想不到」。


9个月前,许多人印象中的国内AI头部玩家,还是以BAT和字节为代表的大厂和AI大模型六小虎(智谱AI、月之暗面、百川智能、MiniMax、阶跃星辰、零一万物)。


谁能想到,「名少见经传」的DeepSeek 能戳穿性价比天花板,证明「明明是主流玩家的电影,我却偏偏要有姓名」呢?


1个多月前,很多人认知中的OpenAI挑战者,依旧在硅谷——红杉资本此前就认为,现在AI领域是五强争霸:微软+OpenAI,亚马逊+Antropic,谷歌,MetaxAI


谁能想到,DeepSeek能用OpenAI仅约1/10的预训练成本,就推出了性能可与GPT-4oClaude 3.5 Sonnet等顶尖闭源模型相匹敌的DeepSeek-V3呢?


10多天前,有些人仍然会认为,DeepSeek-V3只是昙花一现,连DeepSeek都很难再复制DeepSeek


谁能想到,DeepSeek又掏出了成本依旧低廉、性能更加强大的DeepSeek-R1(性能可对标OpenAI o1正式版,API服务定价则要低上27-55倍),直接震惊欧美科技界呢?



DeepSeek-R1引发美股地震后,引起国内外媒体广泛关注。


事实上,就在DeepSeek-V3发布时,依然有国内专家将Deepseek视作小米Su7,「神似某捷的外型、单层的、民用级刹车卡钳、大概其的隔音……虽然一上赛道跑几圈刹车就严重衰减,虽然里里外外都是蔚小理玩过的东西,没有技术和形态突破。」有国外人士认为DeepSeek虽然拿出了「30美元iPhone」,但那只是平替。


DeepSeek-R1用特朗普震惊、山姆·奥特曼叹服、马斯克「内涵」的反应证明了,它确实不是池中物。


而今,不少国内网友俨然用满屏惊叹摆成了四郎的表情包:你还有多少惊喜是朕不知道的?




02  

「伟大不能被计划」,也是因为,很多「伟大」的事物一开始可能是「微小」的。


DeepSeek能不能承载起「国运级成果」的名头,兴许还有争议,但它确实当得起「神奇」二字。


DeepSeek-R1究竟厉害在哪?懂技术的人兴许张口就是一堆名词:合成数据、知识蒸馏、FP8低精度、稀疏模型、MoE、多头注意力机制……


这些技术未必是首创,但DeepSeek能利用既有技术,实现训练量效比、算力能效比的极致提升,也是现象级突破。


都说「多少辆马车相加,都加不出一辆汽车来。」乔布斯当年发明iPhone,不是在功能机上叠加MP3、摄像机等功能,而是用触屏体验+软硬件一体化重新定义了手机。DeepSeek的难得之处也在于「重新定义」——它打破了路径依赖,重新定义了算力提升方式。


有人这样比喻:若是把提升算力视作盖楼,那OpenAI就是狂堆砖块(芯片硬件)DeepSeek则是依托发明钢筋混凝土(数学框架创新)来重塑建造方式。


OpenAI让大模型研发变成了比谁砖块多的比赛,DeepSeek则让大模型研发变成了比谁建筑方式更高效的PK


有网友这样调侃OpenAI跟DeepSeek的差别。


DeepSeek只是个200多人的公司,却能挟工程能力优势用算法优化「发明」出算力倍增器,干出很多国内外大厂都没干出的事来,这不免让人想起凯文·凯利在《5000天后的世界》中的那句话——「未来最成功的那个公司,必然是今天还默默无闻的、在社交媒体领域外的某个小公司。」


小就是大。在大公司成功的经验成为它们的桎梏时,创业公司却可以以好奇心驱动的创新动能、扁平无层级的组织架构,展现出更大的创新势能来。


DeepSeek就是典型。AI创业公司的高强活力跟梁文锋的高维认知叠合后,产生的化学反应十分惊人。


梁文锋对AGI(通用人工智能)的技术信仰,对中美AI差距本质是「原创与模仿之差」的清醒洞见,对「闭源的护城河是短暂的,OpenAI闭源也无法阻止被赶超」的前瞻判断,本就体现了高于行业的认知能力。


DeepSeek采用无层级的灵活协作机制,重潜力和好奇心不重行业经验的招聘标准,开源的生态战略,都与此有关,也放大了其势能。


因而,DeepSeek可以在朱啸虎式判断广受推崇的时下,笃定「不做应用,专注大模型研究」的长期主义战略,可以在OpenAI路线大行其道的情况下,拥抱更高效更开放的AI发展道路。


为什么是DeepSeek?部分答案就藏在其中。




03 

「伟大不能被计划」,也意味着,那些偶然性与独特性不该被忽略。


行业专家杨宽老师就说:当OpenAI沉迷于暴力堆料时,DeepSeek团队在玩「算力俄罗斯方块」——把每个CUDA核心的价值压榨到小数点后四位,就硬件利用率而言,硅谷利用GPU群组通信损耗技术达到了30%-40%DeepSeek则利用自研MoE+动态路由算法达到了78%,「这不是技术差距,而是工程思维的代际碾压。」


这背后就离不开DeepSeek团队提出MLA架构创新,它借此将显存占用降至传统方法的5%-13%背后的背后则是一年轻研究员的突然灵感和突发奇想。


他还讲到,梁文锋将量化交易思维注入AI训练当中:风险对冲(用多模态数据构建「投资组合」)、高频调参(在行业标准72小时/次的前提下,每2小时优化一次超参数)动态止损(自动终止低效训练分支),这套「华尔街炼金术」使得DeepSeek的每次训练都像在玩《文明6》的科技树速通。


这很容易让人想到肯尼斯·斯坦利和乔尔·雷曼在《为什么伟大不能被计划》中举的例子:发明飞机的莱特兄弟,最早其实是自行车制造商;真空管是早期计算机的奠基性零件,但真空管的诞生与计算机毫无关系……


做量化交易起家的梁文锋,创造出了「心价比」超强的AI大模型,又为其新添了案例。


▲被很多歪果仁称作「东方神秘力量」的DeepSeek,发展路径有其独特性。


DeepSeek被津津乐道的,还有其开源模式:在OpenAI背离初心变成CloseAI的背景下,DeepSeek变成了真正OpenAI;在OpenAI把开发者当「数字佃农」时,DeepSeek用开源协议发动「AI土地革命」……这也是其了不起的地方。


这也跟梁文锋的技术理想主义气质紧密相关。换个人,可能又是师山姆·奥特曼长技以制竞争对手的打法了。


梁文锋说:「创新都是自己产生的,不是刻意安排的。」


这相当于拍了拍肯尼斯·斯坦利们,并向他们表达了认同。因为肯尼斯·斯坦利说:真正的伟大是计划不出来的,跟着好奇心一步一步走,才是成就非凡的正确路径。




04  

「伟大不能被计划」,所以那些看似很小的种子,没准也能「开出花,伸出新长的枝桠」;那些在边缘地带、外围区域、隐秘角落的探索,兴许也能「小力出奇迹」。


跟国外的GAFA(谷歌苹果脸书亚马逊)和英伟达、国内的BAT一样,DeepSeek不是计划出来的,而是在适宜土壤上长成的。


既然创新是激发好奇心、激活创造性后摆脱路径依赖的产物,而非计划出来的结果,那对于创新应有的呵护与激励,也不该是回到路径依赖中去,而是为那些好奇心与创造性提供良好的制度环境,包括包容氛围、试错空间。


就目前看,DeepSeek走红后,舆论场中有些反应就值得警惕,这其中的某些反应,更进一步通向的就是那种对「计划」的路径依赖。具体来说就包括:


一,将DeepSeek的突破导入Nationalism的语境中,认为要将其作为「AI国家队」来加以收编、大力扶持。


「自创生」的DeepSeek,不需要揠苗助长,只需要适合创新的气候土壤。


仔细看会发现,从《黑神话·悟空》到宇树科技的机器狗再到DeepSeekStyleCtrl类别中排第一的大模型,都诞生在杭州。


这不是偶然。通常而言,市场底色足-民营企业多-创新氛围浓-经济活力足-发展机遇广-成为未来科技中心概率大,是一体的。


尊重市场、鼓励创新、拥抱开放、包容失败,培育适宜创新的市场生态,就可能会有更多企业——包括中小民营企业,像DeepSeek一样冒出来。


倒是那些以关怀为名的干预,以担当为由的裹挟,可能会抑制其活力。


二,以「干翻硅谷,单挑华尔街」的「厉害了,我的DS」态度,将其推向大时代的旋流中。


在美国持续升级对华AI芯片限制的背景下,DeepSeek利用华为芯片、中国本土AI人才、更低的算力成本研发出了性能领先的大模型,激发民族自信心和自豪感很正常,被寄予打破卡脖子局面的厚望也很正常。


但这不应导向对DeepSeek的无意识捧杀,更不应通往对「脱钩断链论」的里应外合。


DeepSeek的突破视作「国运级」的,个中的扬眉吐气心态可以理解,饶是如此,也该尽量避免把企业跟「干翻」「单挑」之类的字眼关联,否则很可能迎合外部的那些「××威胁论」,将其无形中推到靶子位置。


DeepSeek眼下正遭到美国方面以国家安全调查为名的「猎巫」。


往大了说,我们不该在「妄自菲薄」和「妄自尊大」两极间横跳。


《暗知识》作者王维嘉就认为,从技术格局来看,尽管 DeepSeek 的成果缩小了中美在人工智能技术上的差距,但中美人工智能整体格局尚未被撼动。


他觉得,「在人工智能技术的几个关键方面,芯片领域中国仍与美国存在较大差距;在算法突破方面,过去十年间,从 2012 年的 alexnet 2017 年的 transformer,再到 2022 年的 ChatGPT 以及后续的思维链、RAG 和推理训练等重大突破,大多发生在美国,法国的 Mistral 公司也有少量贡献,DeepSeek 的贡献占比约为 5%,但这已然十分了不起。


接下来,我们需要更多DeepSeek出来去缩小差距,而不是在捧杀DeepSeek中掐灭火种。




05 

说到底,DeepSeek的胜利,是对《为什么伟大不能被计划》中那个观点的最佳注解——「在探索未知领域的过程中,保持对有趣事物的开放性,在搜索到足够数量的踏脚石之后,伟大的成就自然就会与我们不期而遇。」


DeepSeek迈出了AI发展史上的重要一步,免不了被置于未来大国博弈、科技竞争的框架下打量。


但无论如何,别忘了——


DeepSeek的创新不是计划出来的,DeepSeek的创新被看到后也不需要「计划」来裹挟。




✎作者 | 佘宗明

✎运营 | 李玩
欢迎分享到朋友圈
转载须经许可
广告合作请联系微信号:rabgogo88
或手机号:18810070968

 往期精彩回顾


在非遗正当潮中,属于中国人的年味又回来了


 ©

敬请关注