一家此前不在多数媒体的“明星企业”列表中的“小企业”,一家走开源路线而非走闭源或率先开发应用的“创新组织”,却意外在2025年开年成为了中国大模型领域科技创新的全球代表。
据多家媒体报道,这家名为DeepSeek(深度求索)的中国大模型企业,最近发布的大模型,在多项性能测试中已经达到了OpenAI的最新大模型o1水平,部分项目还实现了超越。由此引发了全球科技行业的热烈讨论,有媒体形容“DeepSeek朝硅谷‘开了一枪’”,甚至“震动美国科技界”。
底层创新提升算力效率
DeepSeek当前所创造的“神话”,主要是两类叙事。第一类,是DeepSeek的算力成本投入与表现出来的性能对比,超出了行业的一般认知。据部分行业媒体报道,DeepSeek r1的训练成本仅为ChatGPT o1的零头。第二类神话则是,DeepSeek的成功证明了开源路线的逆袭胜利,对大公司、巨头的闭源路线进行了一次底层颠覆。
这两类看法被灌注到社交平台上进行广泛讨论后,事实上都或多或少因人们的真诚期待而略有扭曲。例如,DeepSeek r1的真实算力成本投入远不止600万美元,且最早报道的媒体混淆了DeepSeek在论文中提及的训练成本。根据原文,550万美元是DeepSeek v3在正式训练阶段的成本,不包括前期研究、实验的成本。
并且,从行业发展的逻辑看,探索与迭代、追赶所需的算力成本,也不应该放在一起对比。OpenAI在ChatGPT o1的研发探索,与v3在前序产品基础上的迭代,成本无法简单对比。创新和探索必然伴随着算力和各项成本的浪费,在确定性的路径上优化所付出的代价,与探索未知所付出的代价,互相之间不宜简单对比。
而从大模型现阶段的发展看,准确地说,一家企业的阶段性产品的成功,还不能定义为闭源与开源路线的成败。
综合以上,比较严谨地看待DeepSeek带给我们的惊喜,应该是:DeepSeek展示了模型架构底层创新的价值,不断提升了算力效率。并且,这一家架构的底层创新,推动了开源大模型产品在能力上的超越,从而将进一步提升行业整体的应用研发水平。
更重要的仍是“创新”本身
尽管比起人们热爱的传奇故事,上面的这个故事显得有些过于审慎无聊。但事实上,这样一个严谨的故事,更值得我们去探讨本文开篇的两句话:为什么是一家资金量不占优势的、专注于底层创新而非商业化的开源企业,创造了中国企业在大模型领域的一次“弯道超车”?
2024年8月,在接受媒体专访时,DeepSeek创始人梁文锋提及了团队的研发思路,“如果目标是做应用,那沿用LLaMA模型(LLaMA,是元宇宙平台公司,即Meta公开发布的产品)短平快上产品也是合理的,但我们的目的地是AGI(通用人工智能),这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力”。
这句话揭示了“奇迹”诞生的出发点:因为目标不同,所以方法不同,面对差距的态度也不同。
就在DeepSeek创造“行业奇迹”不久前,国内大模型行业的共识几乎仍然是“要做应用”,因为做通用大模型的机会已经没有了。一些明星创业企业更是放弃了对通用AGI的探索,转而借助现有的模型去研发应用。
在这种行业共识之下,我们所接触到的多数国产大模型企业,津津乐道的多数都是具体且仍不成熟的应用。如,多如牛毛的陪伴型AI聊天机器人,或是文生图、文生视频等“奇观展示”。
这并非刻意贬低应用层的研发努力,面对差距做策略性的舍弃,是正常的科技与商业选择。就连梁文锋自己也在访谈中承认,在模型结构和训练动力学上,国内的最高水平比起国外最高水平可能有一倍的差距,与此同时,数据效率上国内比起海外可能也有一倍的差距,两者相加,相当于国内要用四倍的算力才能取得同样的效果。
再加上复杂宏观环境下算力本身的成本差距。在这种现实下,多数企业选择了绕开这些差距,确实是一个直觉上可以理解的选项。
但DeepSeek选择的方向却显得反直觉和常识。既然资源差距大,那就干脆回到模型架构底层去创新和优化。而事实证明,这条路最终反而能更快地达成目标。
事实上,AGI的长期发展固然与算力成本息息相关,但AGI本身仍然处在不断迭代的过程之中。在科技创新之中,决定长期结果的固然是宏观环境、经济投入等底层基础,但在动态的创新发生过程中,更重要的或许仍旧是“创新”本身。
大模型已经火热许久,但时至今日,仍然不是简单的资源加总游戏,不是简单地囤更多算力就能快速实现突破,也不是谁更早拥有更多用户,有更多商业化的场景和赚钱的能力,就能笑到最后。而这正是那些曾经风光无二但却迅速退潮的企业所没有想明白的基础逻辑。
从这个更严谨的行业发展故事来看,DeepSeek的最大启发,是我们仍旧处在充满不确定性的创新探索周期里。而短视,恰恰是创新的最大敌人。坚持长期视角,专注底层创新,探索新的路径,比起融资、囤卡和商业化,更有可能获得最终的胜利。
撰稿 / 王晓凯(媒体人)
编辑 / 迟道华 马小龙
校对 / 赵琳