DeepSeek 的成功打破了之前国内科技领域对于大语言模型的既定发展范式,或许接下来会产生一些涟漪效应。
无可否认 DeepSeek 已经取得了成功。从当前已经对国内外 AI 领域所产生的影响来看,无论这家公司后续发展如何,现在都是成功的案例。
当资源受到限制时,往往会激发创新。而 DeepSeek 的突然出现,对此是又一例佐证。相反,当资源充沛时,创新未必会如期而来。
对于国内互联网巨头而言,或许决策层此前并不相信只需要如此少的计算资源也可以训练出如此性能优异的大语言模型。过去几年里,中国互联网巨头的普遍做法是集中所有的 GPU 算力资源,交给一个团队,硬砸。这种「集中资源办大事」是一种合理的思考路径,就实际产出效果而言,并不够好。虽然几家巨头已经推出的大模型从指标上看,似乎不错,我相信内部评估仍然是未达到预期。
目前还没有看到哪位大佬说已经拿到「AI 的船票」。
DeepSeek 打破了迷思,向业界证明了可以把大语言模型的训练成本降低 1 到 2 个数量级之间,据估算训练成本不到 600 万美元,而此前业界普遍认为的训练成本则是 1 亿美元甚至更多,直接掀起显卡「军备竞赛」。能承担起几百万美元训练成本的公司要比能承担 1 亿美元成本的公司多出几个数量级。
对于互联网巨头的影响则可能是,此前好不容易凑起来的计算资源,我们假设 10000 张显卡起步,那么现在至少可以分成 5 个 2000 个显卡资源池,交给 5 个团队去尝试,成功的几率会增加许多。为什么是 2000 张?DeepSeek V3 用 2000 块显卡训练出的。
以腾讯为例,如果微信团队早就有 2000 张显卡可以支配的话,或许 DeepSeek 这样有影响力的模型,就会出于微信之手。我这么说的依据在于,目前外界分析,DeepSeek 团队直接对 PTX 进行优化,提高了计算性能。如果一个原本面向金融的技术团队能做到这一点的话,一个面向通讯的团队当然也具备这样的能力,不排除有这样的的可能。