1 为什么 DeepSeek 会引起全球性的科技震撼
DeepSeek 的横空出世是人工智能(AI)发展史上新的标志性事件。7 天之内 DeepSeek 的用户增长超过 1 亿,创造了用户增长速度新的世界纪录。与此同时,芯片巨头公司英伟达(NVIDIA)的股价单日暴跌 17%,市值缩水 5890 亿美元,创下美国上市公司单日最大损失纪录。DeepSeek 的崛起,打破了“高算力和高投入是发展人工智能唯一途径”和“集成电路制程优势=人工智能技术霸权”的迷信,引领人工智能行业进入以算法和模型架构优化为主,同时高度重视数据质量与规模、理性提高算力的新时期。同时,DeepSeek 的崛起也标志着中国科技公司从“追赶者”变为“规则改写者”,在全球最关注的人工智能领域,以颠覆性的创新开始挑战西方在 AI 领域的霸权。
全球人工智能龙头企业纷纷拥抱 DeepSeek,凸显其不可抗拒的影响力。微软最早宣布将 DeepSeek R1 模型添加到其云平台 Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等公司相继宣布在其 AI 服务平台上部署 DeepSeek V3 和 R1 模型。不管某些国家政府如何抵制,少数媒体如何恶意中伤,上亿用户和众多大公司根据 DeepSeek 的性价比和亲身体验做出选择,主动融入 DeepSeek 生态。DeepSeek 推出的高效率、低成本的推理模型和开源商业模式,将引领人工智能行业新潮流。
DeepSeek 的 V3 和 R1 模型广受欢迎,首先是因为其在模型算法和系统软件层次都有重大创新。DeepSeek-V3 的模型参数量高达 6710 亿,但由于采用了自主研发的混合专家模型(MoE)架构,每一层有 256 个细分领域的路由专家和 1 个共享专家,每次调用只激活约 370 亿个参数,显著降低了训练计算成本。DeepSeek 改进的多头潜在注意力机制(MLA),减少了键值缓存开销,把显存占用降到了其他大模型的 5%~13%,极大提升了模型运行效率。DeepSeek-R1 模型摒弃了传统的监督微调(SFT),开创性地提出群组相对策略优化(GRPO),直接通过强化学习从基础模型中激发推理能力,大幅降低了数据标注成本,简化了训练流程。DeepSeek 揭示了一个真相,即推理模型的开发比想象中更为简单,各行各业都可以做。DeepSeek 的这些发明并非首次提出来的原始创新,但 DeepSeek 通过艰苦的努力把技术做到极致,在前人公开成果基础上,登上新的技术高峰。
第 3 波人工智能兴起后,美国政府、AI 龙头企业和投资界形成一个基本信念:发展人工智能需要高算力,而目前实现人工智能计算性能最高的芯片就是英伟达的 GPU。因此,美国认为只要控制 GPU 的销售,就能在人工智能领域独霸全球。特朗普在就职典礼第 2 天就签署法案,启动星际之门计划,投资 5000 亿美元,打造人工智能的基础设施。可见,美国政府是把夯实人工智能的算力基础当成维持其全球领导地位的关键。以英伟达为代表的美国 AI 龙头企业,有真老虎的一面,也有纸老虎的另一面。初生牛犊不怕虎的年轻的中国科技工作者,在纸老虎上戳了一个洞,让世人看清了原来这只老虎也没有那么可怕。DeepSeek 震撼全球就是揭示真相的威力。
2 “规模法则(Scaling Law)”是否已遇天花板
2020 年 1 月,OpenAI 发表论文《神经语言模型的规模法则》(
Scaling Laws for Neural Language Models
),提出规模法则:“通过增加模型规模、数据量和计算资源,可以显著提升模型性能。”在 AI 领域,规模法则被一些人认为是“公理”,俗称“大力出奇迹”,OpenAI 等龙头企业和美国的 AI 投资界把它当成制胜法宝。
但规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是 OpenAI 等公司近几年研制大模型的经验归纳。从科学研究的角度看,属于一种对技术发展趋势的猜想;从投资的角度看,属于对某种技术路线的押注。人工智能是对未来技术的探索。技术路线存在多种可能,人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一种信仰或猜想当成科学公理,不是科学的态度。近几年大模型训练的实际效果表明,要获得大模型性能的线性增长,必须在模型规模、数据量和算力投入上高指数性的增长,几个月就翻一倍。从 GPT-3 到 GPT-4,参数规模增加约 10 倍,用于训练的 GPU 数量增加了近 24 倍,总计算量增加了近 70 倍。任何投入的高指数性增加都不可能是长久的,民航大飞机的速度提高、集成电路的主频提高等都是到适当的时候就停止了,大模型也应该不会破例。
鼓吹“Scaling Law”的人,常以强化学习之父理查德·萨顿(Richard S.Sutton)的文章“苦涩的教训”作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在 AI 领域胜出。”但是,萨顿本人这两年对“Scaling Law”做了深刻反思。他指出,虽然 Scaling Law 在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,这些能力往往难以通过简单地增加算力来实现。
但现在就说规模法则已经走到尽头,也没有根据。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距。继续扩大神经网络的规模和增加训练的数据量,是否还能取得与投入相称的回报,要看今后的实际效果。但 GPT-5 迟迟不能问世,可能说明规模扩张的效果已经不太明显。图灵奖得主杨立昆(Yann LeCun)和 OpenAI 前首席科学家伊利亚·苏茨克维(IlyaSutskever)等直言,规模法则已触及天花板。
DeepSeek 的出现,逼迫 AI 界严肃地思考这一技术发展路线问题:是继续投入巨资追求高算力,还是另辟蹊径,在算法优化上下更多功夫?DeepSeek 的问世标志着人工智能训练模式从“大力出奇迹”的外延式发展阶段,转向集约化系统优化的内涵式发展阶段。DeepSeek 的成功并没有否定算力在人工智能发展中的重要作用。实际上,由于用于推理的设备比训练设备多得多,推理所需要的算力将来会成为主要需求。但绿色发展是必须遵循的大原则,降低人工智能所需要的能耗一定是科技界的重要目标。
“通用人工智能”是一个模糊的没有形成广泛共识的术语。OpenAI 公司追求的通用人工智能(artificial general intelligence,AGI)是其中的一种,指的是 AI 在多个领域以人类水平处理复杂问题的能力。人工智能界有一个莫拉维克悖论:“复杂的问题是易解的,简单的问题反而是难解的。”从这个角度看,能解复杂问题的人工智能不一定就是通用人工智能。许多人认为,能够应对设计者预料之外的情况,才叫“通用”。因此,人工智能学术界更关注智能系统持续学习,自我改进的能力。人工智能的通用性不仅表现在对语言的处理上,还包括像人一样基于常识和日常经验与外部客观世界互动的能力。
人工智能是对人类智能某一个方面的再现和超越。在科学技术领域,所谓“通用”一定是相对的,有一定的条件或范围。我们要认识人工智能的局限性,不能盲目追求能够解决所有问题的人工智能。重点还是要根据实际需求,将相对通用的人工智能技术落地到各个行业,让一定范围内的人工智能技术见到实效。实现通用智能是一个渐进过程,不会因某项技术的发明就突然到来。人工智能的通用性已经比前两波有明显的提高,但在某些应用中通过图灵测试只是阶段性成果,目前的技术离真正的通用智能还有较大差距。
究竟如何才能实现通用人工智能,现在还没有结论。DeepSeek 和 OpenAI 都以发展“通用人工智能”为目标,但走的路径不一样。OpenAI 公司相信 Scaling Law 正在尽量扩大模型规模,希望先做出通用的基础模型,再“蒸馏”出各行业可使用的行业垂直模型,走的是“由通到专”的路。除降低通用大模型的训练成本外,如何在保持泛化能力的同时,提高在特定领域或任务上的性能和效率,仍是需要解决的问题。与之相反,DeepSeek 走的是“由专到通”的人工智能发展之路,试图在模型算法和工程优化方面进行系统级创新,为在受限资源下探索通用人工智能开辟新的道路。所谓“混合专家模型”就是集小智为大智,集专智为通智。“小而精”的模型将人工智能的重点发展方向从面向企业的 to B 引向更贴近消费者的 to C,从广泛覆盖的“横向通吃”引向深入钻研的“纵向做精”,让更多的中小企业参与,可能会创造更大市场空间。但整合多个专用模型为通用模型也需要解决诸多技术和工程问题,如模型间的接口、数据格式的统一、训练时的负载平衡等。
通用与专用的竞争是技术发展的普遍现象,集成电路领域就有“通用”与“专用”10 年交替演化的“牧本周期”。“由通到专”和“由专到通”的人工智能,究竟哪条路能走通,还要等历史下结论。也许最后的结果是通专融合,专用多模型的“垂直做精”与通用大模型的“横向扩展”形成互补,共同构建起智能时代的产业新生态。
4 发展人工智能应该追求高算力还是高算效(高能效)