DeepSeek在模型架构、模型训练、算法等多个环节进行了创新,通过优化Transformer和MOE组合架构、构建FP8混合精度训练框架、推出新的强化学习算法GRPO等,实现了高性价比的模型。其创新并非仅仅是单点创新,而是密集创新。
DeepSeek在某些方面已经超越了OpenAI的水平,特别是在模型性能和性价比方面。然而,在基础大模型方面,OpenAI仍然处于领先地位。DeepSeek的创新并非颠覆式创新,而是在业界主流方向上的杰出工程创新。
全球人工智能竞争激烈,不仅有OpenAI等美国顶尖人工智能公司的强劲竞争,还有众多中国优秀人工智能公司的挑战。DeepSeek面临着保持持续创新的压力,同时需要关注大模型技术进步的速度以及基础大模型的质量对各行各业人工智能应用的影响。此外,地缘政治因素也可能对技术创新产生影响。
人工智能正处于创新爆发期,唯有持续创新,才能留在舞台中心
文|
《财经》执行主编
马克
DeepSeek春节前夕爆火,迄今热度不减。DeepSeek彻底走开源路线,它的大模型既性能优异,训练成本和使用成本又都超低,让人工智能从业者燃起了“我也能行”的希望,让各行各业燃起了“赶紧把人工智能用起来吧”的热情。
伴随着这些振奋人心的消息,也有一些真假难辨的说法同时在流传,例如DeepSeek颠覆了人工智能的发展方向,DeepSeek的水平已经超过人工智能行业的领头羊OpenAI;或者,DeepSeek是个巨大泡沫,它只是“蒸馏”了OpenAI的模型。
为搞清楚这些说法,这些天我研读了很多资料,也请教了一些专家,对
DeepSeek究竟创新了什么、能否持续创新
有了初步答案。
先说第一个问题的结论:
DeepSeek的大模型采用了更加高效的模型架构方法、训练框架和算法,是巨大的工程创新,但不是从0到1的颠覆式创新。DeepSeek并未改变人工智能行业的发展方向,但大大加快了人工智能的发展速度。
为何会得出这个结论?我们需要先了解人工智能技术的发展脉络。
人工智能发端于上世纪40年代,已经发展了近80年,奠基人是英国计算机科学家艾伦·图林(Alan Turing)。以他的名字命名的图林奖是计算机科学界的诺贝尔奖。
如今,主导人工智能行业的是大模型技术,主导应用是生成式AI——生成语义、语音、图像、视频。
无论DeepSeek系列,还是OpenAI的GPT系列,还是豆包、Kimi、通义千问、文心一言,都属于大模型家族。
大模型的理论基础是神经网络,这是一种试图让计算机摹仿人脑来工作的理论,该理论和人工智能同时发端,但头40年都不是主流。20世纪80年代中后期,多层感知机模型和反向传播算法得到完善,神经网络理论才有了用武之地。多人对此作出关键贡献,其中最为我们熟知的是去年获得诺贝尔物理学奖的杰弗里・辛顿(Geoffrey Hinton),他拥有英国和加拿大双重国籍。
神经网络理论后来发展为深度学习理论,关键贡献者除了被誉为“深度学习之父”的杰弗里・辛顿,还有法国人杨·勒昆(Yann LeCun,中文名杨立昆)、德国人尤尔根・施密德胡伯(jürgen schmidhuber)。他们分别提出或完善了三种模型架构方法:深度信念网络(DBN,2006)、卷积神经网络(CNN,1998)、循环神经网络(RNN,1997),让基于多层神经网络的机器深度学习得以实现。
但到此为止,都是小模型时代,DBN和RNN的参数量通常是几万到几百万,CNN参数量最大,也只有几亿。因此只能完成专门任务,比如基于CNN架构的谷歌AlphaGo,打败了顶尖人类围棋手柯洁和李世石,但它除了下围棋啥也不会。
2014年,开发AlphaGo的谷歌DeepMind团队首次提出“注意力机制”。
同年底,蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)和他的两名博士生发表更详尽的论文,这是神经网络理论的重大进步,极大增强了建模能力、提高了计算效率、让大规模处理复杂任务得以实现。
约书亚·本吉奥、杨·勒昆、杰弗里・辛顿一起获得了2019年的图林奖。
2017年,谷歌提出完全基于注意力机制的Transformer架构,开启大模型时代。
迄今,包括DeepSeek在内的主流大模型都采用该架构。强化学习理论(Reinforcement Learning,RL)、混合专家模型(Mixture of Experts,MOE,又译稀疏模型)也是大模型的关键支撑,相关理论均在上世纪90年代提出,21世纪10年代后期由谷歌率先用于产品开发。
顺便澄清一个普遍误解,MOE并不是和Transformer并列的另一种模型架构方法,而是一种用来优化Transformer架构的方法。
今天的主流大模型,参数量已达万亿级,DeepSeek V3是6710亿。如此大的模型,对算力的需求惊人,而英伟达的GPU芯片正好提供了算力支持,
英伟达在AI芯片领域的垄断地位,既让它成为全球市值最高的公司,也让它成为中国AI公司的痛点
。
谷歌在大模型时代一路领先,但这几年站在风口上的并不是谷歌,而是2015年才成立的OpenAI,它的各类大模型一直被视为业界顶流,被各路追赶者用来对标。
这说明在人工智能领域,看似无可撼动的巨头,其实并非无法挑战。人工智能技术虽然发展了80年,但真正加速也就最近十几年,进入爆发期也就最近两三年,后来者始终有机会。
DeepSeek公司2023年7月才成立,它的母体幻方量化成立于2016年2月,也比OpenAI年轻。人工智能就是一个英雄出少年的行业。
开发出能像人一样自主思考、自主学习、自主解决新问题的通用人工智能系统(Artificial General Intelligence,AGI),是AI业界的终极目标,无论奥特曼还是梁文峰,都把这个作为自己的使命。他们都选择了大模型方向,这是业界的主流方向。
沿着大模型方向,要花多久才能实现AGI?乐观的预测是3-5年,保守的预测是5-10年。也就是说,业界认为最迟到2035年,AGI就可实现。
大模型的竞争至关重要,大模型是各行各业人工智能应用的最上游,它就像人的大脑,大脑指挥四肢,大脑的质量决定整个人的学习、工作、生活质量。
当然,大模型并非通往AGI的唯一路径。正如上世纪90年代后“深度学习-大模型”路线颠覆了人工智能头几十年的“规则系统-专家系统”路线,“深度学习-大模型”路线也有可能被颠覆,只是我们现在还看不到谁会是颠覆者。
如今,DeepSeek又成了挑战者,它真的已经超越OpenAI了吗?并非如此。
DeepSeek在局部超过了OpenAI的水平,但整体而言OpenAI仍然领先。
先来看双方的基础大模型,OpenAI是2024年5月发布的GPT4-o,DeepSeek是2024年12月26日发布的V3。斯坦福大学基础模型研究中心有个全球大模型综合排名,最新排名是今年1月10日,一共六个指标,各指标得分加总后,DeepSeek V3总分4.835,名列第一;GPT4-o(5月版)总分4.567,仅列第六。第二到第五名都是美国模型,第二名是Claude 3.5 Sonnet,总分4.819,开发这个模型的Anthropic公司2021年2月才成立。
推理模型是大模型的新发展方向,因为它的思维模式更像人
,前面说了,开发出能像人一样自主思考、自主学习、自主解决新问题的通用人工智能是AI业界的终极目标。
2024年9月12 日,OpenAI发布世界上第一款推理大模型猎户座1号(orion1 ,o1)
,o1在解决数学、编程和科学问题上的能力提升惊人,
但OpenAI走闭源路线,不公布技术原理,更别提技术细节
。一时间,如何复刻o1,成为全世界AI从业者的追求。
仅仅四个月后,今年1月20日,DeepSeek发布世界第二款推理大模型R1,名字朴实无华,R就是推理(Reasoning)的缩写。测评结果显示,DeepSeek-R1与OpenAI-o1水平相当。但OpenAI 2024年12月20日推出了升级版o3,性能大大超过o1。目前还没有R1和o3的直接测评对比数据。
多模态也是大模型的重要发展方向——既能生成语义(写代码也属于语义),也能生成语音、图像、视频,其中视频生成最难,消耗的计算资源最多。DeepSeek 2024年10月发布首个多模态模型Janus,今年1月28日发布其升级版Janus-Pro-7B,其图像生成能力在测试中表现优异,但视频能力如何尚无从知晓。GPT-4是多模态模型但不能生成视频,不过OpenAI拥有专门的视频生成模型Sora。
把模型做小做精,少消耗计算资源是另一个业界趋势
,混合专家模型的设计思路就是这个目的,推理模型也能减少通用大模型的惊人消耗。在这方面,DeepSeek的表现明显比OpenAI优异,这些天最被人津津乐道的就是DeepSeek的模型训练成本只有OpenAI的1/10,使用成本只有1/30。
DeepSeek能够做到如此高的性价比,是因为它的模型里面有杰出的工程创新,不是单点创新,而是密集创新,每一个环节都有杰出创新。
这里仅举三例。
★模型架构环节:大为优化的Transformer + MOE组合架构。
前面说过,这两个技术都是谷歌率先提出并采用的,但DeepSeek用它们设计自己的模型时做了巨大优化,并且首次在模型中引入多头潜在注意力机制(Multi-head Latent Attention,MLA),从而大大降低了算力和存储资源的消耗。
★模型训练环节:FP8混合精度训练框架。
传统上,大模型训练使用32位浮点数(FP32)格式来做计算和存储,这能保证精度,但计算速度慢、存储空间占用大。如何在计算成本和计算精度之间求得平衡,一直是业界难题。2022年,英伟达、Arm和英特尔一起,最早提出8位浮点数格式(FP8),但因为美国公司不缺算力,该技术浅尝辄止。DeepSeek则构建了FP8 混合精度训练框架,根据不同的计算任务和数据特点,动态选择FP8或 FP32 精度来进行计算,把训练速度提高了50%,内存占用降低了40%。
★算法环节:新的强化学习算法GRPO。
强化学习的目的是让计算机在没有明确人类编程指令的情况下自主学习、自主完成任务,是通往通用人工智能的重要方法。强化学习起初由谷歌引领,训练AlphaGo时就使用了强化学习算法,但是OpenAI后来居上,2015年和2017年接连推出两种新算法TRPO(Trust Region Policy Optimization,信任区域策略优化)和PPO (Proximal Policy Optimization,近端策略优化),DeepSeek更上层楼,推出新的强化学习算法GRPO( Group Relative Policy Optimization 组相对策略优化),在显著降低计算成本的同时,还提高了模型的训练效率。
(GRPO算法公式。Source:DeepSeek-R1论文)
看到这里,对于“DeepSeek只是‘蒸馏’了OpenAI模型”的说法,你肯定已经有了自己的判断。但是,
DeepSeek的创新是从0到1的颠覆式创新吗?
显然不是。颠覆式创新是指那种开辟了全新赛道,或导致既有赛道彻底转向的创新。比如,汽车的发明颠覆了交通行业,导致马车行业消失;智能手机取代功能手机,虽没有让手机行业消失,但彻底改变了手机的发展方向。
回顾人工智能简史,我们清楚看到,
DeepSeek是沿着业界的主流方向前进,他们做了许多杰出的工程创新,缩短了中美AI的差距,但仍处于追赶状态。
白宫人工智能顾问大卫·萨克斯(David Sacks)评价说:DeepSeek-R1让中美的差距从6-12月缩短到3-6个月。
萨克斯说的是模型性能,但
更加意义非凡的是性价比——训练成本1/10、使用成本1/30,这让尖端AI技术飞入寻常百姓家成为现实。
最近两周,各行各业的领头羊纷纷接入DeepSeek大模型,部署本行业的应用,拥抱AI的热情前所未有。
但我必须再次提醒,大模型技术进步很快,不能对阶段性成果过于乐观。同时大模型在人工智能生态中处于最上游,是所有下游应用的依托,因此基础大模型的质量决定了各行各业人工智能应用的质量。
在DeepSeek的刺激下,萨姆·奥特曼(Sam Altman)2月13日透露了OpenAI 的发展计划:未来几周内将发布GPT-4.5,未来几个月内发布GPT-5。GPT-5将整合推理模型o3的功能,是一个包含语义、语音、可视化图像创作、搜索、深度研究等多种功能的多模态系统。
奥特曼说,今后用户不用再在一大堆模型中做选择,GPT-5 将完成所有任务,实现“魔法般的统一智能”。
果如所言,GPT-5离通用人工智能就又进了一步。
从用户角度,一个模型解决所有需求肯定大为方便,就像早年手机只能打电话,你出门还得带银行卡、购物卡、交通卡等一大堆东西,现在一部智能手机全搞定。但全搞定的同时,所需要的计算资源也会高得惊人,iPhone16的算力是当年功能机的几千万倍。奇迹在于,我们使用iPhone16的成本反而比使用诺基亚8210的成本更低。希望这样的奇迹也能发生在人工智能行业。
除了OpenAI,美国还有众多顶尖人工智能公司,他们的水平差距不大。从前面讲到的那个斯坦福大学排名就能看出来,总分第一名和第十名的分差只有0.335,平均到每个指标差距不到0.06。并且各种测评榜的排名虽是重要参考,但不等于实际能力的高下。