摘要:
通过更高效的计算,DeepSeek的算力需求相比OpenAI锐减。同时,DeepSeek使用的能源仅为美国AI技术的四十分之一到十分之一。未来,电力不再是AI发展瓶颈吗?真相没那么简单。
撰文 | Penn
编辑 | Tang
→
这是《环球零碳》的第1391篇原创
2025年春节DeepSeek(深度求索)的横空出世给全球AI界投下了一枚“重磅炸弹”。
这款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型持续火爆出圈,在全球范围内引发了巨大的关注。它不仅拿下了美国和中国区App Store免费榜的双料第一,还成为首个超越OpenAI ChatGPT的AI助手类应用。
截至2025年2月6日,DeepSeek的用户量突破2200万,在72个地区的免费苹果总榜、应用榜、效率榜位居榜首。凭借颠覆性和高性价比,DeepSeek成为继ChatGPT之后的又一个现象级AI产品,并引发AI产业链的追逐。
2月以来,国内主要云厂商联通云、京东云、阿里云、腾讯云、百度智能云和移动云等纷纷上线DeepSeek大模型,并将其纳入各自的模型商店。
稍早之前,美国科技三巨头也已率先接入DeepSeek。1月31日,英伟达宣布DeepSeek-R1模型登陆NVIDIA NIM。同一时段内,亚马逊和微软也接入DeepSeek-R1模型。英伟达更是直言不讳地表示,DeepSeek-R1具备最先进推理能力。
事实上,DeepSeek不仅震动了硅谷,也“震惊”了华尔街,还搅动了能源圈。当地时间1月27日,一场由DeepSeek引发的AI概念股大跌风暴席卷了欧美股市,
科技股市值蒸发高达1.2万亿美元,其中,芯片制造商以及为AI和数据中心供电的能源公司遭受重创。
人们普遍认为,人工智能越强大,占用的计算容量就越大,耗电量也就越大。而DeepSeek的突破性进展,彻底颠覆了“越大越好”的论调。
DeepSeek表示,
只需使用传统公司AI模型所需计算能力的一小部分就能运行,且使用的是较旧版本的英伟达芯片,使用数量也少于美国大型科技公司开发的模型。
在打破了科技行业及对人工智能成本的假设后,DeepSeek也许将迫使电力行业面临一个不愿接受的现实:
AI热潮可能不像预期的那样需要消耗那么多电力,但事实与真相没这么简单。
图说:美国能源股的飙升被DeepSeek泼下一盆冷水
来源:华尔街日报
深度求索公司在 2024 年 12 月 26 日推出了 DeepSeek-V3 模型,采用了创新的 Mixture of Experts(MoE)架构,在性能上取得显著进步。不到一个月后,深度求索公司 2025 年 1 月 20 日发布了 DeepSeek-R1 模型,专注于推理能力的提升。
DeepSeek 开源模型之所以受到广泛关注,在于其通过强化学习等技术,实现了AI大模型的低成本高效推理。其火爆出圈的关键可以用三个词描绘:开源、高性能、低成本。
据 DeepSeek 公司官网介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力,在数学、代码、自然语言推理等任务上,测评性能与美国开放人工智能研究中心(OpenAI)开发的 GPT-o1 模型正式版接近。
而这种高性能的推理能力却是建立在极低的成本之上。根据SemiAnalysis的研究,DeepSeek一共有6万张计算卡,其中A100、H800、H100各一万张,H20三万张。其中相对最先进的,是H100。
假如以这个H100为基准,假设H100的算力是100,那么A100的算力大概是50,H800的算力是60,H20的算力是15。这些计算卡的算力加起来,大概是255万。这个配置要远低于同规格的其它大模型。
通过模型架构和已知信息推测,GPT-4的参数量约为1.8万亿,一次推理调用的参数有1110亿个。相比之下,DeepSeek V3是一个比较小的大模型,总共有6710亿个参数,而且一次推理调用的参数只有370亿个。
据DeepSeek V3 技术报告,V3 模型的训练总计只需要 278.8 万 GPU 小时,相当于在 2048卡的 H800GPU 集群上训练约 2 个月,合计成本约 557.6 万美金,仅为OpenAI GPT-4o训练成本的不到十分之一,低了整整一个数量级,两者性能却被美国业内人士认为基本持平。
而以Meta去年7月发布的Llama 3.1大模型为例,训练费用是6000万美元,这在当时已经算是很便宜的大模型了,但它的训练成本依然是R1的10倍,其中能源成本占据了不小的份额。
图说:大模型训练所需GPU测算及V3模型训练成本
来源:华泰证券
相比之下,深度求索公司已经证明,它使用的算力能够远低于全球平均水平。
分析人士指出,其大语言模型使用的能源估计仅为美国人工智能技术的四十分之一到十分之一,这现实出其效率显著提高。如果DeepSeek公布的信息属实,一些人工智能查询可能根本就不需要用到数据中心。
除此之外,这还会对数据中心的冷却需求产生连锁反应。数据中心需要大量额外能源来冷却硬件,否则这些硬件在大型计算任务下可能会变得过热。DeepSeek所需的较低水平的算力也意味着,冷却需求也将下降。
通过更高效的计算,DeepSeek的算力需求相比OpenAI锐减,随之带来的能源需求也将相应的降低。因此,杰富瑞分析师Julien Dumoulin-Smith指出:“DeepSeek的出现可能意味着大型科技公司在AI计划中过度支出电力。AI占据了大多数预测中2030-2035年美国整体需求预测的约75%。”
虽然,短期来看,DeepSeek的本质是“用比别人便宜的成本做出差不多的东西”,
其低成本高效训练方法可能导致训练需求下降,对算力的需求带来抑制,从而打破人工智能革命伴随着计算和能源需求将呈指数级增长的假设。
然而,
从长远来看,随着模型的普及和应用场景的扩展,推理需求或仍将显著增长。
一方面DeepSeek 受到广泛关注或意味着 AI 应用的加速落地,AI 模型无论是训练还是推理都需要强大的算力支持。AI 应用的增多和普及或导致市场整体对于云端推理算力需求的大幅增加。
另一方面,
成本降低后反而会激发潜在的需求,部分企业可能坚持通过更强大的算力推动模型性能提升。这也就是所谓的技术效率提高往往导致需求增加的“杰文斯悖论”。
英国经济学家威廉·斯坦利·杰文斯(William Stanley Jevons)在1865年发表的《煤的问题》一书中指出,当使用某种资源的效率提高时,该资源的总消耗量反而可能会增加,而不是减少。
瓦特改良蒸汽机是说明“杰文斯悖论”的良好案例,瓦特使蒸汽机大幅降低煤耗后,反而使得更高效的蒸汽机广泛使用,提升了英国的煤炭消耗总量。
图说:瓦特改良蒸汽机验证了“杰文斯悖论”
来源:天风证券研究所
“杰文斯悖论再次出现!”微软首席执行官萨蒂亚·纳德拉在X上写道。他补充说:“随着人工智能变得更高效、更易于获取,我们将看到其使用量激增,使其成为一种我们永远无法满足的商品。”ASML CEO Christophe Fouquet也认同大模型训练成本降低可推动 AI 应用的发展,从而带动更多芯片需求。
因此,随着 AI 技术成本的下降,其应用范围将大幅扩展,最终可能导致算力需求的大幅增长,进而带来能源需求的同步增长。
此外,美国麻省理工学院技术评论(MIT Technology Review)网站发表的一篇文章提到,在40个提示的测试中,DeepSeek被发现与Meta模型具有类似的能源效率,但DeepSeek倾向于生成更长的回答,因此被发现多使用了87%的能源。
如果该模型的能源密集型“思维链”推理被添加到所有内容中,那么其在训练中节省的能源的优势也将会被抵消。
图说:DeepSeek 对能源来说可能不是个好消息
来源:MIT Technology Review
惠灵顿维多利亚大学人工智能高级讲师安德鲁·伦森也表示,DeepSeek 采用“思维链”模型,由于它使用多个步骤来回答查询,因此可能比其他模型更耗能。这些系统以前的运行成本太高,但现在由于效率的提高而变得更受欢迎。
伦森指出,DeepSeek 的影响可能是帮助美国公司了解“如何利用计算效率来构建更大、性能更好的模型,并利用新发现让他们的模型在相同的能耗下发挥更大的作用。”
人工智能技术席卷全球,AI背后的基石是算力,算力背后则是巨量的能源消耗。生成式AI革命,正与能源革命耦合在一起。
电力与算力的协同不仅是技术问题,更是涉及经济、政策、生态的系统工程,将成为全球碳中和与数字化转型的核心交汇点。当能源不再成为阻碍AI发展的瓶颈,那么AI将迎来新的跨越式发展。
正如远景科技集团董事长张雷所说,人工智能本质上是能源。随着各类大模型的相继面世,
一条人工智能界的“牛顿定律”日益明晰:智力就是能量。只要有足够的能量,能产生足够多的算力,就能产生智力。“智”即是“能”,“能”就是“智”。
“智能”将像钢铁、飞机、汽车一样,成为一款产品,只要有足够的能量,人类就可以大规模地制造智能,这是对人类历史具有颠覆性的技术突破。一场能源和人工智能的“双向奔赴”拉开序幕。
参考资料:
[1] https://www.stcn.com/article/detail/1513429.html
[2] https://usstock.jrj.com.cn/2025/02/05075247950823.shtml
[3] https://wallstreetcn.com/articles/3740143
[4] https://wallstreetcn.com/articles/3740159
[5] https://finance.sina.com.cn/jjxw/2025-02-04/doc-ineiiweu3394803.shtml
[6] https://thediplomat.com/2025/02/chinas-overlooked-ai-energy-edge-over-the-us-cheaper-energy/
[7] https://www.rfi.fr/en/international-news/20250128-deepseek-breakthrough-raises-ai-energy-questions
[8] https://www.technologyreview.com/2025/01/31/1110776/deepseek-might-not-be-such-good-news-for-energy-after-all/
[9] https://www.technologyreview.com/2025/02/04/1110918/three-things-to-know-as-the-dust-settles-from-deepseek/
[10] https://www.bnnbloomberg.ca/business/technology/2025/01/28/deepseeks-ai-model-just-upended-the-white-hot-us-power-market/
[11] https://c3newsmag.com/the-problem-with-deepseeks-energy-breakthrough/
[12] https://mp.weixin.qq.com/s/XLRLimn0_CrA-Oc4Etpg2w
[13] 20250204-天风证券-行业比较专题:DeepSeek策略三问
[14] 20250204-华泰证券-互联网行业:浅谈DeepSeek的成本和跟行业对比
[15] 20250204-华泰证券-科技行业:DeepSeek十问十答
[16] https://www.abc.net.au/news/science/2025-02-06/deepseek-innovations-ai-energy-demand-electricity-sustainability/104874376