姜黎
农历新年期间,笔者问了深度求索(DeepSeek)一个问题:相比GPT-4,你能节省多少算力?以下节选了部分DeepSeek的回答:
目前没有官方公开的详细数据,但可以通过模型架构和已知信息进行合理推测:
模型规模优化:GPT-4的参数量约为1.8万亿(推测),采用混合专家(MoE)架构,训练消耗约2.15e25 FLOPs。DeepSeek公开的模型(如DeepSeek-R1)参数量显著更小(约百亿级),通过稀疏激活和架构优化实现高效计算,理论上训练算力需求可能降低1-2个数量级。
实际场景差异:在同等任务下,DeepSeek的推理速度可达GPT-4的3-5倍(部分公开测试数据),显存占用降低约60%。
根据Visual Capitalist网站数据,截至2024年3月,美国拥有全世界最多的数据中心,达5381个,德国、英国、中国均拥有500个左右,分别为521个、514个和449个。2024年,美国科技公司仍在四处“求电”。
随着生成式AI技术研发进入爆发期,其激增的能源电力需求给美国电网带来巨大压力,eo此前转引彭博社的一份报告显示,美国超过3/4的高度失真功率读数位于大型数据中心50英里范围之内,表明数据中心可能引发谐波问题,进而影响电力系统平稳运行。
2024年9月,英伟达和谷歌等多家科技公司负责人拜访美国白宫,提出请政府资助建设强大能源设施来支持顶级AI模型训练的设想,建议建造多个巨型数据中心,每个数据中心的电力需求堪比整个纽约市的用电量。
除了希望政府支持发展数据中心,为生成式AI大模型发展蓄力外,它们还看中了核电这种性能与数据中心需求相对匹配的电源品种,并尝试投资新的核能利用技术,核电巨头Constellation Energy以及部分初创公司如Oklo也因此成为炙手可热的合作对象。
这种新的巨大用能需求曾一度让部分电力从业者认为,变革者来了。但DeepSeek的出现,可能改变刚刚出现的变化。通过更高效的计算,DeepSeek的算力需求相比OpenAI锐减,“分布式“部署算力,即人手一套DeepSeek也成为选项之一,AI可能不再是电力“巨兽”。
不过,美国麻省理工学院技术评论(MIT Technology Review)网站发表的一篇文章提到,在40个提示的测试中,DeepSeek被发现与Meta模型具有类似的能源效率,但DeepSeek倾向于生成更长的回答,因此被发现多使用了87%的能源。
只是不同模型具有不同的用途,尚未进行科学合理的研究来比较DeepSeek相对于其竞争对手的能源使用情况。