专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

直播回顾|DeepSeek对智算中心的影响——中美博弈

CDCC  · 公众号  ·  · 2025-02-27 12:00

正文

2月13日, CDCC举办的关于“DeepSeek对智算中心的影响”的直播 吸引了超过1万次观看,成为行业内的一大亮点。直播内容涵盖了多个热点关键话题,尤其在 “中美博弈格局”是局部领先还是全面压制? 这一关键点上,专家们以精准的视角解析了DeepSeek的创新其在全球算力竞争中的战略意义。 特别邀请直播嘉宾就网友的提问进行解答并发表观点。

话题回顾

DeepSeek发布时,美国股市开盘后出现大规模下跌,芯片巨头英伟达股价暴跌16.86%,美国AI 领域的明星企业,及上下游企业也同样受损。 市场分析认为,美股暴跌是因DeepSeek带来的冲击所致。 为中国在全球AI竞争中争取更多话语权。尽管美国在AI生态和高端芯片领域仍占优势。


DeepSeek既站在了巨人的肩膀上,又在此基础上进行了大量自主创新实现了突破。例如,针对中文的优化、低成本高效率的实现方式、开源免费的战略等,都体现了 DeepSeek 的独特价值。这受益于全球 AI 技术的发展,尤其是在大模型领域(如 GPT、BERT 等)的积累。它在模型架构、训练方法、优化技术等方面借鉴了国际先进经验。


但单纯分析DeepSeek 技术,会不会真的是颠覆或全面压制? 这需要冷静思考。举个较典型的例子,有些文章提到了 PTX 汇编语言和CUDA的关系,并指出关于PTX 绕过 CUDA 。这种说法可能更多是一种情绪宣泄或美好愿景。


PTX(Parallel Thread Execution)是英伟达(NVIDIA)推出的一种中间汇编语言,用于编写GPU 程序。它是CUDA 编程模型的一部分,它的存在是为了优化GPU程序的编译和执行效率。CUDA是英伟达的并行计算平台和编程模型,而PTX是CUDA编译过程中的一个中间步骤,而不是为了绕过CUDA。并不能脱离CUDA生态独立运行,而是CUDA 生态的一部分。所以这并不能真正绕开英伟达的限制,也无法冲击英伟达在GPU领域的霸权。但是 这种技术路径为我们国产技术在AI、高性能计算和芯片领域的发展路径提供了一种优化性能的方向和启示:与其依赖上层算子调用,不如深入底层进行软硬一体的优化,并验证其可行性的价值。只有通过底层技术的创新,才能真正突破技术瓶颈,推动国产技术的崛起。


未来更强大的AI模型将面临更复杂的计算需求、数据处理和硬件资源,这意味着需要更大的投资。虽然对于当前同样性能的模型,算法层面的优化可以大幅降低节省投资。正如Anthropic的CEO达里奥·阿莫迪 (Dario Amodei) 团队发表过一篇论文的结论: 仅仅算法层面的进步就让成本曲线每年能有大约1.68倍的“平移”(即同样的性能,成本下降到原来的约1/1.68)。但未来的创新和技术突破依然需要更多的资金投入。 随着模型的规模和复杂性的增加,训练这些模型的成本必然大幅上升。


“大力出奇迹” 的模式在AI领域并未终止,算力仍然是未来技术突破的关键驱动力。 尽管短期内这种模式可能显得简单粗暴,但长期来看,它可能催生新的质变,并进一步拉开技术差距。从AI过去70多年的发展历史来看,算力的重要性无可替代,未来它将继续在AI技术的发展中扮演核心角色。这种趋势对AI领域的投资、研发和竞争格局具有深远影响。


在这场中美博弈上,DeepSeek 真正意义上实现了两大突破,一个是显著成本下降。第二个是开源大模型超过闭源大模型。 在相同时期和周期上,出现这样领先趋势,标志着中国在技术上迎来新机遇,但并不意味着全面压制。目前,DeepSeek原始支持的算力格式主要有FP32、FP8和BF16,但国内芯片原生支持FP8的还较少。虽然部分国产芯片在部署时做了量化处理(例如671B),但并非完全原生支持,仍需进一步关注和优化。国产芯片在制程和支持格式上都还有一定差距,技术突破是一个渐进的过程,不能指望一蹴而就,需要冷静理性和务实。

总结

DeepSeek 的出现打破了美国在部分领域的封锁,但其并非全面压制美国。我们要保持冷静和客观,既要看到进步,也要正视差距。DeepSeek 的技术针对中文的优化、低成本高效率的实现方式、开源免费的战略等,使其在国产大模型中脱颖而出。然而,美国在 AI 生态和高端芯片领域仍占优势,仍需要继续努力突破技术瓶颈。


Q

本地部署的门槛会不会越来越低?

俞佳炀

本地部署的门槛将会越来越低。第一:DeepSeek在蒸馏技术上做了一个很好的范式,如果671B 版本的 R1且不做量化需要1000GB显存或者是多台设备协同才能完成671B模型的推理任务,尤其是在没有量化处理的情况下。会对本地部署带来相当大的压力,尤其是对于中小企业或资源有限的企业来说。那么现在通过蒸馏技术压缩到7B 的或者是70B 或者是稠密架构的模型,以更低的显存需求和成本,实现高效推理和部署,虽然过程中会带来一些性能上的损失,尤其是在模型压缩的过程中,细节和精度可能会有所降低。但这种损失通常是可接受的极大提高了性价比。

第二:清华大学MADSys团队正式开源了面向资源受限环境的KTransformers算法框架。基于该框架的技术特性,用户可以在一张RTX4090显卡的设备中部署满血671B的Deepseek。当然过程中肯定做了量化。这不仅在技术上打破了资源限制,也让本地部署大模型变得更加现实和可行,这是一种很大趋势。像 deepseek 有推断能力,带思维链(CoT)的模型走入大家的终端。本地化部署的门槛是越来越低的,对于行业大模型发展产生积极影响。


基于蒸馏技术的发展,ARM架构能够支持低比特量化的AI任务,这代表着非GPU硬件也可以承担起一些量化后的推理任务。将来在服务器侧,你可能会看到越来越多的非 GPU 的 CPU 模型来运行这些量化的版本,尤其是低比特量化在大型AI模型的应用,本地部署的可能性越来越大。尽管当前使用低比特量化来运行671B模型在准确率和性能的平衡仍然存在一些挑战,但这是未来发展的一个明显趋势。

燕晓颖


Q

字节跳动豆包大模型Foundation团队近期提出UltraMem架构推理成本最高可降低83%;百度文心一言也宣布相关应用将免费, AI应用是最大受益者吗?

黄小光

Deepseek促进大模型从预训练走向推理计算的范式转换,而且 DeepSeek 的开源,加速了强化学习技术的普及。通过海量公域数据进行预训练,目标是让模型接近人类的认知和理解能力,这一阶段依赖大规模计算资源和数据。此外,DeepSeek的开源以及从芯片厂家、云服务厂商开展生态级适配之后,Deepseek开源模型的较低成本和高性能,将催生AI大模型的应用落地解决方案,会涌现很多新的应用场景和商业模式。大模型最终还是要服务到需求侧、场景侧,我认为Deepseek只是一个典型现象,未来国内大模型将加速催生千行万业应用规模落地,将加速实现场景AI+制造、智慧城市等场景创新蝶变。







请到「今天看啥」查看全文