从2月24日开始,在持续五天的“开源周”期间,DeepSeek每天开源一个核心技术项目,覆盖AI模型训练、文件系统优化等多个领域。
第一天被开源的是FlashMLA,这是一个针对英伟达Hopper GPU进行优化的高效MLA解码内核,专为处理可变长度序列设计,适用于高性能AI任务。根据官方介绍,使用FlashMLA之后,在H800 GPU上可以实现3000GB/s的内存带宽和580TFLOPS的计算性能。
第二天被开源的是DeepEP,这是首个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。
DeepEP的特点包括:高效且优化的全对全(all-to-all)通信;节点内和节点间支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;实现计算通信重叠的灵活GPU资源控制。
第三天,DeepSeek开源了DeepGEMM,这也是“开源周”期间的一大亮点。GEMM(General Matrix Multiply,通用矩阵乘法)是深度学习和高性能计算中非常重要的计算操作,根据官方介绍,DeepGEMM是一个高效的FP8 GEMM库,支持传统稠密模型和MoE模型的GEMM运算;在英伟达Hopper GPU上可以实现1350+ TFLOPS的FP8性能;关键是其核心逻辑约300行,但在大多数矩阵大小上均优于专家调整的内核。
第四天,DeepSeek一口气开源了三个项目:用于V3/R1训练中计算通信重叠的双向流水线并行算法DualPipe,适用于V3/R1的专家并行负载平衡器EPLB,以及公开分享了来自DeepSeek的训练和推理框架的分析数据,目的是帮助社区更好地了解通信计算重叠策略和底层实现细节。
最后一天,DeepSeek开源的3FS是一个高性能并行文件系统,专为AI训练和推理工作负载设计,特点是支持强一致性和高吞吐量(180节点集群中实现6.6 TiB/s的聚合读取吞吐量);支持多样化工作负载,包括数据准备、数据加载、检查点保存和推理KVCache;结合现代SSD和RDMA网络,简化分布式应用程序开发。
这些开源项目不仅展示了DeepSeek在硬件优化、算法设计和分布式计算方面的深厚积累,也为AI开发者提供了强大的工具和基础设施。
值得一提的是,在“开源周”期间,DeepSeek 开放平台推出错峰优惠活动。北京时间每日00:30至 8:30的夜间空闲时段,API调用价格被大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1价格更低至原价的25%。
DeepSeek官方表示,鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。
在DeepSeek“开源周”收官日,OpenAI
终于发布了GPT-4.5的研究预览版,宣称是其迄今为止最大、知识最丰富的模型。
GPT-4.5受外界关注的一大特点是“更通人性”。根据官方介绍,早期测试表明,与GPT-4.5交互感觉更自然,它的知识库更广泛,跟踪用户意图的能力更强,而且“情商”更高,这让它在提高写作、编程和解决实际问题等任务上非常有用。
从OpenAI官网展示的使用案例来看,当被询问“帮助度过困难时期”时,GPT-4o给出了一系列解决方案,而GPT-4.5虽然回答内容字数更短,但表现出更高的“情商”,“AI味”或者“人机味”降低了不少,更像一个现实中的朋友。
不过,GPT-4.5的使用门槛不低,OpenAI的CEO山姆·奥特曼表示,这是一个庞大且昂贵的模型。随着规模壮大,OpenAI已经耗尽了GPU资源,下周将增加数万张GPU。目前仅订阅ChatGPT Pro的用户可以使用GPT-4.5,而ChatGPT Pro每月的订阅费为200美元。
值得注意的是,GPT-4.5是OpenAI最后一款“非链式思维(non-chain-of-thought)”模型。此后,OpenAI将致力于融合o系列与GPT系列,推出整合多项新功能的GPT-5。
2024年9月发布的推理模型OpenAI o1在在回答问题前会进行深入思考,并生成一条内部推理链,使其在尝试解决问题时可以识别并纠正错误。尤其是在DeepSeek R1推出之后,大模型技术在理解和推理能力上的显著进步逐渐成为AI领域的主导趋势。
与这种趋势相对的是,2月27日,腾讯混元推出了一款区别Deepseek R1等需要“想一下再回复”的慢思考模型、可以“秒回”的快思考模型Turbo S混元。
腾讯表示,慢思考模型在深度思考和推理能力上表现出色,但相应地,推理所需时间也更长。就像人类90%以上的决策依赖直觉,大模型除了拆解逻辑、理性推理的慢思考,同样需要「即时响应、流畅生成」的快思考。快、慢思考的结合和补充,可以让大模型智能且高效地解决问题。
混元Turbo S主打更快的任务处理能力——吐字速度提升1倍,首字时延降低44%,并通过架构优化大幅降低部署成本,帮助更多企业与开发者以更低门槛使用高效AI大模型。
目前,Turbo S已在腾讯云官网正式上线,API定价输入为0.8元/百万tokens,输出为2元/百万tokens,相比前代混元Turbo模型价格下降数倍。同时,腾讯元宝也将逐步开启Turbo S的灰度上线。
另一科技巨头阿里旗下通义千问(Qwen)团队则在本周发布了最新推理模型深度思考(QwQ)预览版。
深度思考(QwQ)是在QWQ-MAX-PREVIEW支持下基于Qwen2.5-Max的推理模型,擅长数学理解、编程、AI智能体等,展示出更强大、更全面的推理和解决问题的能力。
据路透社报道,知情人士称,由于对DeepSeek低成本人工智能模型的需求激增,中国企业正在增加英伟达H20人工智能芯片的订单。报道
提到,自DeepSeek上个月进入全球公众视野以来,腾讯、阿里巴巴和字节跳动对H20的订单“大幅增加”。
本周,英伟达在市场瞩目下披露了2025财年业绩,营收中有53%来自美国以外的地区。在美国出口管制下,英伟达向中国客户只能供应性能缩水的芯片,英伟达CEO黄仁勋在电话会上表示,在第四财季,中国业务的营收和之前大致相同,约为出口管制实施前的一半。