DeepSeek开源周收官，亮点“五连发”！阿里、腾讯、OpenAI也有大动作……

国际金融报 · 公众号 · 金融 · 2025-02-28 23:55

正文

AI领域本周依旧重磅消息不断。

2月28日，DeepSeek连续五天的“开源周”迎来收官日，带来了Fire-Flyer File System（Fire-Flyer文件系统，简称3FS）和基于3FS的数据处理框架Smallpond。

DeepSeek大模型对3FS的解释是一个高性能并行文件系统，专为现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络设计，旨在解决AI训练和推理工作负载中的存储瓶颈问题。

同日，OpenAI发布了GPT-4.5的研究预览版。OpenAI官方介绍称，这是其迄今为止最大、知识最丰富的模型；并且，GPT-4.5能够更好地理解人类的意思，以更细致入微的“情商”来解读微妙的暗示或隐含的期望。

国内科技巨头也在不断创新，推动全球AI竞赛升温。本周二，阿里旗下通义千问（Qwen）团队发布了新推理模型——深度思考 (QwQ）预览版；周四，腾讯混元发布了自研快思考模型Turbo S，区别于Deepseek R1的慢思考模型，特点是任务处理能力更快。

DeepSeek开源了什么？

从2月24日开始，在持续五天的“开源周”期间，DeepSeek每天开源一个核心技术项目，覆盖AI模型训练、文件系统优化等多个领域。

第一天被开源的是FlashMLA，这是一个针对英伟达Hopper GPU进行优化的高效MLA解码内核，专为处理可变长度序列设计，适用于高性能AI任务。根据官方介绍，使用FlashMLA之后，在H800 GPU上可以实现3000GB/s的内存带宽和580TFLOPS的计算性能。

第二天被开源的是DeepEP，这是首个用于MoE（混合专家）模型训练和推理的开源EP（expert parallelism，专家并行）通信库，主要适用于大模型训练，特别是需要EP的集群训练。

DeepEP的特点包括：高效且优化的全对全（all-to-all）通信；节点内和节点间支持NVLink和RDMA；用于训练和推理预填充的高吞吐量内核；用于推理解码的低延迟内核；原生FP8调度支持；实现计算通信重叠的灵活GPU资源控制。

第三天，DeepSeek开源了DeepGEMM，这也是“开源周”期间的一大亮点。GEMM（General Matrix Multiply，通用矩阵乘法）是深度学习和高性能计算中非常重要的计算操作，根据官方介绍，DeepGEMM是一个高效的FP8 GEMM库，支持传统稠密模型和MoE模型的GEMM运算；在英伟达Hopper GPU上可以实现1350+ TFLOPS的FP8性能；关键是其核心逻辑约300行，但在大多数矩阵大小上均优于专家调整的内核。

第四天，DeepSeek一口气开源了三个项目：用于V3/R1训练中计算通信重叠的双向流水线并行算法DualPipe，适用于V3/R1的专家并行负载平衡器EPLB，以及公开分享了来自DeepSeek的训练和推理框架的分析数据，目的是帮助社区更好地了解通信计算重叠策略和底层实现细节。

最后一天，DeepSeek开源的3FS是一个高性能并行文件系统，专为AI训练和推理工作负载设计，特点是支持强一致性和高吞吐量（180节点集群中实现6.6 TiB/s的聚合读取吞吐量）；支持多样化工作负载，包括数据准备、数据加载、检查点保存和推理KVCache；结合现代SSD和RDMA网络，简化分布式应用程序开发。

这些开源项目不仅展示了DeepSeek在硬件优化、算法设计和分布式计算方面的深厚积累，也为AI开发者提供了强大的工具和基础设施。

值得一提的是，在“开源周”期间，DeepSeek 开放平台推出错峰优惠活动。北京时间每日00:30至 8:30的夜间空闲时段，API调用价格被大幅下调：DeepSeek-V3降至原价的50%，DeepSeek-R1价格更低至原价的25%。

DeepSeek官方表示，鼓励用户充分利用这一时段，享受更经济更流畅的服务体验。

AI巨头动作不断

在DeepSeek“开源周”收官日，OpenAI 终于发布了GPT-4.5的研究预览版，宣称是其迄今为止最大、知识最丰富的模型。

GPT-4.5受外界关注的一大特点是“更通人性”。根据官方介绍，早期测试表明，与GPT-4.5交互感觉更自然，它的知识库更广泛，跟踪用户意图的能力更强，而且“情商”更高，这让它在提高写作、编程和解决实际问题等任务上非常有用。

从OpenAI官网展示的使用案例来看，当被询问“帮助度过困难时期”时，GPT-4o给出了一系列解决方案，而GPT-4.5虽然回答内容字数更短，但表现出更高的“情商”，“AI味”或者“人机味”降低了不少，更像一个现实中的朋友。

不过，GPT-4.5的使用门槛不低，OpenAI的CEO山姆·奥特曼表示，这是一个庞大且昂贵的模型。随着规模壮大，OpenAI已经耗尽了GPU资源，下周将增加数万张GPU。目前仅订阅ChatGPT Pro的用户可以使用GPT-4.5，而ChatGPT Pro每月的订阅费为200美元。

值得注意的是，GPT-4.5是OpenAI最后一款“非链式思维（non-chain-of-thought）”模型。此后，OpenAI将致力于融合o系列与GPT系列，推出整合多项新功能的GPT-5。

2024年9月发布的推理模型OpenAI o1在在回答问题前会进行深入思考，并生成一条内部推理链，使其在尝试解决问题时可以识别并纠正错误。尤其是在DeepSeek R1推出之后，大模型技术在理解和推理能力上的显著进步逐渐成为AI领域的主导趋势。

与这种趋势相对的是，2月27日，腾讯混元推出了一款区别Deepseek R1等需要“想一下再回复”的慢思考模型、可以“秒回”的快思考模型Turbo S混元。

腾讯表示，慢思考模型在深度思考和推理能力上表现出色，但相应地，推理所需时间也更长。就像人类90%以上的决策依赖直觉，大模型除了拆解逻辑、理性推理的慢思考，同样需要「即时响应、流畅生成」的快思考。快、慢思考的结合和补充，可以让大模型智能且高效地解决问题。

混元Turbo S主打更快的任务处理能力——吐字速度提升1倍，首字时延降低44%，并通过架构优化大幅降低部署成本，帮助更多企业与开发者以更低门槛使用高效AI大模型。

目前，Turbo S已在腾讯云官网正式上线，API定价输入为0.8元/百万tokens，输出为2元/百万tokens，相比前代混元Turbo模型价格下降数倍。同时，腾讯元宝也将逐步开启Turbo S的灰度上线。

另一科技巨头阿里旗下通义千问（Qwen）团队则在本周发布了最新推理模型深度思考（QwQ）预览版。

深度思考（QwQ）是在QWQ-MAX-PREVIEW支持下基于Qwen2.5-Max的推理模型，擅长数学理解、编程、AI智能体等，展示出更强大、更全面的推理和解决问题的能力。

据路透社报道，知情人士称，由于对DeepSeek低成本人工智能模型的需求激增，中国企业正在增加英伟达H20人工智能芯片的订单。报道提到，自DeepSeek上个月进入全球公众视野以来，腾讯、阿里巴巴和字节跳动对H20的订单“大幅增加”。

本周，英伟达在市场瞩目下披露了2025财年业绩，营收中有53%来自美国以外的地区。在美国出口管制下，英伟达向中国客户只能供应性能缩水的芯片，英伟达CEO黄仁勋在电话会上表示，在第四财季，中国业务的营收和之前大致相同，约为出口管制实施前的一半。

记者蔡淑敏

文字编辑马杰克

版面编辑孙霄

—— / 好文推荐 / ——

DeepSeek开源周收官，亮点“五连发”！阿里、腾讯、OpenAI也有大动作……

正文

请到「今天看啥」查看全文