专栏名称: 国际金融报
依托国际金融报平台,第一时间为您传递金融资讯,解读金融热点,评点金融趋势。
目录
相关文章推荐
中国金融杂志  ·  国家外汇局最新公布! ·  11 小时前  
国际金融报  ·  奔驰在华裁员15%,赔偿N+9?公司回应→ ·  18 小时前  
招银理财  ·  债市风云变幻,晴雨一表掌握! ·  20 小时前  
招银理财  ·  债市风云变幻,晴雨一表掌握! ·  20 小时前  
国际金融报  ·  齐鲁制药曝出13.51亿虚开发票案!后续或“ ... ·  2 天前  
金融早实习  ·  兴业银行2026届实习生招聘 ·  2 天前  
51好读  ›  专栏  ›  国际金融报

DeepSeek开源周收官,亮点“五连发”!阿里、腾讯、OpenAI也有大动作……

国际金融报  · 公众号  · 金融  · 2025-02-28 23:55

正文


AI领域本周依旧重磅消息不断。


2月28日,DeepSeek连续五天的“开源周”迎来收官日,带来了Fire-Flyer File System(Fire-Flyer文件系统,简称3FS)和基于3FS的数据处理框架Smallpond。

DeepSeek大模型对3FS的解释是一个高性能并行文件系统,专为现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络设计,旨在解决AI训练和推理工作负载中的存储瓶颈问题。

同日,OpenAI发布了GPT-4.5的研究预览版。OpenAI官方介绍称,这是其迄今为止最大、知识最丰富的模型;并且,GPT-4.5能够更好地理解人类的意思,以更细致入微的“情商”来解读微妙的暗示或隐含的期望。

国内科技巨头也在不断创新,推动全球AI竞赛升温。本周二,阿里旗下通义千问(Qwen)团队发布了新推理模型——深度思考 (QwQ)预览版;周四,腾讯混元发布了自研快思考模型Turbo S,区别于Deepseek R1的慢思考模型,特点是任务处理能力更快。


DeepSeek开源了什么?


从2月24日开始,在持续五天的“开源周”期间,DeepSeek每天开源一个核心技术项目,覆盖AI模型训练、文件系统优化等多个领域。

第一天被开源的是FlashMLA,这是一个针对英伟达Hopper GPU进行优化的高效MLA解码内核,专为处理可变长度序列设计,适用于高性能AI任务。根据官方介绍,使用FlashMLA之后,在H800 GPU上可以实现3000GB/s的内存带宽和580TFLOPS的计算性能。

第二天被开源的是DeepEP,这是首个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

DeepEP的特点包括:高效且优化的全对全(all-to-all)通信;节点内和节点间支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;实现计算通信重叠的灵活GPU资源控制。

第三天,DeepSeek开源了DeepGEMM,这也是“开源周”期间的一大亮点。GEMM(General Matrix Multiply,通用矩阵乘法)是深度学习和高性能计算中非常重要的计算操作,根据官方介绍,DeepGEMM是一个高效的FP8 GEMM库,支持传统稠密模型和MoE模型的GEMM运算;在英伟达Hopper GPU上可以实现1350+ TFLOPS的FP8性能;关键是其核心逻辑约300行,但在大多数矩阵大小上均优于专家调整的内核。

第四天,DeepSeek一口气开源了三个项目:用于V3/R1训练中计算通信重叠的双向流水线并行算法DualPipe,适用于V3/R1的专家并行负载平衡器EPLB,以及公开分享了来自DeepSeek的训练和推理框架的分析数据,目的是帮助社区更好地了解通信计算重叠策略和底层实现细节。

最后一天,DeepSeek开源的3FS是一个高性能并行文件系统,专为AI训练和推理工作负载设计,特点是支持强一致性和高吞吐量(180节点集群中实现6.6 TiB/s的聚合读取吞吐量);支持多样化工作负载,包括数据准备、数据加载、检查点保存和推理KVCache;结合现代SSD和RDMA网络,简化分布式应用程序开发。

这些开源项目不仅展示了DeepSeek在硬件优化、算法设计和分布式计算方面的深厚积累,也为AI开发者提供了强大的工具和基础设施。

值得一提的是,在“开源周”期间,DeepSeek 开放平台推出错峰优惠活动。北京时间每日00:30至 8:30的夜间空闲时段,API调用价格被大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1价格更低至原价的25%。

DeepSeek官方表示,鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。


AI巨头动作不断


在DeepSeek“开源周”收官日,OpenAI 终于发布了GPT-4.5的研究预览版,宣称是其迄今为止最大、知识最丰富的模型。

GPT-4.5受外界关注的一大特点是“更通人性”。根据官方介绍,早期测试表明,与GPT-4.5交互感觉更自然,它的知识库更广泛,跟踪用户意图的能力更强,而且“情商”更高,这让它在提高写作、编程和解决实际问题等任务上非常有用。

从OpenAI官网展示的使用案例来看,当被询问“帮助度过困难时期”时,GPT-4o给出了一系列解决方案,而GPT-4.5虽然回答内容字数更短,但表现出更高的“情商”,“AI味”或者“人机味”降低了不少,更像一个现实中的朋友。

不过,GPT-4.5的使用门槛不低,OpenAI的CEO山姆·奥特曼表示,这是一个庞大且昂贵的模型。随着规模壮大,OpenAI已经耗尽了GPU资源,下周将增加数万张GPU。目前仅订阅ChatGPT Pro的用户可以使用GPT-4.5,而ChatGPT Pro每月的订阅费为200美元。

值得注意的是,GPT-4.5是OpenAI最后一款“非链式思维(non-chain-of-thought)”模型。此后,OpenAI将致力于融合o系列与GPT系列,推出整合多项新功能的GPT-5。

2024年9月发布的推理模型OpenAI o1在在回答问题前会进行深入思考,并生成一条内部推理链,使其在尝试解决问题时可以识别并纠正错误。尤其是在DeepSeek R1推出之后,大模型技术在理解和推理能力上的显著进步逐渐成为AI领域的主导趋势。

与这种趋势相对的是,2月27日,腾讯混元推出了一款区别Deepseek R1等需要“想一下再回复”的慢思考模型、可以“秒回”的快思考模型Turbo S混元。

腾讯表示,慢思考模型在深度思考和推理能力上表现出色,但相应地,推理所需时间也更长。就像人类90%以上的决策依赖直觉,大模型除了拆解逻辑、理性推理的慢思考,同样需要「即时响应、流畅生成」的快思考。快、慢思考的结合和补充,可以让大模型智能且高效地解决问题。

混元Turbo S主打更快的任务处理能力——吐字速度提升1倍,首字时延降低44%,并通过架构优化大幅降低部署成本,帮助更多企业与开发者以更低门槛使用高效AI大模型。

目前,Turbo S已在腾讯云官网正式上线,API定价输入为0.8元/百万tokens,输出为2元/百万tokens,相比前代混元Turbo模型价格下降数倍。同时,腾讯元宝也将逐步开启Turbo S的灰度上线。

另一科技巨头阿里旗下通义千问(Qwen)团队则在本周发布了最新推理模型深度思考(QwQ)预览版。

深度思考(QwQ)是在QWQ-MAX-PREVIEW支持下基于Qwen2.5-Max的推理模型,擅长数学理解、编程、AI智能体等,展示出更强大、更全面的推理和解决问题的能力。

据路透社报道,知情人士称,由于对DeepSeek低成本人工智能模型的需求激增,中国企业正在增加英伟达H20人工智能芯片的订单。报道 提到,自DeepSeek上个月进入全球公众视野以来,腾讯、阿里巴巴和字节跳动对H20的订单“大幅增加”。

本周,英伟达在市场瞩目下披露了2025财年业绩,营收中有53%来自美国以外的地区。在美国出口管制下,英伟达向中国客户只能供应性能缩水的芯片,英伟达CEO黄仁勋在电话会上表示,在第四财季,中国业务的营收和之前大致相同,约为出口管制实施前的一半。



记者 蔡淑敏

文字编辑 马杰克

版面编辑 孙霄

—— / 好文推荐 / ——







请到「今天看啥」查看全文