专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
黄建同学  ·  不久以后,人人都会有一个「AI」第二大脑-2 ... ·  13 小时前  
新智元  ·  GPT-4.5首波实测来袭,算力狂飙10倍! ... ·  15 小时前  
爱可可-爱生活  ·  【[109星]Prompt-to-Leade ... ·  17 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250227225318 ·  昨天  
爱可可-爱生活  ·  [LG]《Minions: ... ·  3 天前  
51好读  ›  专栏  ›  量子位

DeepSeek第五弹炸裂收官!开源全新并行文件系统,榨干SSD全部带宽

量子位  · 公众号  · AI  · 2025-02-28 10:48

主要观点总结

本文介绍了DeepSeek在开源周中公开了两个重要内容:Fire-Flyer文件系统(3FS)和Smallpond数据处理框架。3FS是一种高性能的分布式文件系统,能够利用现代SSD和RDMA网络的带宽,表现出惊人的速度。Smallpond则是基于3FS和DuckDB构建的轻量级数据处理框架。DeepSeek还公开了其在AI训练和推理方面的其他成果,包括FlashMLA架构、DeepEP通信库等。最后,文章呼吁网友关注DeepSeek的后续动作,并参与了关于下一个AI“国产之光”的评选活动。

关键观点总结

关键观点1: Fire-Flyer文件系统(3FS)的介绍和特点

3FS是一种高性能的分布式文件系统,针对AI训练和推理工作负载的挑战而设计。它利用现代SSD和RDMA网络来提供共享存储层,以简化分布式应用程序的开发。3FS具有分布式架构、强一致性实现带、文件接口等特点,并适用于大模型训练推理和过程中不同类型的应用负载。

关键观点2: Smallpond数据处理框架的介绍

Smallpond是基于3FS和DuckDB构建的轻量级数据处理框架。它能够进行高效的数据处理,助力AI训练和推理。

关键观点3: DeepSeek开源周的其他成果

除了3FS和Smallpond,DeepSeek还公开了其他关于AI Infra的成果,包括FlashMLA架构、DeepEP通信库等。这些成果都在提高AI训练和推理的效率方面发挥了重要作用。

关键观点4: DeepSeek的未来动态和网友的期待

DeepSeek的开源周结束后,网友对V4和R2的上线充满期待。同时,文章也呼吁网友继续关注DeepSeek的更多动态。


正文

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek开源周,今日正式收官!

内容依旧惊喜且重磅,直接公开了V3和R1训练推理过程中用到的 文件系统

具体来说,包括以下两项内容:

  • Fire-Flyer文件系统 (简称 3FS ,第三个F代表File) ,一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;

  • Smallpond ,基于3FS和DuckDB构建的轻量级数据处理框架。

划重点就是,3FS可以 把固态硬盘的带宽性能利用到极致 ,表现出了惊人的速度:

  • 180节点集群中的聚合读取吞吐量为6.6TB/s;

  • 25节点集群中GraySort基准测试的吞吐量为3.66TB/分钟;

  • 每个客户端节点的KVCache查找峰值吞吐量超过40GB/s。

V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗马功劳。

网友们表示,3FS和Smallpond为AI数据处理设定了新基准,将改变数据处理的游戏规则。

对于AI来说,这就像从自行车升级到了高铁。

将SSD和RDMA性能榨干

根据DeepSeek团队介绍,3FS是一种高性能的分布式文件系统,面对的就是AI训练和推理工作负载的挑战。

利用现代SSD和RDMA网络来提供共享存储层 ,从而简化分布式应用程序的开发。

SSD就是固态硬盘,而RDMA (远程直接访问,remote direct memory access) 是一种直接存储器访问技术。

它可以在没有双方操作系统介入的情况下,将数据直接从一台计算机的内存传输到另一台计算机,也不需要中央处理器、CPU缓存或上下文交换参与。

特点就是高通量、低延迟,尤其适合在大规模并行计算机集群中使用。

具体到3FS,具有以下特点:

  • 分布式架构 :结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。

  • 强一致性实现带 :分配查询的链式复制 (CRAQ) 以实现强一致性,使应用程序代码简单易懂。

  • 文件接口 :文件接口众所周知且随处可用,无需学习新的存储 API。

并且,3FS能够适用于大模型训练推理和过程中不同类型的应用负载:

  • 数据准备 :将数据分析pipeline的输出重组成分层目录结构,并有效管理大量中间输出。

  • 数据加载器 :通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。

  • Checkpoints :支持大规模训练的高吞吐量并行Checkpoints。

  • 用于推理的KV缓存 :为基于DRAM的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。

在大型3FS集群上的读取测试中,实现了惊人的高吞吐量。

该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14TB NVMe SSD。

大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。

在训练作业的背景流量下,最终聚合读吞吐达到约6.6TB/s。

DeepSeek还用GraySort基准测试评估了基于3FS构建的smallpond框架,该基准测试可测量大规模数据集的排序性能。

测试分为两个阶段,先用键的前缀位通过shuffle对数据进行分区,然后进行分区内排序。两个阶段既需要从3FS读取,也需要向3FS写入数据。

测试集群包含25个存储节点 (2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点) 和50个计算节点 (2个NUMA域、192个物理核心、2.2 TB RAM 和1×200 Gbps NIC/节点)

最终对8192个分区中110.5TB数据进行排序,耗时30分14秒,平均吞吐量为3.66TB/分钟。

另外,KV缓存客户端的读取吞吐量,峰值也达到了40GB/s。

One More Thing

回顾DeepSeek这五天开源的内容,几乎都和AI Infra相关:

  • 第一天, FlashMLA架构 ,DeepSeek独创MLA架构的高性能版本,直接突破H800计算上限;

  • 第二天, DeepEP , 第一个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核;

  • 第三天, DeepGEMM ,一个通用矩阵乘法库,仅300行代码,是V3/R1训练推理关键秘籍;

  • 第四天, 连开三源 ,创新的双向流水线并行算法DualPipe、用于MoE的负载均衡算法EPLB,以及训练和推理框架的性能分析数据;

  • 第五天,3FS和Smallpond,高效的分布式文件系统和以之为基础的数据处理框架。







请到「今天看啥」查看全文