AI 领域的「开源狂欢周」终于迎来最终时刻!
DeepSeek开源周最后一天,直接放出终极杀器:
Fire-Flyer File System(3FS)
——AI 训练 & 推理的超高性能分布式存储系统,让数据吞吐量飙升到
6.6 TiB/s
。
smallpond
——基于 DuckDB + 3FS 的轻量级大数据处理框架,PB 级数据处理从此不再卡顿。
与此同时,OpenAI 也终于憋不住了,
正式发布 GPT-4.5
:
最大、最贵、最“懂”人的 OpenAI 模型,专注情商优化,不过 API 价格直接贵到离谱...
开源项目地址:
https://github.com/deepseek-ai/3FS
https://github.com/deepseek-ai/smallpond
项目一经发布,网友纷纷表示:
多角度出击,厉害了。
这个 Fire-Flyer 文件系统听起来就像是一个火箭动力的橡果发射器。
一、3FS
3FS(Fire-Flyer File System)
是 DeepSeek 专门为大规模 AI 训练 & 推理设计的 高性能分布式文件系统,完美解决存储瓶颈,让 GPU 不再被 I/O 拖后腿,吞吐量 6.6 TiB/s。
3FS 核心特点
:
-
超大规模分布式架构——可以横向扩展,结合
上千块 SSD + RDMA 网络
,实现存储资源的全局调度;
-
超高速吞吐——官方实测,在 180 个存储节点上,读吞吐量高达
6.6 TiB/s
;
-
高一致性——使用 CRAQ(Chain Replication with Apportioned Queries)协议,确保所有计算节点的数据访问都保持一致;
-
AI 训练 & 推理优化——支持
Dataloader 加速、LLM 推理 KVCache 缓存、并行 Checkpoint
,让大规模的大模型训练速度拉满。
性能到底有多猛?
存储节点:180 台服务器,每台配置 16 块 14TiB NVMe SSD + 2×200Gbps RDMA**
500+ 计算节点并行读写,训练任务背景负载下仍能保持
6.6 TiB/s 读吞吐量。
具体优化点
-
存储解耦
:计算节点可以不关心数据分布,任何节点都能快速读取数据,不再受本地存储限制;
-
智能数据流调度
:基于FoundationDB 事务型 KV 存储,支持高效的元数据管理,查询 & 读取超快;
-
KVCache 支持
:LLM 推理时,直接将 KVCache 存储在 3FS,而不是消耗宝贵的 GPU 内存,
高吞吐 & 低延迟
解决方案来了。
一句话总结:3FS让AI训练的存储优化更上一层楼!
二、smallpond
除了 3FS,DeepSeek 还放出了
smallpond
,这是一款
轻量级大数据处理框架
,基于DuckDB + 3FS,让PB 级数据处理变得超简单!
smallpond 亮点: