作者注:JuiceFS 的服务端和客户端完全使用 Golang 编写,同时为了更精细化的管理内存,我们没有使用 Golang 的内存模型,手工控制,避免 GC。后续会写专门的文章来分享我们在 Golang 多个角度的技术实践。
我们很激动地宣布,将经过 4 年持续迭代和累计几千万小时线上考验的 JuiceFS 开源了!
JuiceFS 是什么
JuiceFS 是为海量数据设计的分布式文件系统,使用对象存储来做数据持久化,避免重复造轮子,还能大大降低工程复杂度,让我们专注解决元数据和访问协议部分的难题。
JuiceFS 的创新架构更符合云原生的发展趋势,我们一开始就以 SaaS 的形式将它提供给公有云的客户,让客户分钟级就可以获得 PB 级企业文件存储服务。同时,我们也和行业领先的对象存储厂商一起服务私有云客户。
在创业之初,我们认为 SaaS 可以为用户提供最佳的体验,同时让我们更快地迭代产品,决定优先把 SaaS 做好。经过 4 年的持续迭代和积累,JuiceFS 已经在几十家科技企业的大数据、AI、容器平台、归档、备份等场景中形成最佳实践, SaaS 使用量也持续快速增长,并且在过去的 2020 年首次实现了盈亏平衡。我们相信找到了可持续发展的模式,有信心保障 JuiceFS 的长期运营。
我们也发现闭源的基础软件会限制使用者对它的深度理解,不利于它服务更多的人,依靠 SaaS 产品的收入支撑和开源社区的力量,我们可以让 JuiceFS 帮助更多的人。
借助对象存储的帮助,JuiceFS 已经大大降低了分布式文件系统的复杂度,元数据管理是它最核心的问题。JuiceFS 的 SaaS 使用的元数据引擎,是专为文件系统打造的数据库,我们已经积累了丰富的运维经验,仍然如
履
薄冰。如果开源的话,让社区用户自己运维仍然会是一个大的挑战和负担,一旦运维失误导致数据丢失,后果非常严重。
带着这个问题,我们将元数据服务改造为支持多引擎的插件式架构,可以利用已有的开源数据库实现元数据存储。这样可以更灵活地适应不同场景,根据场景的规模、性能和成本需求,选用不同的元数据实现。这是 JuiceFS 的架构再升级,为未来的发展翻开新的篇章。
我们选用 Redis 作为第一个开源存储引擎,是因为它:
-
是全内存的,可以满足元数据的低延时和高 IOPS 要求;
-
支持乐观事务,能够满足文件系统元数据操作的原子性要求;
-
有丰富的数据结构,易于实现文件系统的诸多 API;
-
有着非常广泛的社区和成熟的生态,运维 Redis 不会是一个问题;
-
在各个云上都有托管的服务,在云上使用会更简单;
未来,我们还会增加 SQL 数据库、TiKV 等支持事务的 KV 数据库支持。