腾讯云操作系统内核团队解决了Linux中的一个关键bug,该bug影响了使用Large folio特性的XFS文件系统用户,可能导致缓存损毁和宕机。团队在优化Page Cache对Xarray的使用时,引入新辅助函数修复了这个问题,并提升了操作系统性能。这一修复方案已被合并到最新的Linux LTS版本中,数十亿运行Linux的设备将受益。
腾讯云操作系统内核团队在优化Page Cache对Xarray的使用时,引入新辅助函数修复了问题。
这一修复方案已被社区认为是最佳的修复方案,并已被合并到最新的Linux LTS版本中,数十亿运行Linux的设备都将受益。
12月30日,腾讯云操作系统(Tencent OS)内核团队在Linux社区默默提交的两项改进,成功解决了自2021年以来一直困扰着一线厂商,并在近期让多个Linux顶级Maintainer(软件维护者)困惑的关键内核bug。这一改进方案最终被合并进入后续的Linux LTS(Long-term support)版本中,并获得了Linux之父Linus Torvalds的好评。
大约两个月前,Linux社区中的一封邮件引起了广泛关注。其内容主要是,自2021年12月起,Linux内核中启用了Large folio特性(能够提升系统访存性能)的XFS文件系统用户(但不仅限于 XFS)有概率遭遇缓存损毁导致的宕机问题。
该问题受到了社区的高度重视。
XFS是最常见的Linux文件系统之一,在常见的Linux使用场景中,如服务器、桌面等,XFS被作为主力文件系统大量采用。尽管该bug较难触发,但其潜在风险仍然让社区和各大厂商感到不安。Meta和Cloudflare等公司甚至不得不暂时禁用XFS的Large folio特性以确保系统稳定。
一个多星期的讨论中,大家迟迟没有捕捉到bug所引发的具体位置或线索,只是确认bug确实存在而且亟需修复。几位顶级Maintainer,以及Linus Torvalds本人也参与了这个问题的讨论。
社区在广泛排查的过程中,突然发现这个问题在新的Linux内核版本中已经不复存在。而这一变化归功于腾讯云操作系统内核团队在今年4月提交的两项改进。
原来,腾讯云操作系统内核团队在进行操作系统性能优化研发时发现,操作系统内核使用XArray(内核中用于处理广范围地址索引结构的基数树处理库)管理Page Cache(页面缓存)时,会因XArray在分配内存时没有考虑好并发修改的问题,导致分配的内存指针可能指向错误的数据,对外表现为XFS与其他引入了Large Folio特性的文件系统均有概率出现卡死宕机甚至数据丢失的情况。
针对这一问题,腾讯云操作系统内核团队在优化Page Cache对Xarray的使用上,引入了一个新的辅助函数,简化了Xarray的中Large Folio的插入算法,并进一步梳理和修复了内存分配的并发处理,确保了即使在多线程环境下,内存分配和释放也能正确进行。这些改动不仅修复了数据损坏的问题,还提升了操作系统系统的性能。
经历了数个星期的讨论与分析后,这些改动被社区认为是最佳的修复方案。
如今,这一修复方案已经被合入了最新的操作系统版本中。同时,方案也极大提升了大文件在Page Cache中的读入性能,数以十亿计运行Linux的设备,都将因此受益。
©
本文为数智前线(szqx1991)原创内容
未经授权,禁止转载
进群、转载或商务合作联系后台