专栏名称: 程序员专栏
点击关注,进实战技术交流群!分享技术文章、工具资源、精选课程、视频教程、热点资讯、学习资料等。
目录
相关文章推荐
Python爱好者社区  ·  张雪峰公司今年的年终奖... ·  4 天前  
Python爱好者社区  ·  推荐我的抖音变现俱乐部! ·  6 天前  
51好读  ›  专栏  ›  程序员专栏

阿里云机房火灾,字节等服务瘫痪,网友:吃瓜吃到自己头上了

程序员专栏  · 公众号  ·  · 2024-09-14 18:00

正文

架构师大咖
架构师大咖,打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖,每日推送。
公众号

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。 如果现场评估显 示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司,如 Lazada 和字节跳动,造成了严重服务中断。

在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。

该数据中心不仅托管了阿里云和字节的服务器,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

有意思的是,AWS 的销售也趁此机会安利自家服务:


1 机房火灾由锂电池爆炸引发,持续超 30 小时


据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。


机房被水淹没,阿里云业务受严重影响


受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

到周三凌晨 1:46 时,情况开始进一步恶化。

阿里巴巴方面表示, “机房开始出现积水和泄漏 ,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。


2






请到「今天看啥」查看全文