OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一-20241214225409_黄建同学的专栏文章_微信文章

OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一个变更……导致的

★ 事件概述
2024年12月11日，OpenAI旗下所有服务（包括ChatGPT、API和Sora）因一次新部署的Telemetry服务引发的Kubernetes控制面板过载问题，导致服务大面积中断，最长达4小时22分钟。

本次事件的原因及后续改进措施如下：

★ 影响

- ChatGPT：5:45 PM PST部分恢复，7:01 PM PST完全恢复。
- API：5:36 PM PST部分恢复，7:38 PM PST完全恢复。
- Sora：7:01 PM PST完全恢复。
总体中断时间：3:16 PM PST至7:38 PM PST。

★问题根因

1. Kubernetes控制面板过载

- Telemetry 服务的配置错误导致每个节点执行大量资源密集的Kubernetes API操作，这些操作的负载随集群规模扩大而增加。
- 大型集群的控制面板超载，DNS服务因此失效，影响服务间的通信。

2. 测试不足

测试未覆盖超大型集群环境，且DNS缓存延迟掩盖了问题，导致故障在部署全面完成后才显现。

★ 修复措施

并行修复方案：
- 缩小集群规模以减轻控制平面负载。
- 阻止网络访问控制API，减少新请求压力。
- 扩容Kubernetes API服务器，释放资源应用修复方案。
- 逐步恢复：部分集群率先恢复，并重新分配流量至健康集群。

★ 未来预防措施

1. 改进分阶段部署：
加强基础设施配置变更的监控机制，确保分阶段部署能够限制影响范围并快速发现问题。

2. 故障注入测试：
测试Kubernetes数据平面在控制面板失效时的生存能力，确保系统能自动检测和回滚不良更改。

3. 紧急访问机制：
增设“紧急访问”手段，确保在控制面板压力过大时，工程师仍能访问Kubernetes API服务器。

4. 数据平面与控制平面的解耦：
降低控制面板的负载，使其不成为关键服务运行的瓶颈。

5. 更快恢复能力：
实施动态限流与改进缓存机制，定期进行集群快速替换演练。#程序员##kimi崩了#

完整报告发布地址：status.openai.com/incidents/ctrsv3lwd797

OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一-20241214225409

正文

2024-12-14 22:54
本条微博链接