OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一个变更……导致的
★ 事件概述
2024年12月11日,OpenAI旗下所有服务(包括ChatGPT、API和Sora)因一次新部署的Telemetry服务引发的Kubernetes控制面板过载问题,导致服务大面积中断,最长达4小时22分钟。
本次事件的原因及后续改进措施如下:
★ 影响
- ChatGPT:5:45 PM PST部分恢复,7:01 PM PST完全恢复。
- API:5:36 PM PST部分恢复,7:38 PM PST完全恢复。
- Sora:7:01 PM PST完全恢复。
总体中断时间:3:16 PM PST至7:38 PM PST。
★问题根因
1. Kubernetes控制面板过载
- Telemetry 服务的配置错误导致每个节点执行大量资源密集的Kubernetes API操作,这些操作的负载随集群规模扩大而增加。
- 大型集群的控制面板超载,DNS服务因此失效,影响服务间的通信。
2. 测试不足
测试未覆盖超大型集群环境,且DNS缓存延迟掩盖了问题,导致故障在部署全面完成后才显现。
★ 修复措施
并行修复方案:
- 缩小集群规模以减轻控制平面负载。
- 阻止网络访问控制API,减少新请求压力。
- 扩容Kubernetes API服务器,释放资源应用修复方案。
- 逐步恢复:部分集群率先恢复,并重新分配流量至健康集群。
★ 未来预防措施
1. 改进分阶段部署:
加强基础设施配置变更的监控机制,确保分阶段部署能够限制影响范围并快速发现问题。
2. 故障注入测试:
测试Kubernetes数据平面在控制面板失效时的生存能力,确保系统能自动检测和回滚不良更改。
3. 紧急访问机制:
增设“紧急访问”手段,确保在控制面板压力过大时,工程师仍能访问Kubernetes API服务器。
4. 数据平面与控制平面的解耦:
降低控制面板的负载,使其不成为关键服务运行的瓶颈。
5. 更快恢复能力:
实施动态限流与改进缓存机制,定期进行集群快速替换演练。#程序员##kimi崩了#
完整报告发布地址:status.openai.com/incidents/ctrsv3lwd797
★ 事件概述
2024年12月11日,OpenAI旗下所有服务(包括ChatGPT、API和Sora)因一次新部署的Telemetry服务引发的Kubernetes控制面板过载问题,导致服务大面积中断,最长达4小时22分钟。
本次事件的原因及后续改进措施如下:
★ 影响
- ChatGPT:5:45 PM PST部分恢复,7:01 PM PST完全恢复。
- API:5:36 PM PST部分恢复,7:38 PM PST完全恢复。
- Sora:7:01 PM PST完全恢复。
总体中断时间:3:16 PM PST至7:38 PM PST。
★问题根因
1. Kubernetes控制面板过载
- Telemetry 服务的配置错误导致每个节点执行大量资源密集的Kubernetes API操作,这些操作的负载随集群规模扩大而增加。
- 大型集群的控制面板超载,DNS服务因此失效,影响服务间的通信。
2. 测试不足
测试未覆盖超大型集群环境,且DNS缓存延迟掩盖了问题,导致故障在部署全面完成后才显现。
★ 修复措施
并行修复方案:
- 缩小集群规模以减轻控制平面负载。
- 阻止网络访问控制API,减少新请求压力。
- 扩容Kubernetes API服务器,释放资源应用修复方案。
- 逐步恢复:部分集群率先恢复,并重新分配流量至健康集群。
★ 未来预防措施
1. 改进分阶段部署:
加强基础设施配置变更的监控机制,确保分阶段部署能够限制影响范围并快速发现问题。
2. 故障注入测试:
测试Kubernetes数据平面在控制面板失效时的生存能力,确保系统能自动检测和回滚不良更改。
3. 紧急访问机制:
增设“紧急访问”手段,确保在控制面板压力过大时,工程师仍能访问Kubernetes API服务器。
4. 数据平面与控制平面的解耦:
降低控制面板的负载,使其不成为关键服务运行的瓶颈。
5. 更快恢复能力:
实施动态限流与改进缓存机制,定期进行集群快速替换演练。#程序员##kimi崩了#
完整报告发布地址:status.openai.com/incidents/ctrsv3lwd797