专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20241214230507 ·  昨天  
爱可可-爱生活  ·  本文提出了LATENTQA任务和LIT方法, ... ·  2 天前  
AIGC开放社区  ·  AI ... ·  4 天前  
AIGC开放社区  ·  AI ... ·  4 天前  
黄建同学  ·  Replit Agent ... ·  5 天前  
51好读  ›  专栏  ›  黄建同学

OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一-20241214225409

黄建同学  · 微博  · AI  · 2024-12-14 22:54

正文

2024-12-14 22:54

OpenAI 11 日全球宕机 5 小时的宕机分析↓ 总之都是一个变更……导致的

★ 事件概述
2024年12月11日,OpenAI旗下所有服务(包括ChatGPT、API和Sora)因一次新部署的Telemetry服务引发的Kubernetes控制面板过载问题,导致服务大面积中断,最长达4小时22分钟。

本次事件的原因及后续改进措施如下:

★ 影响

- ChatGPT:5:45 PM PST部分恢复,7:01 PM PST完全恢复。
- API:5:36 PM PST部分恢复,7:38 PM PST完全恢复。
- Sora:7:01 PM PST完全恢复。
总体中断时间:3:16 PM PST至7:38 PM PST。

★问题根因

1. Kubernetes控制面板过载

- Telemetry 服务的配置错误导致每个节点执行大量资源密集的Kubernetes API操作,这些操作的负载随集群规模扩大而增加。
- 大型集群的控制面板超载,DNS服务因此失效,影响服务间的通信。

2. 测试不足

测试未覆盖超大型集群环境,且DNS缓存延迟掩盖了问题,导致故障在部署全面完成后才显现。

★ 修复措施

并行修复方案:
- 缩小集群规模以减轻控制平面负载。
- 阻止网络访问控制API,减少新请求压力。
- 扩容Kubernetes API服务器,释放资源应用修复方案。
- 逐步恢复:部分集群率先恢复,并重新分配流量至健康集群。

★ 未来预防措施

1. 改进分阶段部署:
加强基础设施配置变更的监控机制,确保分阶段部署能够限制影响范围并快速发现问题。

2. 故障注入测试:
测试Kubernetes数据平面在控制面板失效时的生存能力,确保系统能自动检测和回滚不良更改。

3. 紧急访问机制:
增设“紧急访问”手段,确保在控制面板压力过大时,工程师仍能访问Kubernetes API服务器。

4. 数据平面与控制平面的解耦:
降低控制面板的负载,使其不成为关键服务运行的瓶颈。

5. 更快恢复能力:
实施动态限流与改进缓存机制,定期进行集群快速替换演练。#程序员##kimi崩了#

完整报告发布地址:status.openai.com/incidents/ctrsv3lwd797