专栏名称: 网优雇佣军
通信、科技、未来!通信路上,一起走!
目录
相关文章推荐
网优雇佣军  ·  MWC25亮点:AI ... ·  3 天前  
51好读  ›  专栏  ›  网优雇佣军

网络事故报告:软件BUG→设备重启→PCRF拥塞

网优雇佣军  · 公众号  · 通信  · 2022-12-15 17:58

正文

12月9日,日本总务省针对乐天移动9月4日发生的大规模通信故障发布行政指导。

故障概述


9月4日11点20分至13点26分,乐天移动网络发生大规模通信故障,导致全日本范围内大量用户无法上网和进行语音通话。

故障分析

1

西日本数据中心中的数据中心交换机因软件问题而意外重启。


由于软件BUG,数据中心交换机的系统日志没有自动删除,保存日志的内存耗尽导致运行不稳定。


2

与此同时,分组交换设备发生系统重启。


3

分组交换设备重启后,掉线的用户终端集中大量发送“重连请求”,造成策略控制设备PCRF短时间内发生拥塞。


随后,东日本数据中心中的PCRF也发生拥塞。


PCRF,Policy and Charging Rules Function,负责管理用户的数据流量、话费等,比如,当用户使用流量超出套餐后,PCRF可对用户流量限速。

故障处理


应急处理


故障发生后,乐天移动启动“应急模式”,断开分组交换设备与PCRF连接,直到PCRF拥塞缓解。


短期措施


针对软件缺陷,定期删除应自动删除的不必要日志,并计划于2023年3月底前完成软件修复。


长期措施


针对此次重大网络事故,日本总务省发布指导:一是要求运营商定期对当前使用的软件进行风险分析;二是要求运营商与设备供应商研究数据中心交换机的隔离功能,以防止故障在核心网蔓延而造成网络重大事故;三是优化故障应急预案,部署完全自动化的故障恢复流程,以缩短故障时长。


相关链接: 日本再遭通信故障,虚拟化也靠不住


网优雇佣军投稿邮箱:[email protected]






请到「今天看啥」查看全文