12月9日,日本总务省针对乐天移动9月4日发生的大规模通信故障发布行政指导。
9月4日11点20分至13点26分,乐天移动网络发生大规模通信故障,导致全日本范围内大量用户无法上网和进行语音通话。
1
西日本数据中心中的数据中心交换机因软件问题而意外重启。
由于软件BUG,数据中心交换机的系统日志没有自动删除,保存日志的内存耗尽导致运行不稳定。
2
与此同时,分组交换设备发生系统重启。
3
分组交换设备重启后,掉线的用户终端集中大量发送“重连请求”,造成策略控制设备PCRF短时间内发生拥塞。
随后,东日本数据中心中的PCRF也发生拥塞。
PCRF,Policy and Charging Rules Function,负责管理用户的数据流量、话费等,比如,当用户使用流量超出套餐后,PCRF可对用户流量限速。
应急处理
故障发生后,乐天移动启动“应急模式”,断开分组交换设备与PCRF连接,直到PCRF拥塞缓解。
短期措施
针对软件缺陷,定期删除应自动删除的不必要日志,并计划于2023年3月底前完成软件修复。
长期措施
针对此次重大网络事故,日本总务省发布指导:一是要求运营商定期对当前使用的软件进行风险分析;二是要求运营商与设备供应商研究数据中心交换机的隔离功能,以防止故障在核心网蔓延而造成网络重大事故;三是优化故障应急预案,部署完全自动化的故障恢复流程,以缩短故障时长。
相关链接:
日本再遭通信故障,虚拟化也靠不住