专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据中心运维管理  ·  全面解读数据中心液冷散热技术的政策、类型及应用 ·  昨天  
AustinDatabases  ·  OceanBase ... ·  昨天  
AustinDatabases  ·  OceanBase ... ·  昨天  
macrozheng  ·  300 秒到 4 秒,如何将 MySQL ... ·  2 天前  
数据中心运维管理  ·  探索数据中心的多模光纤距离限制 ·  5 天前  
数据中心运维管理  ·  DeepSeek加速大马数据中心发展 ·  4 天前  
51好读  ›  专栏  ›  数据中心运维管理

航空公司数据中心频宕机:仅靠DR远远不够

数据中心运维管理  · 公众号  · 数据库  · 2017-02-26 07:22

正文

去年达美航空公司的宕机在平静的航空业掀起了涟漪,而后宕机事件可谓前赴后继。IT中断给乘客带来不好的用户体验外,也让航空公司遭受巨大的经济损失。 那么航空公司有没有从这一起起事件中获得一些经验教训呢?



从1月底达美航空公司的停机时间来看,比去年的事故要短,且主要耗时在灾难恢复(DR)和IT复原方面,貌似应该是从上一次事故中吸取了经验。


对于航空公司来讲,最大的挑战是系统相互依赖,极为复杂,且必须全天性提供,不能进行停机升级和维护,而像航空公司这样的传统环境本就缺乏处理脆弱环境的能力。


有些公司开始将目光转向云计算这类新的技术。作为全球最大的航空公司,美国航空公司已经开始将一些应用程序迁移至云端,以获取更高的灵活性、可扩展性和可靠性。此前它已与IBM签订协议,目前正在考虑其他的云业务和供应商。


为何航空公司IT系统如此脆弱?


前不久,联合航空公司数据中心也发生了中断,而备受航空公司依赖的飞机通信处理和报告系统(ACARS)又罢了一次工。ACARS负责处理起飞时间、着陆时间、到达时间的数据传输,也涵盖重量和平衡、天气和风力和飞行计划等信息,同时还囊括联邦航空管理局的空中交通管制数据。


这种用相对旧的语言编写的旧系统运行在旧的硬件上,本身就如风中的稻草般脆弱。且航空公司的合并/收购致使不同系统进行集成和合并,使问题更为复杂化,鉴于现有系统的复杂,耗费大量财力物力重建IT基础设施几乎不太现实。


造成航空公司数据中心中断的原因与其他行业并无二致:没有被检测出的故障或更新失败。因此,变化控制和测试对保护环境健康运作来讲极为关键,需要更有效的变更控制用以识别和审查变更。对于常出现人为错误的地方,自动化可以有效地帮助解决问题。


对于航空公司来讲,6-8个小时的宕机仍是不可容忍的。通过自动化将旧的基础设施与新的基础设施连接起来,解决不同系统间手动切换的问题。自动化工具在堆栈中可以跨越和连接不同系统,将其编排到一个工作流程中。而企业DR计划也要严格进行定期测试,确保问题发生时能发挥作用,若只是为了满足政策合规那就很尴尬了。


当然,仅拥有DR计划还远远不够,对新技术的采用以及保持IT人员与时俱进也对IT系统的弹性有着重要影响,确保IT人员对恢复工作的了解是十分必要的。


来源:TechTarget

专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。







请到「今天看啥」查看全文