专栏名称: 高效运维
高效运维公众号由萧田国及朋友们维护,经常发布各种广为传播的优秀原创技术文章,关注运维转型,陪伴您的运维职业生涯,一起愉快滴发展。
目录
相关文章推荐
51好读  ›  专栏  ›  高效运维

解决航空IT“事故”新思路 ——用日志打通整个系统

高效运维  · 公众号  · 运维  · 2017-08-03 07:10

正文

与专业日志分析产品一起,掘金海量日志


近年来,航空业在承受着另外一种“事故”的困扰:2017年5月27日,全球十大航空公司之一的英国航空公司发生IT系统故障,导致航班、行李及客服系统瘫痪,故障持续三天之久,共波及全球70个国家、170个机场的580次航班,致使约7.5万乘客滞留机场。


然而这绝非IT系统给航空业造成的第一桩灾难。据不完全统计,仅过去一年里就有数起“事故”在多家大型航空公司中发生:

  • 2016年7月,美国西南航空耗时数天,才从一起路由器故障导致的系统崩溃事件中缓过气来,引发17个航班被取消,延误的航班数量则达到了600个,影响乘客近十万。令人费解的是15年他们才刚刚因为另一起重大IT系统故障事件导致800多个航班延误或者取消。

  • 2016年8月8日,达美航空IT系统瘫痪,达美被迫取消或推迟约2000个航班,延误了数十万乘客的出行。

  • 2017年1月22日,美联航的IT系统出现故障,导致其航班运营中断约两小时,这已经是两年内美联航出现的第三次IT系统故障。


回顾这些航空公司 “事故”,我们可以发现一些共性:突发、无法防备、影响巨大甚至损失严重,达美航空曾对投资者称IT系统故障导致大约1.5亿美元的损失,《达拉斯晨报》也估算过西南航空的IT系统问题造成的损失超过5400万美元,极度依赖用户体验和口碑的航空公司声誉受损,整个航空业的损失无法估量。


问题需要解决,然而当我们试图分析问题根源时会发现这些IT“事故”的发生仿佛是必然的:随着航空领域信息化进程的发展,航空公司多年来逐步建立及完善起来的系统已达到几十甚至上百个,彼此耦合且复杂。当某处一个故障没有被及时发现,就可能对核心业务系统造成连锁性影响,进而导致整个业务的瘫痪和中断,这种“事故”发生的概率比我们想象中要高很多。那么,我们有什么办法呢?答案是:日志。


用日志,打通整个航空业务系统不同环节


我们都知道用户的查询、购票、值机、托运、登机等每一个步骤都非常依赖航空公司IT系统的健康,这直接影响到最终用户体验。然而对于航空公司来说,这还只是整个系统下的业务部分,安全、告警、审计、排障等等等等诸多不同环节都在考验着整个IT部门。不论是开发还是运维团队,遭遇不同问题时都需要及时发现并解决它,面对越来越复杂的系统传统IT运维方式无异于大海捞针。


日志易为航空公司提供了新的解决思路: 通过日志分析解决难题。日志记录重要信息,不同系统的日志贯穿着整个航空业务系统的各处环节,通过对日志的分析,能协助航空业运维人员尽快定位故障,排除安全隐患,同时还能梳理航空业务流程,统计业务量、订票信息等内容,完善航空电子化流程。


在详细调研航空业痛点后,我们结合航空业IT系统特点总结出航空日志管理的五大需求,希望从根本上解决航空业IT系统“事故”难题:

  • 日志集中存储与归档索引,满足定期安全审计需求

  • 日志自动巡检,实现日志统一查看及告警

  • 辅助故障分析

  • 安全事件回顾和调查

  • 业务日志分析,保障业务系统正常运行


日志统一管控+监控告警+安全回溯 ,防备航空IT“事故”突发


通过对日志的集中存储与归档索引,日志易为航空企业提供统一的日志分析平台,对日志进行统一收集后采用分布式文件系统存储,抽取关键字段,建立索引,将非结构化数据转变为结构化数据;搭配高效数据搜索引擎,实现准实时处理海量日志,并通过定义日志筛选规则和策略,实现关联分析、综合研判及监控告警服务。此外,日志易支持资源横向拓展及功能模块重新分布,作为高可用平台帮助航空企业降低业务流程和应用系统的开发和运维成本,并且能够实时备份180天压缩日志,以满足定期安全审计要求。


在监控方面,日志易还提供灵活的告警功能,通过预设规则进行日志实时检索,当筛选出符合的错误日志,即发送邮件或短信告警。日志监控能有效补充对原有监控系统未覆盖的部分,及时发现故障,减少损失。


针对安全事件相关日志,如系统用户登陆日志、系统操作命令日志等,通过关键字段如根据源IP、目的IP、登录账号、关键操作等信息,能完全实现安全事件回溯。


日志业务分析+故障分析 做好真正的用户体验


一个用户从查询机票、购买机票到办理值机、托运、登机等每一步操作都由IT业务系统支撑,针对自主订票及值机业务,日志易统一收集APP及官网日志,梳理订票、自助值机全流程,通过这些数据统计出订票成功率、值机成功率等指标,了解系统健康状况。


通过订票转化率等信息,找出用户流失的主要环节,筛选高频、高价值的商务类旅客等等。同时日志易提供灵活的可视化报表,用户可自定义仪表盘,实现关键指标的集中展现,信息一目了然:



对于问题订单,日志易还提供追踪故障分析,因为所有日志是统一收集的,用户可根据问题订单号,搜索电商B2C中所有关联日志:



针对未知故障原因,日志易将建立问题订单日志画像,辅助快速定位故障原因,极大缩短了故障影响时间。针对已知故障原因,则使用日志易可以快速定位故障的首次发生时间,确定故障发生的频次及影响范围。


除此之外日志易还提供灵活的报表功能,通过定时任务统计保存,满足日报、周报、月报需求,并通过邮件定期发送,充分替代巡检工作中的日志巡检部分。



日志易在航空业的使用,实现了日志集中采集、统一存储、实时检索与分析,满足日志合规要求,同时日志巡检让运维人员从机械化的、低效重复的操作中得以解放;日志告警也作为基础监控平台的有效补充,帮助快速定位故障、避免无谓猜测故障原因。在业务方面日志分析帮助业务部门进行运营数据分析,根据日志痕迹进行事件过程回顾。随着日志的深度利用,相信日志易未来还会为航空业提供更多的帮助。



日志易 SaaS版 支持500MB/天免费体验! Q交流群: 535350856

注册入口: https://www.rizhiyi.com/register/

我们一迫切收到您对产品的反馈: 点我参与


日志易的核心价值


日志易产品做得像Google搜索引擎一样强大、灵活、易用,实现对运维日志及业务日志进行实时采集、搜索、分析及可视化等,用于运维监控、安全审计、业务数据分析,最终发掘出数据价值。目前,日志易产品已成功应用于金融、能源、运营商及互联网等诸多行业。


下列文字是超链接 点击 直接查看精华内容








请到「今天看啥」查看全文