金融保险数据中心立足于传统运维职责,通过机器学习技术将运维水准整体大幅提升,实现数据中心智能化,实现运维工作更敏捷、更精准、更智能。
其业务创新点主要包括:智能的最优参数定义,智能故障预测和定位,智能的资源管理。其技术创新点包括:
一,根据运维数据特色结合具体的运维场景,利用大数据与人工智能技术,自主开发多种基于机器学习的集监控管理和异常告警于一体的智能模型和策略,提升运维效率,解决传统运维方法不能解决的挑战。
二,为提高算法在复杂场景的工程化实现过程中的效率问题,通过智能管理资源池的方法,使得程序并发执行效率更高,资源调配更合理。
三,模型与专家经验相结合,模型参数经过定期训练和优化,已经可以取代部分专家的工作。
中国人寿数据中心的智能运维项目已在初期实践中取得了良好的效果。
从模型评估来看,对于单指标的时间序列模型,预测值与真实值的RMSE小于0.5%,对于多指标的无监督学习模型,异常检测的准确率约为99%。
从应用反馈来看,基于机器学习的智能告警和预警、异常检测分类等获得了用户的一致认可,为系统监控提供了有力支持,多次提前预测故障,有效减少运维开销,提升问题处理的及时性。
从推广价值来看,智能运维模型的通用性较为广泛,整体实施框架适用于基础环境、操作系统、数据库、中间件和前端应用等场合,完全覆盖数据中心工作的方方面面。
金融企业的IT数据中心通常是一个是巨大的成本中心,大量设备被采购用以支持业务系统。
现阶段大部分传统金融企业的IT工作依赖于人工操作,实效性低且往往伴随操作风险,随着业务的扩张,也带来了越来越繁重的运维压力。
大型保险企业每年有着千亿级的业务量,数据中心管理了全国的业务系统并负责所有设备的运维工作,这对人员的调配和技能有着极高的要求。
随着业务的增长,IT人员的配备已经无法满足当前运维的需要,急需向智能化和自动化转型。
因此,
twt社区特别邀请了某大型金融保险集团智能运维团队的专家前来进行线上分享、答疑,与大家进行智能化运维实践的探讨。
并原创实践分享: 某大型金融保险数据中心基于机器学习的智能运维实践
核心探讨问题:
1、时间序列模型和LSTM在预测上面有哪些不同,效果对比如何?
2、Xgboost算法具体应用简单介绍?
3、智能运维监控平台建设的经验有哪些?
4、监控数据采集和处理方面,一般采用怎么样的数据频率、模型训练的数据量和异常检测的数据量达到多少?
对于多数据源的时间不一致的数据如何处理和分析?
活动资料:
某大型金融保险数据中心基于机器学习的智能运维实践分享
现在