近日,阿里云凭借在
稳定性领域的全栈投入
,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统
稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。
此次“云系统稳定安全运行优秀案例”活动共收集超 100 份申报材料,历经多轮专家评审共
评选出 7 个技术领域的众多优秀案例
。旨在挖掘行业最佳实践案例,为众多企业的稳定安全运行提供参考。接下来,我们将为大家一一进行解读。
全链路压测优秀实践案例 :《阿里云全链路压测实践》
在数字化转型 & 升级背景下,政企客户逐步将业务应用迁移上云并进行分布式改造,业务架构也变得更加复杂。分布式环境下,任意节点都可能成为性能瓶颈,同时系统可用性随着业务快速增长,面临严峻且不确定的挑战。在此背景下,如何准确衡量应用能够承载的极限流量水位成为挑战。传统压测方法存在高成本、高复杂度、难以维护、压测结果不精准等劣势,而无法满足以精准流量模拟进行低成本容量预估的强需求。
阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测支持主流中间件,横跨 RPC、日志、存储、消息队列等种类,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不污染生产库的前提下对真实的生产环境做压测,帮助客户获取最真实精准的生产环境抗压水位数据。
云系统运行故障应急处置实践案例:《阿里云数字化安全生产平台及落地实践》
随着越来越对企业业务应用上云并进行分布式架构改造,业务架构变愈发复杂,敏感程度也变高。传统运维手段存在工具割裂,面向基础设施而非业务,被动运维,缺乏面向分布式架构应用的规范稳定保障体系等劣势,使得有效保障业务稳定性和连续性成为挑战。
针对以上挑战,秉承着平台运维理念的数字化安全生产平台(Digital Production Stability)应运而生,平台核心面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、应急协同、过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助企业提升业务稳定性,提供故障应急场景的一站式服务。
云系统容灾优秀实践案例:《阿里云应用多活容灾解决方案》