本文介绍了多家互联网公司在软件系统故障方面所面临的挑战,以及线上可靠性工程的重要性。为了探讨和解决这些问题,策划了一场名为「哎呀,我们“挂了”」的圆桌讨论活动。文章还涵盖了不同规模公司在稳定性和可靠性方面的关注点、系统故障时的应对策略、直播时间和嘉宾信息等内容。
介绍近年来互联网公司遭遇的软件系统故障问题,强调线上可靠性工程的重要性,并策划了一场圆桌讨论活动来探讨面临的挑战和应对策略。
讨论不同规模的公司,其稳定性和可靠性的关注点会有所不同,尤其是在系统故障时的应对策略和保持系统稳定性的重要性。
介绍会议中将要讨论的几个重要主题,包括AI驱动的可观测平台架构升级实践、蚂蚁集团的故障应急流程构建及应用实践、全球网络环境下的用户体验优化实践以及B站轻量级容灾演练体系构建等。
近年来,多家知名互联网公司遭遇的软件系统故障,导致服务中断、数据丢失,这不仅影响了用户体验,甚至给企业带来直接或间接的经济损失。这些事件促使整个行业开始深刻反思,服务提供商、用户和其他利益相关者都在寻求改进现有技术和流程的方法。
如果线上可靠性工程出现问题,那么前期在应用产品设计、研发测试、发布变更等环节的所有投入都可能变得毫无意义。高质量的线上可靠性工程不仅能够减少故障发生的概率,还能够在故障发生时快速恢复服务,成为企业的核心竞争力之一。
鉴于此,我们策划了「哎呀,我们“挂了”」的圆桌讨论活动,旨在探讨不同规模的公司在稳定性可靠性方面面临的挑战及应对策略。
-
不同规模的公司,稳定性和可靠性的关注点会有所不同吗?
-
“低级错误”带来的故障不少,这是能忍的吗?
-
在系统出现故障时,如何与用户进行有效沟通并保持透明度?
-
在处理系统故障时,如何推进跨技术团队之间的有效协作?
-
展望未来,稳定性和可靠性工程将面临哪些新的机遇和挑战?
8 月 26 日 20:00-21:30
主持人:党受辉 腾讯 IEG 技术运营部助理总经理,专家工程师
嘉宾
:
-
周昕毅
携程云原生研发总监
-
刘昊
bilibili 基础架构部平台工程负责人
-
杨军
腾讯 IEG 技术运营部 SRE 总监
扫描下图海报【二维码】,或戳直播预约按钮,预约 InfoQ 视频号直播。👇
更多精彩内容,欢迎持续关注 10 月 18-19 日的 QCon 上海站,届时,几位老师将带来如下分享:
演讲主题:AI 驱动下的可观测平台架构升级实践
主要介绍携程对内部可观测平台进行架构升级的工程实践,涵盖 Metric 和 Logging 数据进行统一治理、为 AIOPS 落地提供数据和工具支撑以及云平台团队通过使用 AI 工具来提升平台运维效率的真实案例,希望能给大家带来一些帮助。
演讲提纲
-
携程可观测性平台现存问题
据治理实践
-
Metrics 数据治理
-
Logging 数据治理
-
统一监控 Agent 落地实践
升级架构助力 AIOPS 落地
实践案例与展望
-
使用 AI 工具来提升平台运维工作效率的案例
-
可观测平台架构升级的问题总结和未来展望
演讲亮点
-
可观测性平台架构升级的实际案例,重在实践
-
AIOPS 落地的前置依赖
实践痛点
-
监控领域随着时间推移,会产生大量的老旧系统、老旧数据,相关遗留问题,也不是仅靠一次架构升级可以完全解决,需要持续投入精力做治理;
-
如何与业务实际需求结合,不断调整技术方案和需求适配,保障最核心的链路;
-
可观测性数据的价值挖掘,数据实时性和准确性需要放在第一位
听众收益
-
主流的监控告警、可观测性工具选型
-
了解监控和日志数据持续膨胀的治理方案
-
AIOPS 依赖的可观测性数据集质量保障体系
-
AI 工具如何协助处理琐碎的日常运维工作
演讲主题:蚂蚁故障应急全流程体系构建及应用实践
主要介绍蚂蚁的故障应急体系,通过实际的故障案例来简要介绍故障定义、组织阵型、平台能力、应急流程、应急评价等内容,并分享 AIOPS、LLM 大模型等能力在应急定位中的落地情况,以期能够回答业务稳定性保障要“做什么”、“谁来做”、“怎么算做得好”等问题,希望能给大家带来一些新的保障思路。
演讲提纲
-
引子:一个真实的线上故障
-
是怎么发现的?
-
是怎么定位根因的?
-
是怎么止血的?
-
是怎么复盘的?
蚂蚁故障体系构建
蚂蚁应急体系构建
一个线上故障的全生命周期
未来已来
-
AIOPS 助力应急定位快速发现故障原因的方法
-
通过 LLM 加速故障复盘及 ACtion 跟进
实践痛点
演讲亮点
听众收益
讲师:杨军 腾讯 IEG 技术运营部 SRE 总监
演讲主题:全球网络环境下的用户体验优化实践
除了从架构、容灾、监控的角度提升可靠性之外,用户体验的波动也影响着用户对线上系统稳定性和可靠性的感知。在全球网络环境下,云服务商众多,网络延迟多变,成本计算复杂,影响因素难料,单纯依赖人的选择应用的部署节点,已经不能完全满足业务在用户体验方面的要求。
腾讯游戏 SRE 团队,利用 AIOPS 能力,从数据工程角度,通过分析全球网络数据,云服务商数据,用户访问模拟等方式,建立一套用户体验评价体系,找到了一种相对通用的全球网络环境下的用户体验优化实践方案,为海外业务发展提供关键决策。这是一套实践方案不仅适用于游戏行业,也同样适用于其他互联网行业的用户体验优化方案。
演讲提纲
-
真实的全球网络环境到底什么样?
-
复杂的全球网络线路
-
每天都可能会变化的路由
-
非技术原因网络波动
-
断崖式的网络质量变化
腾讯游戏全球网络环境优化实践
-
游戏战斗服智能选择场景介绍
-
如何通过数据模拟玩家行为?
-
如何通过数据工程验证效果?
非游戏业务的应用实践
经验总结和未来展望
实践痛点
-
数据存储与分析成本成本高
-
分析结论在实际应用中的时效性
演讲亮点