专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
爱可可-爱生活  ·  【[29星]Episodic Memory ... ·  18 小时前  
宝玉xp  ·  AI 不直接调用工具,程序代码调用 AI ... ·  18 小时前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250207091030 ·  昨天  
爱可可-爱生活  ·  【[40星]CORAL:一个大规模的对话式检 ... ·  3 天前  
黄建同学  ·  2025 AI ... ·  3 天前  
51好读  ›  专栏  ›  AI前线

哎呀,我们“挂了”!——这是能说的吗?| 直播预告

AI前线  · 公众号  · AI  · 2024-08-24 13:30

主要观点总结

本文介绍了多家互联网公司在软件系统故障方面所面临的挑战,以及线上可靠性工程的重要性。为了探讨和解决这些问题,策划了一场名为「哎呀,我们“挂了”」的圆桌讨论活动。文章还涵盖了不同规模公司在稳定性和可靠性方面的关注点、系统故障时的应对策略、直播时间和嘉宾信息等内容。

关键观点总结

关键观点1: 文章背景及目的

介绍近年来互联网公司遭遇的软件系统故障问题,强调线上可靠性工程的重要性,并策划了一场圆桌讨论活动来探讨面临的挑战和应对策略。

关键观点2: 稳定性和可靠性的关注点

讨论不同规模的公司,其稳定性和可靠性的关注点会有所不同,尤其是在系统故障时的应对策略和保持系统稳定性的重要性。

关键观点3: 嘉宾信息和直播时间

提供嘉宾信息和直播时间,包括主持人及嘉宾的职务和演讲主题。

关键观点4: 会议内容推荐

介绍会议中将要讨论的几个重要主题,包括AI驱动的可观测平台架构升级实践、蚂蚁集团的故障应急流程构建及应用实践、全球网络环境下的用户体验优化实践以及B站轻量级容灾演练体系构建等。


正文

近年来,多家知名互联网公司遭遇的软件系统故障,导致服务中断、数据丢失,这不仅影响了用户体验,甚至给企业带来直接或间接的经济损失。这些事件促使整个行业开始深刻反思,服务提供商、用户和其他利益相关者都在寻求改进现有技术和流程的方法。

如果线上可靠性工程出现问题,那么前期在应用产品设计、研发测试、发布变更等环节的所有投入都可能变得毫无意义。高质量的线上可靠性工程不仅能够减少故障发生的概率,还能够在故障发生时快速恢复服务,成为企业的核心竞争力之一。

鉴于此,我们策划了「哎呀,我们“挂了”」的圆桌讨论活动,旨在探讨不同规模的公司在稳定性可靠性方面面临的挑战及应对策略。

内容涵盖
  • 不同规模的公司,稳定性和可靠性的关注点会有所不同吗?

  • “低级错误”带来的故障不少,这是能忍的吗?

  • 在系统出现故障时,如何与用户进行有效沟通并保持透明度?

  • 在处理系统故障时,如何推进跨技术团队之间的有效协作?

  • 展望未来,稳定性和可靠性工程将面临哪些新的机遇和挑战?

直播时间

8 月 26 日 20:00-21:30

嘉宾信息

主持人:党受辉 腾讯 IEG 技术运营部助理总经理,专家工程师

嘉宾

  • 周昕毅 携程云原生研发总监

  • 刘昊 bilibili 基础架构部平台工程负责人

  • 杨军 腾讯 IEG 技术运营部 SRE 总监

如何看直播?

扫描下图海报【二维码】,或戳直播预约按钮,预约 InfoQ 视频号直播。👇

更多精彩内容,欢迎持续关注 10 月 18-19 日的 QCon 上海站,届时,几位老师将带来如下分享:

讲师:周昕毅 携程云原生研发总监

演讲主题:AI 驱动下的可观测平台架构升级实践

主要介绍携程对内部可观测平台进行架构升级的工程实践,涵盖 Metric 和 Logging 数据进行统一治理、为 AIOPS 落地提供数据和工具支撑以及云平台团队通过使用 AI 工具来提升平台运维效率的真实案例,希望能给大家带来一些帮助。

演讲提纲

  1. 携程可观测性平台现存问题

  • 监控指标只增不减

  • 日志场景只增不减

  • 非关键的指标占用大量的计算存储资源,核心指标的实时性得不到保障

  • 各类监控工具烟囱林立,资源没有打通,无法统一治理

  • 据治理实践

    • Metrics 数据治理

    • Logging 数据治理

    • 统一监控 Agent 落地实践

  • 升级架构助力 AIOPS 落地

    • 通过物化视图等技术实践,提升数据时效性

    • 通过分层存储技术将数据冷热分离, 降低丢失率,提升数据可靠性

    • 通过建设数据质量度量工具,提升数据准确性

  • 实践案例与展望

    • 使用 AI 工具来提升平台运维工作效率的案例

    • 可观测平台架构升级的问题总结和未来展望

    演讲亮点

    • 可观测性平台架构升级的实际案例,重在实践

    • AIOPS 落地的前置依赖

    实践痛点

    1. 监控领域随着时间推移,会产生大量的老旧系统、老旧数据,相关遗留问题,也不是仅靠一次架构升级可以完全解决,需要持续投入精力做治理;

    2. 如何与业务实际需求结合,不断调整技术方案和需求适配,保障最核心的链路;

    3. 可观测性数据的价值挖掘,数据实时性和准确性需要放在第一位

    听众收益

    • 主流的监控告警、可观测性工具选型

    • 了解监控和日志数据持续膨胀的治理方案

    • AIOPS 依赖的可观测性数据集质量保障体系

    • AI 工具如何协助处理琐碎的日常运维工作

    讲师:刘凯宁 蚂蚁集团  / SRE 技术专家

    演讲主题:蚂蚁故障应急全流程体系构建及应用实践

    主要介绍蚂蚁的故障应急体系,通过实际的故障案例来简要介绍故障定义、组织阵型、平台能力、应急流程、应急评价等内容,并分享 AIOPS、LLM 大模型等能力在应急定位中的落地情况,以期能够回答业务稳定性保障要“做什么”、“谁来做”、“怎么算做得好”等问题,希望能给大家带来一些新的保障思路。

    演讲提纲

    1. 引子:一个真实的线上故障

    • 是怎么发现的?

    • 是怎么定位根因的?

    • 是怎么止血的?

    • 是怎么复盘的?

  • 蚂蚁故障体系构建

    • 故障的定义、分类,以及对应的平台能力和评价指标

    • 故障数据如何驱动日常稳定性保障工作的开展和能力演进

  • 蚂蚁应急体系构建

    • 应急的目标和各阶段的数据指标定义,组织阵型设计和对应的评价指标

    • 应急各阶段的目标和平台能力支撑

  • 一个线上故障的全生命周期

    • 从故障定义、故障注入、故障发生、故障发现、故障响应、故障定位、故障止血、故障复盘全生命周期进行详细的分析,并尽可能多的展示实践效果

  • 未来已来

    • AIOPS 助力应急定位快速发现故障原因的方法

    • 通过 LLM 加速故障复盘及 ACtion 跟进

    实践痛点

    • SRE 团队与开发团队、质量团队在稳定性保障事项中的目标、分工、合作方式,会因各公司的组织结构差异而有非常大的不同,在落地的过程中难免会有一些冲突

    • 故障应急的根因定位能力非常依赖公司的基础设施基建,AIOPS 和 LLM 在落地的过程中会不可避免的遇到定位准确率低、定位结果方差大的问题

    演讲亮点

    • 以业务稳定为中心的、以风险事件及线上故障数据为驱动的、以 SRE 能力提升和平台能力演进为路径的技术风险整体防控方案

    • AI 大模型在应急根因定位、应急快恢决策、应急 Action 跟踪等方面的能力实践和未来展望

    听众收益

    • 了解蚂蚁集团风险事件和线上故障管理的设计思路及现有能力

    • 了解蚂蚁集团应急全流程的设计思路、平台能力、机制流程

    • 了解典型故障应急的全流程应对及处理方案

    • 探索 AI 大模型能力如何落地到故障应急领域

    讲师:杨军 腾讯 IEG 技术运营部 SRE 总监

    演讲主题:全球网络环境下的用户体验优化实践

    除了从架构、容灾、监控的角度提升可靠性之外,用户体验的波动也影响着用户对线上系统稳定性和可靠性的感知。在全球网络环境下,云服务商众多,网络延迟多变,成本计算复杂,影响因素难料,单纯依赖人的选择应用的部署节点,已经不能完全满足业务在用户体验方面的要求。

    腾讯游戏 SRE 团队,利用 AIOPS 能力,从数据工程角度,通过分析全球网络数据,云服务商数据,用户访问模拟等方式,建立一套用户体验评价体系,找到了一种相对通用的全球网络环境下的用户体验优化实践方案,为海外业务发展提供关键决策。这是一套实践方案不仅适用于游戏行业,也同样适用于其他互联网行业的用户体验优化方案。

    演讲提纲

    1. 真实的全球网络环境到底什么样?

    • 复杂的全球网络线路

    • 每天都可能会变化的路由

    • 非技术原因网络波动

    • 断崖式的网络质量变化

  • 腾讯游戏全球网络环境优化实践

    • 游戏战斗服智能选择场景介绍

    • 如何通过数据模拟玩家行为?

      • 数据采集

      • 匹配重现

      • 迭代最优解

    • 如何通过数据工程验证效果?

      • 增加测速服务器

      • 模拟匹配

      • 模拟对战

  • 非游戏业务的应用实践

    • 此方法的本质

    • 通用流程

    • 定制与适配

  • 经验总结和未来展望

    • 在业务逻辑上寻找优化点

    • 降低成本,提升通用性

    实践痛点

    • 数据存储与分析成本成本高

    • 分析结论在实际应用中的时效性

    演讲亮点

    • 基于业务实际数据的真实实践案例







    请到「今天看啥」查看全文