互联网大厂“组团”宕机，服务可靠性怎么保障？

极客时间 · 公众号 · · 2024-07-16 18:00

正文

大家好，我是白园。

作为一个 SRE 老兵，今天想给大家分享下「服务可靠性保障」的内容。

首先简单介绍下自己，2013 年我加入了百度运维部，负责百度网盘的可靠性保障工作，亲历了网盘可靠性保障体系从无到有、从粗糙到精细，从能发现故障到快速定位再到智能决策的整个过程。

2019 年短视频业务爆火，这时我加入了快手 SRE 团队，参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作，同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。

在这 11 年工作生涯中我始终站在一线，直面过无数次故障，每一次都是对业务的巨大考验。我乐于分享，也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能，你或许也看过我分享的内容。

由于业务环境复杂多变/降本增效，近期各互联网大厂 APP 宕机事故频频发生，从社交媒体、视频社区到出行平台，无一幸免。几乎都因为宕机，轮番上过热搜……

服务器宕机，像一座大山瞬间崩塌，带来的震动与影响远远超出了人们的想象。除了 给用户带来无尽的失望和不满 ，也给 企业信誉 和 业务连续性 造成了严重影响。

由此可见，服务可靠性和故障应对已成为企业必须面对的重要课题。甚至可以说，服务可靠性是企业持续发展的基石。

想要确保服务的连续性和稳定性并非易事，需要我们提前预防潜在的风险，并快速响应突发事件。这不仅需要强大的技术支撑，更需要培养一种全面的可靠性思维。

这就需要我们从各个层次去建设企业的服务可靠性体系了，例如：

市面上分享「服务稳定性」「AIOPS」「智能运维」等 SRE 知识的文章和视频不少，但缺少体系化，也很难平移到自己的业务中使用。所以我萌生了写个课程的想法，期望呈现一套系统的、正确的、尽可能完备的服务可靠性保障知识手册。

也希望你不用再为了寻找一个答案而苦苦搜索，也不必再自己去一块一块地拼凑知识，所以当极客时间来联系我的时候，我不假思索就同意了，以下是 「服务可靠性的全景图」 ，就算你不看课程，也可以把这个图保存下来自己学习：