大家好,我是白园。
作为一个 SRE 老兵,今天想给大家分享下「服务可靠性保障」的内容。
首先简单介绍下自己,2013 年我加入了百度运维部,负责百度网盘的可靠性保障工作,亲历了网盘可靠性保障体系从无到有、从粗糙到精细,从能发现故障到快速定位再到智能决策的整个过程。
2019 年短视频业务爆火,这时我加入了快手 SRE 团队,参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作,同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。
在这 11 年工作生涯中我始终站在一线,直面过无数次故障,每一次都是对业务的巨大考验。我乐于分享,也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能,你或许也看过我分享的内容。
由于业务环境复杂多变/降本增效,近期各互联网大厂 APP 宕机事故频频发生,从社交媒体、视频社区到出行平台,无一幸免。几乎都因为宕机,轮番上过热搜……
服务器宕机,像一座大山瞬间崩塌,带来的震动与影响远远超出了人们的想象。除了
给用户带来无尽的失望和不满
,也给
企业信誉
和
业务连续性
造成了严重影响。
由此可见,服务可靠性和故障应对已成为企业必须面对的重要课题。甚至可以说,服务可靠性是企业持续发展的基石。
想要确保服务的连续性和稳定性并非易事,需要我们提前预防潜在的风险,并快速响应突发事件。这不仅需要强大的技术支撑,更需要培养一种全面的可靠性思维。
这就需要我们从各个层次去建设企业的服务可靠性体系了,例如:
市面上分享「服务稳定性」「AIOPS」「智能运维」等 SRE 知识的文章和视频不少,但缺少体系化,也很难平移到自己的业务中使用。所以我萌生了写个课程的想法,期望呈现一套系统的、正确的、尽可能完备的服务可靠性保障知识手册。
也希望你不用再为了寻找一个答案而苦苦搜索,也不必再自己去一块一块地拼凑知识,所以当极客时间来联系我的时候,我不假思索就同意了,以下是
「服务可靠性的全景图」
,就算你不看课程,也可以把这个图保存下来自己学习: