专栏名称: 极客时间
极客时间服务号
目录
相关文章推荐
51好读  ›  专栏  ›  极客时间

互联网大厂“组团”宕机,服务可靠性怎么保障?

极客时间  · 公众号  ·  · 2024-07-16 18:00

正文

大家好,我是白园。

作为一个 SRE 老兵,今天想给大家分享下「服务可靠性保障」的内容。

首先简单介绍下自己,2013 年我加入了百度运维部,负责百度网盘的可靠性保障工作,亲历了网盘可靠性保障体系从无到有、从粗糙到精细,从能发现故障到快速定位再到智能决策的整个过程。

2019 年短视频业务爆火,这时我加入了快手 SRE 团队,参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作,同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。

在这 11 年工作生涯中我始终站在一线,直面过无数次故障,每一次都是对业务的巨大考验。我乐于分享,也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能,你或许也看过我分享的内容。


由于业务环境复杂多变/降本增效,近期各互联网大厂 APP 宕机事故频频发生,从社交媒体、视频社区到出行平台,无一幸免。几乎都因为宕机,轮番上过热搜……

服务器宕机,像一座大山瞬间崩塌,带来的震动与影响远远超出了人们的想象。除了 给用户带来无尽的失望和不满 ,也给 企业信誉 业务连续性 造成了严重影响。

由此可见,服务可靠性和故障应对已成为企业必须面对的重要课题。甚至可以说,服务可靠性是企业持续发展的基石。

想要确保服务的连续性和稳定性并非易事,需要我们提前预防潜在的风险,并快速响应突发事件。这不仅需要强大的技术支撑,更需要培养一种全面的可靠性思维。

这就需要我们从各个层次去建设企业的服务可靠性体系了,例如:

  • 快速识别和填补监控体系的漏洞

  • 构建完善的容量保障体系,让资源发挥最大效率

  • 做好应急预案,提高响应的速度

  • 强化可靠性保障体系基础设施建设

  • 养成可靠性保障思维

  • 借助 AIOps 工具,让可靠性工作更加的全面和智能

  • ……

市面上分享「服务稳定性」「AIOPS」「智能运维」等 SRE 知识的文章和视频不少,但缺少体系化,也很难平移到自己的业务中使用。所以我萌生了写个课程的想法,期望呈现一套系统的、正确的、尽可能完备的服务可靠性保障知识手册。

也希望你不用再为了寻找一个答案而苦苦搜索,也不必再自己去一块一块地拼凑知识,所以当极客时间来联系我的时候,我不假思索就同意了,以下是 「服务可靠性的全景图」 ,就算你不看课程,也可以把这个图保存下来自己学习:







请到「今天看啥」查看全文