专栏名称: 朱小厮的博客

著有畅销书：《深入理解Kafka》和《RabbitMQ实战指南》。公众号主要用来分享Java技术栈、Golang技术栈、消息中间件（如Kafka、RabbitMQ）、存储、大数据以及通用型技术架构等相关的技术。

学好 SRE，搞定系统稳定性

朱小厮的博客 · 公众号 · · 2020-03-20 08:51

正文

我是赵成，在基础架构和运维领域工作 10 年有余，目前负责蘑菇街平台技术部，主导中间件、稳定性、工具平台、运维和安全等工作。

2017 年底，我在极客时间开了一门课《赵成的运维体系管理课》，系统整理并分享了我在运维和 DevOps 方面的经验。

这两年，我又近距离接触了很多不同类型、不同规模的企业 IT 团队，我发现他们为了提升用户价值的交付效率，都在积极采用微服务、容器等分布式技术和产品，也在积极引入像 DevOps 这样的先进理念。

这些公司，选择了正确的架构演进方向和交付理念，效率自然提升了一大截。但你会发现，效率提升的同时，挑战也跟着来了：引入如此众多的先进技术和理念后， 这种复杂架构的系统稳定性很难得到保障，怎么办？

答案就是：SRE。

近几年，业界对 SRE 的关注越来越多，大家几乎达成了共识——Google SRE 就是目前稳定性领域的最佳实践。甚至可以说， SRE 成为了稳定性的代名词。

那么，SRE 到底有什么过人之处呢？我先给你分享一张图，这是我结合自己团队的日常工作，做出来的 SRE 稳定性保障规划图：

我们最初画这张图，是为了提高故障处理效率，将每个阶段可以做的事情填进去，并在实践中不断补充完善，最终形成了我们探索 SRE 的框架图。

你会发现， SRE 要做的事情并不神秘， 我们每天做的监控告警、运维自动化、故障处理和复盘等工作，就是 SRE 的一部分，Google 在介绍 SRE 时，很多篇幅也都是我们熟悉的内容。

然而， 在实际落地这套方法论时，大家还是有很多疑惑 ，比如：

要知道，上面这些问题不是我凭空臆想出来的，而是在跟众多企业 IT 团队交流和调研的过程中， 我被问及最多、最频繁的问题 。总结起来，分为两大类：

这两类问题，其实并不难解决。要真正掌握 SRE，不能仅仅向 Google 或其他大厂学习具体的技术经验，而是将这些技术有机结合，形成一套稳定性体系， 让体系发挥出力量。

所以，我系统梳理了自己的经验和调研，与极客时间合力打磨了专栏 《SRE 实战手册》 ，帮你正确理解 SRE，掌握 10+ 必知必会 SRE 知识点，同时通过 2 大典型 SRE 组织架构案例分享，建立可落地的故障应急处理机制， 构建体系化建设 SRE 的思路。

👆扫码上图二维码，免费试读

结算时，输入优惠口令「XUEXISRE6」

再减 5 元，到手仅 ¥14.9

仅限「前 200 人」有效

我是赵成，蘑菇街技术总监，《赵成的运维体系管理课》作者。我曾在华为工作七年，有丰富的电信行业软件研发及运维经验。

近两年，我和团队花了大量精力来做稳定性保障方面的事情，不断探索在 SRE 方面的实践，在日常的稳定性规范制定，监控、压测、服务治理、大促稳定性保障，故障应急和管理，以及组织架构建设等方面，积累了很多经验。

2019 年，我在 SRE 领域最具国际影响力的 SRECon 上，分享了蘑菇街在容量压测方面的实践经验，得到了全球各大公司同行们的热烈反馈。

我是如何讲 这门课 的？

专栏主要分为两个部分：

第一部分，夯实基础，带你建立 SRE 稳定性标准。

在这一部分，我会先讲清楚 SRE 是什么，以及业界衡量稳定性的标准是什么。将 SLO 作为引入 SRE 的切入点，因为它相当于我们稳定性标准化的基础，也是稳定性保障的共识机制。有了这个共识，我们才能更好地管理稳定性，消除周边团队的不理解和不认可。

同时，我还会引入一个电商的案例，梳理在实际场景中设定 SLO 应该考虑哪些因素。

第二部分，SRE 最佳实践。

这一部分，我会从“故障”和“组织架构”这两个关键词入手来讲：

第一个是“故障” 。围绕故障这个影响稳定性的核心事件，结合实践案例，分析如何减少故障发生次数，缩短故障影响时间，进而提升系统可用性及稳定性。