你的服务还OK么？_林湾村龙猫的专栏文章_微信文章

“哎哎，XX，很多客服反馈这个业务挂了怎么回事，赶紧看看。” 正在安安静静写代码的你心头一颤，出问题了。赶紧打开业务链接看看，真出问题了，怎么办，怎么查问题？一脸闷逼。

据说 现代医学始于听诊器的发明 ，医生凭借该物 收集放大从各个器官发出的声音 以诊断问题。

我一直喜欢把我们做后台做业务的，称之为 在快速飞行的飞机上修零件。边飞边升级。 。在飞机上有各种各样的仪表盘指示着各个模块的运行情况。如果没有这些，估计只有等到飞机坠毁的时候才知道出问题了，这个时候为时已晚。

飞机如此，我们的业务与服务又该有什么样的 仪表盘/听诊器 呢？

这是我这篇文章想说的，当我们自己的后台服务及业务运行情况生病出问题了，怎么做好服务/业务的仪表盘- 业务监控告警 。

意义与想要达到的效果

没有一个系统是100%没有问题的，那么我们要保证我们的业务和服务的可靠性。我们希望达到如下的效果：

为了达到这样的效果，我不得不思考我们需要解决的问题和点。

只有了解你的业务，才能做出更好的系统设计。

通常来说，只有了解你的业务，你才知道哪些点应该是你重点关注的、哪些点是容易根据业务进展而做扩展的。一般来讲，一个业务服务应该关注的点，我觉得如下：

通常来讲，如果没有什么特殊处理，今天同一时间与昨天同一时间的监控数值应该会基本一致。基于这样一个依据，我们可以做一些比较以发现问题。

通常来讲，做一件事情， 投入的成本 、 时效性 、 准确性 三者之间同时达到比较好的状态是一件及其困难的事情。这个时候我们希望投入的成本带来最大化的，部分作出妥协。

如同一个人生病一样，可能只是一个小感冒，也有可能得了大病。我们不可能为了小感冒而住院，也不可能忽略了大病的存在。因此我们需要给异常分级处理。