专栏名称: 马哥Linux运维

马哥linux致力于linux运维培训，连续多年排名第一，订阅者可免费获得学习机会和相关Linux独家实战资料！

从 0 到 1000+ 台服务器监控的构建之路

马哥Linux运维 · 公众号 · 运维 · 2019-06-26 21:00

正文

来源：民工哥技术之路

ID： jishuroad

作者：顾凯

AdMaster精硕科技是中国领先的独立第三方营销大数据解决方案提供商，也是目前国内的独立第三方DMP（大数据管理平台）平台。目前，AdMaster已经为快消、IT、汽车等多个行业80%的世界100强品牌及众多国内知名品牌提供数据服务，杜蕾斯、宝洁、卡夫、雅诗兰黛、可口可乐、伊利、联合利华、麦当劳、微软、东风日产等大家耳熟能详的品牌都在使用精硕科技的数据服务。

云智慧有幸邀请到精硕科技运维总监顾凯先生，为大家带来《从几台到几千台的运维经历》精彩分享：

从入职到AdMaster以来历时五年多，经历了公司从几十台到几千台服务器的飞速增加阶段，目前AdMaster每天增长量数据量超过5T，每天请求数超过100亿，每天计算超过1000亿条记录，每天计算任务数超过10万个，1000亿记录的秒级查询，100万级的QPS。

多年以来一直以稳定运行为前提，确保业务永不掉线，带领运维团队自主开发了运维系统，包含，资产管理，工单管理，监控系统，域名管理，公有云管理，私有云管理等平台，并将运维数据进行分析整理，将运维工作透明化，可视化。

这次主要给大家介绍一下从几十台到几千台服务器的运维过程中，监控系统的变迁经历。常说一千个人心中有一千个哈姆雷特，一千个运维的心中有一千种运维的方法，没有一个方法是万能的、可以适用所有的场景，具体问题还得具体分析，我将这五年的经历大致分了三个阶段：

第一阶段：200台以下

第二阶段：200~1000台

第三阶段：1000+（1000以上和2000以上没啥区别了）

每个阶段的分界点也不是那么精确的，就是一个大概的时期，变化都是一个逐渐的过程。

一、机器数量小于200台的阶段

这个时期需求简单，主要用于通知问题、快速定位解决问题，大致总结一下，主要需求就三点：

1. 简单，易用；

2. 稳定运行；

3. 能够报警，邮件，短信。

基于以上需求，可以使用比较流行开源的监控软件Nagios，Cacti，Zabbix，Ganglia，etc。流行的开源产品有较多的文档，可快速上手，并且有大量的前人使用经验，可以避免许多问题，即使遇到问题也容易找到解决办法。其中邮件报警一般是都支持的，短信需要自己对接一下短信平台。

我们在早期的时候选择了Nagios和Cacti，选择Nagios主要是个人原因，我最熟悉，使用Cacti是因为对交换机的监控特别方便，几乎是傻瓜式的。其实在这个阶段，不管是哪一个监控产品，基本都可以满足需求，选择的因素还是看个人喜好，这个时期运维同学是可以偶尔任性一下的。

二、机器数量200到1000的阶段

这个时期，需求开始变得复杂，不过主要还是用于通知、告警，避免同样的问题再次发生，我在这个时期主要做了以下事情：

1. 统一监控内容：将基础监控进行统一，默认每个机器都包含CPU，内存，磁盘空间等基础信息监控；

2. 覆盖式监控：将所有机器均纳入监控，除去基础监控以外，最重要的当属业务监控，尽可能的覆盖业务流程，通过自定义监控减少和去除重复的问题，保障业务稳定运行。

3. 及时通知，确保无漏报：将所有监控分类，根据重要程度、紧急程度等，分别用邮件，微信，短信，电话等不同级别的方式通知，确保每个监控都有人处理，并且对于重要的业务采用call死你的方式，不处理就一直通知。

在这个时期对Nagios进行了深入的研究，编写自定义脚本、大量增加各种监控项，将Nagios大部分的插件如nrpe、nsca和功能充分使用。

随着机器越来越多，需要监控的服务也越来越多，告警信息出现爆发式增长，每天收到上千封报警邮件。有个小插曲，我应该是第一个将腾讯企业邮箱撑爆的人，不是容量撑爆了，是邮件的数量超过了他们数据库的最大值，导致我在一周内没办法收发邮件，也没办法删除。

这个阶段的后期，也就是快接近1000台机器的时候，Nagios的监控功能已经无法满足需求了，并且Nagios图形功能总是捉襟见肘，于是开始思考超过1000台的情况了，摆在面前的路有两条：

1. 根据自己的需求继续深度开发Nagios；

2. 自建监控。

这时候有些朋友会想：换一个别的开源监控就能解决了。使用开源软件的最大问题就是，这个软件有什么功能你才能用什么功能，没有的功能要么自己开发，要么放弃使用，大量报警只是一个改变的转折点，经过长时间的使用和积累，通用的、普适的开源监控产品已经不能完全满足庞大复杂的需求了。

经过很长一段时间的慎重考虑，我决定自己搞一套监控系统，其实也是因为之前深入了解Nagios的整体架构和运作模式，觉得自己做一套也不是不可能的。

三、机器数量超过1000台的阶段

经过前期的思索和准备，到这个阶段开始开发自己的监控系统，解决痛点，完成需求，主要有几个事情：

1. 具备目前在用的Nagios所有功能：比照Nagios去做，覆盖原来的功能，并针对Nagios的问题进行优化改进，然后在替代了Nagios之后再升级。（第一步最重要了，如果连之前的Nagios的功能都不能替代，自建之路只能在这里就停下了。）

2. 将告警进行整理，化繁为简，减少重复告警：当出现轰炸式告警信息之后，如果不进行及时整理势必会将真正需要处理的事情耽误，并且由于某些原因，比如线路问题，会发生重复告警，所以必需要将告警信息进行处理再发出，预警信息由之前的每天3000+，下降到现在每天300以内。

3. 分离告警和显示：前面的监控系统，基本上告警功能和显示功能均在一起，不同机房的信息也需要汇总在中心节点后统一显示和告警。重要的告警的处理是分秒必争的，也跟界面显示无关，所以我在设计的时候将显示和告警功能进行了一次分离，在本地机房进行报警，然后再集中展示。

4. 分布式部署，避免单点：每个机房设置一个分节点，就是上面说的报警节点，设置一个中心节点，先在各个机房告警，然后汇总在中心展示。分节点与中心节点互备，通过智能DNS进行切换，如中心节点宕机，DNS自动切换到一个分中心节点，分节点升级为中心节点。

分布式节点切换示意图

总结

自建监控系统的好处就是可以充分利用数据、组合数据、分析数据、解释数据，将晦涩难懂的数据解读成人人能懂的数据，让产品人员、销售人员、老板统统明白当前的业务状态是怎么样的。最后给大家展示两个我们自建监控系统中分析后展示的数据：

这个图显示了全国各省访问Track系统的情况，不仅包含了速度，访问的数据中心，还能显示是否出现域名劫持等信息。当然靠自己的监测节点是得不到这么多这么全的监控数据的，这时候需要云智慧的“监控宝”出面帮忙了，我们使用监控宝的全国200多个节点，将检测数据通过API回传，再整理分析、反馈在图上。交换机的流量之前使用的是Cacti，交换机多了之后查找起来简直是个庞大的任务，针对这个需求痛点，我们的监控系统支持了交换机监控，除了基础的CPU等信息外，专门在流量上花了点心思。

通过上图可以一目了然的看到当前交换机之间的速度情况，流量都来自哪里，有多少。

这张图可以看到哪里流量达到了预警值，哪个交换机出现了问题，在快速定位处理上提供了很大的便利。

最后，每个公司的需求不一样，每个运维面对的痛点也不尽相同，不管有多少变化，万变不离其宗，有了机器上的各种监控数据，就可以组合分析出你想要的结果，自建的路上，我们才刚刚开始，keep moving！谢谢大家！

QA部分

问：这个底层还是nagios吗？

答：不是了，完全都是自己从头写的，借鉴了nagios的思路，但是采集的方法，汇总处理的方法不一样了。

问：数据库这块有监控么？还是交由专门的dba负责？

答：我们没有单独针对对数据库的监控，还是调用别人的监控脚本，然后获取数据。

问：你们在业务监控上都做了那些工作？

答：业务监控我们也有一些，给大家发个图：

这个是我们的业务监控，将所有的监控数据用文字进行描述，让产品、业务同学以及老板都知道现在是什么情况。

问：这么大的数据收集量，数据库端有做特殊的优化吗？异步处理？

答：是异步的，这个业务系统是放在大屏上展示的，出了问题时不用来研发和运维这边询问，就能直接看到哪里出了问题，也知道具体找谁询问恢复情况。

问：这个监控对资源的消耗有多大？

答：还好，集中展示处理数据的时候遇到过一些瓶颈，不断在优化。

问：智能DNS系统是自己开发的吗？

答：智能DNS我们用了第三方的，自己的也有。

问：请问下你们数据库是MySQL集群么？

答： MySQL的主从，将报警和展示分开还有一个原因，就是担心性能问题。展示可以慢几秒钟、几分钟，但报警不可以，所以报警是即时的，并且不用担心监控机器挂了就会变成瞎子。我们目前有6个节点分布在全国，全挂掉的几率很小，只要有一台活着就可以报警。

问：这个精确值是秒吗？

答：秒级的，最慢的通知是电话，需要十几秒。

问：你们现在只用了监控宝吗？透视宝有没有在用呢？

答：透视宝正在研究。

问：交换机获取的什么指标？

答： CPU，内存，警告信息，流量，端口。

问：再请教下阿里云的服务器性能是不是比自己托管服务器差很多？

答：目前公司用的阿里云自建数据库，性能有很大问题，云服务的IO普遍存在问题，阿里最严重。

问：业务监控怎么做的？

答：业务监控其实跟透视宝类似，只不过没有做到那么细粒度。

问：是在程序里埋点吗？

答：不在程序里埋点，就是利用监控数据实现的，所以只能做到现象级别，不能做到代码级。

问：是监控日志？还是CPU这些？

答：不是CPU了，针对程序是否正常运行的一些综合判断，业务监控看到的一项，后面可能对应了十几个监控，还有一些逻辑判定，主要是将人的分析模式变成了自动的。这个跟公司业务有关，有的是API、有的是程序，不同业务也不一样，还有响应速度等。

问：公司有几个运维？

答：算上我一共8个人，这个图是我们自己开发的平台。

问：运维每天工作怎么划分的，分产品吗？

答：早期分产品，第二阶段自动化作完之后，基本上随意了，都通过工单系统来完成，常规的工单审批结束后自动上线，不需要运维参与。

问：有没有一堆业务统计需求？

答：有，需求由我来分配，经常需要统计的需求我们会做好了，直接给他们看系统取数。

问：私有云用的什么工具？

答：基于kvm做的开发，早期用gopstack、openstack，后来发现太重了。简单理解一下私有云，就是kvm 自动化。

问：你们物理机都大概什么配置？

答：最低配也是双6核，64G。

问：你们可视化后是什么样子，是工单吗？

答：

从 0 到 1000+ 台服务器监控的构建之路

正文

请到「今天看啥」查看全文