来源:民工哥技术之路
ID:
jishuroad
作者:顾凯
AdMaster精硕科技是中国领先的独立第三方营销大数据解决方案提供商,也是目前国内的独立第三方DMP(大数据管理平台)平台。目前,AdMaster已经为快消、IT、汽车等多个行业80%的世界100强品牌及众多国内知名品牌提供数据服务,杜蕾斯、宝洁、卡夫、雅诗兰黛、可口可乐、伊利、联合利华、麦当劳、微软、东风日产等大家耳熟能详的品牌都在使用精硕科技的数据服务。
云智慧有幸邀请到精硕科技运维总监顾凯先生,为大家带来《从几台到几千台的运维经历》精彩分享:
从入职到AdMaster以来历时五年多,经历了公司从几十台到几千台服务器的飞速增加阶段,目前AdMaster每天增长量数据量超过5T,每天请求数超过100亿,每天计算超过1000亿条记录,每天计算任务数超过10万个,1000亿记录的秒级查询,100万级的QPS。
多年以来一直以稳定运行为前提,确保业务永不掉线,带领运维团队自主开发了运维系统,包含,资产管理,工单管理,监控系统,域名管理,公有云管理,私有云管理等平台,并将运维数据进行分析整理,将运维工作透明化,可视化。
这次主要给大家介绍一下从几十台到几千台服务器的运维过程中,监控系统的变迁经历。常说一千个人心中有一千个哈姆雷特,一千个运维的心中有一千种运维的方法,没有一个方法是万能的、可以适用所有的场景,具体问题还得具体分析,我将这五年的经历大致分了三个阶段:
第一阶段:200台以下
第二阶段:200~1000台
第三阶段:1000+(1000以上和2000以上没啥区别了)
每个阶段的分界点也不是那么精确的,就是一个大概的时期,变化都是一个逐渐的过程。
一、
机器数量小于200台的阶段
这个时期需求简单,主要用于通知问题、快速定位解决问题,大致总结一下,主要需求就三点:
1. 简单,易用;
2. 稳定运行;
3. 能够报警,邮件,短信。
基于以上需求,可以使用比较流行开源的监控软件Nagios,Cacti,Zabbix,Ganglia,etc。流行的开源产品有较多的文档,可快速上手,并且有大量的前人使用经验,可以避免许多问题,即使遇到问题也容易找到解决办法。其中邮件报警一般是都支持的,短信需要自己对接一下短信平台。
我们在早期的时候选择了Nagios和Cacti,选择Nagios主要是个人原因,我最熟悉,使用Cacti是因为对交换机的监控特别方便,几乎是傻瓜式的。其实在这个阶段,不管是哪一个监控产品,基本都可以满足需求,选择的因素还是看个人喜好,这个时期运维同学是可以偶尔任性一下的。
二、机器数量200到1000的阶段
这个时期,需求开始变得复杂,不过主要还是用于通知、告警,避免同样的问题再次发生,我在这个时期主要做了以下事情:
1.
统一监控内容
:将基础监控进行统一,默认每个机器都包含CPU,内存,磁盘空间等基础信息监控;
2.
覆盖式监控:
将所有机器均纳入监控,除去基础监控以外,最重要的当属业务监控,尽可能的覆盖业务流程,通过自定义监控减少和去除重复的问题,保障业务稳定运行。
3.
及时通知,确保无漏报:
将所有监控分类,根据重要程度、紧急程度等,分别用邮件,微信,短信,电话等不同级别的方式通知,确保每个监控都有人处理,并且对于重要的业务采用call死你的方式,不处理就一直通知。
在这个时期对Nagios进行了深入的研究,编写自定义脚本、大量增加各种监控项,将Nagios大部分的插件如nrpe、nsca和功能充分使用。
随着机器越来越多,需要监控的服务也越来越多,告警信息出现爆发式增长,每天收到上千封报警邮件。有个小插曲,我应该是第一个将腾讯企业邮箱撑爆的人,不是容量撑爆了,是邮件的数量超过了他们数据库的最大值,导致我在一周内没办法收发邮件,也没办法删除。
这个阶段的后期,也就是快接近1000台机器的时候,Nagios的监控功能已经无法满足需求了,并且Nagios图形功能总是捉襟见肘,于是开始思考超过1000台的情况了,摆在面前的路有两条:
1. 根据自己的需求继续深度开发Nagios;
2. 自建监控。
这时候有些朋友会想:换一个别的开源监控就能解决了。使用开源软件的最大问题就是,这个软件有什么功能你才能用什么功能,没有的功能要么自己开发,要么放弃使用,大量报警只是一个改变的转折点,经过长时间的使用和积累,通用的、普适的开源监控产品已经不能完全满足庞大复杂的需求了。
经过很长一段时间的慎重考虑,我决定自己搞一套监控系统,其实也是因为之前深入了解Nagios的整体架构和运作模式,觉得自己做一套也不是不可能的。
三、机器数量超过1000台的阶段
经过前期的思索和准备,到这个阶段开始开发自己的监控系统,解决痛点,完成需求,主要有几个事情:
1.
具备目前在用的Nagios所有功能:
比照Nagios去做,覆盖原来的功能,并针对Nagios的问题进行优化改进,然后在替代了Nagios之后再升级。(第一步最重要了,如果连之前的Nagios的功能都不能替代,自建之路只能在这里就停下了。)
2.
将告警进行整理,化繁为简,减少重复告警:
当出现轰炸式告警信息之后,如果不进行及时整理势必会将真正需要处理的事情耽误,并且由于某些原因,比如线路问题,会发生重复告警,所以必需要将告警信息进行处理再发出,预警信息由之前的每天3000+,下降到现在每天300以内。
3.
分离告警和显示:
前面的监控系统,基本上告警功能和显示功能均在一起,不同机房的信息也需要汇总在中心节点后统一显示和告警。重要的告警的处理是分秒必争的,也跟界面显示无关,所以我在设计的时候将显示和告警功能进行了一次分离,在本地机房进行报警,然后再集中展示。
4.
分布式部署,避免单点:
每个机房设置一个分节点,就是上面说的报警节点,设置一个中心节点,先在各个机房告警,然后汇总在中心展示。分节点与中心节点互备,通过智能DNS进行切换,如中心节点宕机,DNS自动切换到一个分中心节点,分节点升级为中心节点。
分布式节点切换示意图
总结
自建监控系统的好处就是可以充分利用数据、组合数据、分析数据、解释数据,将晦涩难懂的数据解读成人人能懂的数据,让产品人员、销售人员、老板统统明白当前的业务状态是怎么样的。最后给大家展示两个我们自建监控系统中分析后展示的数据:
这个图显示了全国各省访问Track系统的情况,不仅包含了速度,访问的数据中心,还能显示是否出现域名劫持等信息。当然靠自己的监测节点是得不到这么多这么全的监控数据的,这时候需要云智慧的“监控宝”出面帮忙了,我们使用监控宝的全国200多个节点,将检测数据通过API回传,再整理分析、反馈在图上。交换机的流量之前使用的是Cacti,交换机多了之后查找起来简直是个庞大的任务,针对这个需求痛点,我们的监控系统支持了交换机监控,除了基础的CPU等信息外,专门在流量上花了点心思。
通过上图可以一目了然的看到当前交换机之间的速度情况,流量都来自哪里,有多少。
这张图可以看到哪里流量达到了预警值,哪个交换机出现了问题,在快速定位处理上提供了很大的便利。
最后,每个公司的需求不一样,每个运维面对的痛点也不尽相同,不管有多少变化,万变不离其宗,有了机器上的各种监控数据,就可以组合分析出你想要的结果,自建的路上,我们才刚刚开始,keep moving!谢谢大家!
QA部分
问:
这个底层还是nagios吗?
答:
不是了,完全都是自己从头写的,借鉴了nagios的思路,但是采集的方法,汇总处理的方法不一样了。
问:
数据库这块有监控么?还是交由专门的dba负责?
答:
我们没有单独针对对数据库的监控,还是调用别人的监控脚本,然后获取数据。
问:
你们在业务监控上都做了那些工作?
答:
业务监控我们也有一些,给大家发个图:
这个是我们的业务监控,将所有的监控数据用文字进行描述,让产品、业务同学以及老板都知道现在是什么情况。
问:
这么大的数据收集量,数据库端有做特殊的优化吗?异步处理?
答:
是异步的,这个业务系统是放在大屏上展示的,出了问题时不用来研发和运维这边询问,就能直接看到哪里出了问题,也知道具体找谁询问恢复情况。
问:
这个监控对资源的消耗有多大?
答:
还好,集中展示处理数据的时候遇到过一些瓶颈,不断在优化。
问:
智能DNS系统是自己开发的吗?
答:
智能DNS我们用了第三方的,自己的也有。
问:
请问下你们数据库是MySQL集群么?
答:
MySQL的主从,将报警和展示分开还有一个原因,就是担心性能问题。展示可以慢几秒钟、几分钟,但报警不可以,所以报警是即时的,并且不用担心监控机器挂了就会变成瞎子。我们目前有6个节点分布在全国,全挂掉的几率很小,只要有一台活着就可以报警。
问:
这个精确值是秒吗?
答:
秒级的,最慢的通知是电话,需要十几秒。
问:
你们现在只用了监控宝吗?透视宝有没有在用呢?
答:
透视宝正在研究。
问:
交换机获取的什么指标?
答:
CPU,内存,警告信息,流量,端口。
问:
再请教下阿里云的服务器性能是不是比自己托管服务器差很多?
答:
目前公司用的阿里云自建数据库,性能有很大问题,云服务的IO普遍存在问题,阿里最严重。
问:
业务监控怎么做的?
答:
业务监控其实跟透视宝类似,只不过没有做到那么细粒度。
问:
是在程序里埋点吗?
答:
不在程序里埋点,就是利用监控数据实现的,所以只能做到现象级别,不能做到代码级。
问:
是监控日志?还是CPU这些?
答:
不是CPU了,针对程序是否正常运行的一些综合判断,业务监控看到的一项,后面可能对应了十几个监控,还有一些逻辑判定,主要是将人的分析模式变成了自动的。这个跟公司业务有关,有的是API、有的是程序,不同业务也不一样,还有响应速度等。
问:
公司有几个运维?
答:
算上我一共8个人,这个图是我们自己开发的平台。
问:
运维每天工作怎么划分的,分产品吗?
答:
早期分产品,第二阶段自动化作完之后,基本上随意了,都通过工单系统来完成,常规的工单审批结束后自动上线,不需要运维参与。
问:
有没有一堆业务统计需求?
答:
有,需求由我来分配,经常需要统计的需求我们会做好了,直接给他们看系统取数。
问:
私有云用的什么工具?
答:
基于kvm做的开发,早期用gopstack、openstack,后来发现太重了。简单理解一下私有云,就是kvm 自动化。
问:
你们物理机都大概什么配置?
答:
最低配也是双6核,64G。
问:
你们可视化后是什么样子,是工单吗?
答: