手工操作是初期运维团队的主要方式,渐渐的会形成一些工具或者系统,但都比较零散,适用场景较小,无法产生规模化。运维批量化和自动化所需要的信息非常少,这些信息基本上都靠人工录入,有哪些IDC,放置了什么服务器,服务器部署了什么服务,这些信息都没有自动采集和联动,无法给自动化系统提供必需的基础信息。运维的重复性工作非常多,又较多属于手工操作,不仅效率低,而且手工操作带来的失误率也比较多,几乎无法消除。
运维承受来自于外部不断增长的业务压力,以及快速发展中引入的各种缺陷。同时又面对内部生产力低下,导致工作效率低下和误操作较多的现状。运维是一个比较尴尬的工作,属于技术线的末端,人力、技术和资源的投入也属于末端。运维不出故障是正常,任何由于资源不足、基础设施不稳定、人员误操作导致的问题,都会被业务部门投诉。不过近年来,运维工作的价值越来越被大家认可,运维支持能力成为公司的核心技术竞争力之一。运维工作需要从两个方向去解决上述提到的问题:提高内部运维效率和降低外部运维压力。经过统计,运维工作中占比最多的是服务变更、监控管理、容量管理和故障处理。我们需要开发运维工具和平台,在运维数据准确的前提下让所有的工作尽量自动化起来。制定相关的标准和流程,运维人员在项目设计阶段就参与进来,进行设计评审,让研发人员交付的项目符合运维准入的要求。同时,让研发人员使用运维相关的工具,使研发、测试、上线阶段的部署行为一致,监控策略一致,且被测试验证过。运维标准不是凭空制定出来的,需要满足运维自动化相关工具的最低要求。符合运维标准的产品,能够更加方便地进行一键部署,与监控联动等,这样才使研发人员有动力往运维标准靠拢,更积极地使用运维工具,我们的标准和工具才能进一步得到。