专栏名称: 高效运维
高效运维公众号由萧田国及朋友们维护,经常发布各种广为传播的优秀原创技术文章,关注运维转型,陪伴您的运维职业生涯,一起愉快滴发展。
目录
相关文章推荐
51好读  ›  专栏  ›  高效运维

就是干!移动的运维实践之路

高效运维  · 公众号  · 运维  · 2017-03-20 07:12

正文



作者简介:

王晓征

中国移动浙江公司 信息技术部副总经理

中国移动通信集团浙江有限公司信息技术部副总经理,中国移动集团业务支撑高级技术专家。

前言

作者是中国移动浙江公司信息技术部副总经理兼云计算中心主任,本文主要讲中国移动浙江公司云运维的一些实践。

1、我们的IOE时代

首先看一下,谈到运营商大家都会有这个感觉我们是一个电信化的企业,电信讲究的是标准、规范,在电信的 IT 时代中,我们曾经用过当时国内非常先进的技术,就是 IOE 。

1998年我们就进入了惠普高端小型机,当时有个笑话,我们在引入惠普小机的时候工作进度比我们预想的工期慢很多,因为美国政府怀疑我们引用这些小机有军事方面的用途。

后来我们到 2003 年组建了一个以 OCM 为核心的数据库团队,在 Oracle 运行方面在业界也是跑得比较领先的。

自从 2011 年以来去 IOE  这块走得非常迅猛,包括这个东西对我们运营商,对我们金融行业,都造成了非常大的影响。

2、去IOE时代的背景与驱动

对我们运营商来说内部也提出了一些系统云化和去 IOE 方面的设想。

不管怎么说,这种灵活性、弹性、开放性永远是一个企业所追求的梦想,尽管我们的架构曾经非常的强大也非常的传统,但是还是要把自己的架构进行转变。

如果说,我们运营商也要谈去 IOE 的话,是有我们自己的驱动原因,因为我们的业务也在发展,是 4G 时代背景下要求的。

在这种情况下 IT 架构也需要做分布式的改造,我们需要能够支撑这样互联网式的业务,而且我们的能力也需要能够内化,逐渐加强我们运营商自己的核心能力掌控,包括成本,还有一些社会责任方面的考虑。

3、保守OR前进

我们可以看到,要完成这些改变是很难的,曾经有过一个辉煌的过去,你要去改变这有多难。

给大家举个例子,几千年来中国和英国的弓箭手都是非常有名的,有一个非常大的区别,英格兰长弓手大概在16世纪就逐步退出军队了,而我们中国的长弓手到1840年以后才逐步退出战场。

一个技术发展了,这就是两家公司是不是能够比较好的拥抱新技术的结果,一个转型的公司损失可能只有10个人,没有转型的公司损失非常大,这必须要去调整。

从这个角度来说,任何一个科技、技术都有时代性,如果到了不属于它的时代,我们就必须要颠覆我们自己,这是一种理念的变化。

4、云化之路征程开始

我们之前也做了相当多的事情,我们从 2009 年开始已经对云计算开始进行研究和迁移,我们大概是在 2013 年开始把我们的核心数据库进行了 X86 化,我们数据库的去 IOE 工作已经基本上完成了。

4.1 我们的云化之路

从2011年开始,我们的核心融合 CRM 系统,到 2015 年为止,我们所有的核心系统已经全部都跑在 X86 服务器上。

另外这两年 Docker 技术比较热,从2014年开始我们引入 Docker 技术,到了2016年的6月份,我们全省的 CRM 前端已经全部实现了 DCOS 化,全部跑在容器上。到目前为止,我们把所有的核心系统正在往 Docker 上进行迁移。

4.2 前进上的挑战

在这个发展过程中我们面对的挑战是什么?

  • 第一 ,在系统要云化要去 IOE,但是对我们的稳定性和可用性的标准没有降低,还是在提升。

  • 第二 ,技术栈变化对我们的团队的冲击是非常大的。

  • 第三 ,要求我们在变化的过程中还要能够节省和保持成本的稳定。

  • 第四 ,我们这个团队定位是什么— 运维团队?

最后这项我觉得很重要,以前我们在 IOE 时代,团队定位就是一个实实在在的运维团队。

面对现在这样的情境,我们是否仍然是一个运维团队,还是说应该自己颠覆自己去做一些其他的事情,这是对我们非常大的一种挑战。

我们一共做了四个方面工作,一方面把我们的运维团队要走出来,自己推出新一代的云平台的技术架构的建设,由运维团队来推动技术栈的变化。

再有我们的定位也发生了变化,从纯运维走向逐步的运维开发,再从运维开发逐步走向云平台的规划和建设,这是对我们团队本身定位的一种变化。

另外一块是模式的变化,我们的运行模式也发生了变化,我们从一个抗拒变化的传统运维,到现在把自己塑造成了一个运维开发团队,变成了一个 DevOps 团队,变成了一个建设规划团队。

这种情况下我们把我们团队的理念和运行模式也发生了一些变化,而且我们的运维体系,从传统的逐渐向新的运维体系进行调整。

4.3 拥抱云化的转型

有一个非常好的概念叫做轻量化的 ITSM,中国移动在国内 ITSM 的实践上也是走得比较领先的,现在可能是我们应该从传统的 ITSM 逐步走向轻量型 ITSM 的时代。

上图的是定位的变化,我们把我们的运维团队逐渐变成了一个运维经验平台的建设者和架构的管控者,不是直接守着 IOE 的平台不往前走,而是要去看我们的开发是怎么把能力输出给我们的运维团队的。

同时在这个过程中我们应该在里面发挥什么作用,我们自己去建设我们自己的一个运营的平台,同时我们对 IT 的架构要有自己的理解和掌控的能力。

另外一块,这个图左边是一只猫,右边是一个牛,其实在 IOE 时代我们都会发现,我们的 IT 系统稳定性是取决于我们的技术架构自身的稳定性。

但是在去 IOE 的时候,特别是去“I”,单个 X86 服务器的稳定性不再重要,某种意义上我们把我们的服务器从宠物变成了肉牛,这个对我们运维团队的挑战是非常大的。

某种意义上说,去“I”后不再稳定,我们要用一个稳定的 DCOS 架构去颠覆它,总得有一个稳定的。

这是我们运维体系的变化,其实在2010年以前走的是标准化的传统的架构,后面逐渐把我们的架构向轻量级的 ITSM 进行转移。

5、新模式下的新成果

5.1 新型的运维组织架构

下图是我们运维团队构成的转型,我们把自己的纯运维团队逐渐增加了一个开发的属性。

另外,我们把曾经完全竖井化的运维架构,在中间我们培养出来的全栈工程师,把这些系统的维护进行拉通。

上图我们的一个组织架构的转型。我们目前也成立了云计算中心,这个就是我刚才说的,我们把一个曾经的运维团队转型成一个架构的治理、建设、规划团队,这样我们的运维团队可以做到 40岁也没问题。

5.2 更透明的问题处理方式

传统运维在自动化、可视化、效率方面问题是比较多的,我们当时在传统的时候会发现,我们的应用租户始终觉得我们的平台不透明。

比如我们的租户在维护他的应用系统的时候,他会觉得是不是主机有问题、服务器有问题、数据库有问题,这种情况下我们很难说服他。

我们想办法做一个比较好的可视化工具,我们把自己的状态主动暴露给租户,这样可以极大提升租户运行的感知。

举个例子,我们在做维护的时候,特地增加了一部分的自动化的运维能力,其中比较好的两个能力,现在对核心数据库的异常操作是我们目前实现了自动化查杀,另外一块我们已经实现了通过手机 APP 对系统的灾备进行切换。

6、迈入新战场

上图是云平台规划的蓝图,详细不展开,我们的团队现在已经从一个系统的维护者转向一个系统的云平台的规划和建设者的角度去进行转型。

下图我们一个技术预研体系,我们现在在实际工作中,对于我们运营商的 IT 团队,有的时候也比较被动。

因为我们技术栈的引入很可能是由我们的开发团队去定的,但如果开发团队比较竖的话,会造成技术架构不标准,所以现在我们提出“预研一代、测试一代、推广一代”的工作策略。







请到「今天看啥」查看全文