在昨天召开的“2017开放数据中心峰会”上,阿里巴巴基础设施事业群总经理周明表示,阿里巴巴基础设施团队,支持了来自整个淘宝、天猫为基础的电商集团,以蚂蚁金服、支付宝为核心的金融集团,以及以菜鸟网络为核心的物流板块,遇到了一些压力和挑战。
周明说,阿里巴巴拥有国际化的基础设施和全球化的网络,有巨大的服务器的保有量以及每年有相当数量新增的服务器量,如何去运营,如何提供技术,都是一个非常大的压力。他认为,降低成本是最原始的驱动力,但其实不够,更重要的是如何构建技术竞争力。
据周明介绍,阿里巴巴通过三个方面来应对这些挑战。首先是白盒化,除了降低成本,还实现了很多优秀技术的叠加;其次是架构一体化,实现了从芯片到硬件,到基础软件平台乃至上层应用的一体化设计;第三是智慧化,不仅仅提供一个设备、技术或者软件,还提供7×24小时、365天的不中断的服务,解决Online服务对基础设施稳定性的挑战。
从数据中心的风火水电层面来看,最重要的是降低PUE,提高用电效率,因为能源成本已经成为数据中心OPEX的大头。阿里巴巴从最初的租用数据中心,到后来的自建,一直在不断的摸索,比如杭州的数据中心将引入千岛湖湖底冷水作为冷源,而在张北建立的数据中心则引入自然风冷,阿里巴巴做了非常多细致的工作。
从数据中心服务器层面来看,阿里巴巴从最开始购买整台服务器,到后来的整机柜,甚至到服务器的部件、芯片,都逐步在做白盒化工作。从整机定制变成CPU定制,最初规格的定制,到微架构的定制,包括采用越来越多的智能网卡,网络已经开始从交换机逐步落到服务器,最后落到网卡。当前,结合AI,比如FPGA、NPU等异构技术,也已经进入考虑的范畴。
从数据中心网络层面来看,阿里巴巴也在加快自研速度,从最下面的传输到模块自研,到上层交换机,甚至是OS层面的自研;在一些基础软件,比如涉及到VPC、虚拟网络以及服务化QoS,包括整个流量的调度,把每一项技术深入到每一层来做白盒化的解决方案。
“事实证明白盒化是不够的,白盒化只是解决了工作,我们的目的是架构一体化,实现竞争能力。比如把PUE降低了够不够?不够!还需要跟服务器、网络,怎么有机的结合起来。从白盒化到架构一体化,这是非常重要的核心,也是我们技术竞争力的体现。”周明说。
在谈到智慧化时,周明指出,白盒化的设备和一体化的技术架构,要保证7×24小时的服务,依然会出现很多问题和故障,有了故障之后会对业务造成什么影响,如何快速的发现故障,定位故障,修复故障,这是非常现实的演进过程。规模小的时候手工搞定就可以,规模大了一定是不行的,只有实现信息化和自动化,才能提高效率,走向未来的智慧化。