对于网站经营者而言,服务器挂了毫无疑问是他们最大的噩梦。不幸的是,在9月7日晚上,这一噩梦大面积上演。据媒体报道,当晚因为电信京汉广光缆出现故障,包括阿里云、AWS、金山云及UCLOUD等云服务提供商在北京的服务器电信线路均出现访问故障,多家使用这些云服务的网站访问受到影响,近两个小时后才恢复。
“光缆一断,损失百万”
互联网时代最大的隐患是什么?这次事故做了一个生动的回答。服务器不能访问,对于互联网企业来说无异于毁灭性的打击,相当于传统商场门口的路被挖断那么严重。路被挖断,自然就不会有顾客上门;服务器挂了,当然也不可能有任何访问和流量,其损失可想而知。
所以之前在光缆沿线会看到这样一条标语,“光缆一断,损失百万”。去年的一个鲜活的例子是,浙江台州一挖掘机挖断了甬台温电信光缆,后经相关部门鉴定,造成了1459.25万元的损失。但造成光缆断掉的原因却又可能是微不足道的一件小事,被挖掘机挖断已算很高大上了,电信京汉广光缆2008年也曾断过一次,原因竟然是被湖北孝感一农民在挖地时不小心挖断了的!
互联网线路是如此重要,却又如此脆弱。以至于有人感叹,动辄数十亿美金的互联网企业,其生命线可能维系在一把锄头上。
紧急容灾紧急止损
在这件事情的后续报道中,有个词多次出现,“紧急容灾切换”。事实上,紧急容灾确实是应对线路故障的最有效手段。
所谓容灾,指的是数据存储备份的一种标准,即要为数据信息提供一个能应付各种灾难的环境,可以保证在遇到各种天灾人祸时,能保证用户数据的安全性,乃至于提供不间断的访问服务,是数据存储备份的最高层次。
形象点说,就好比是某家商场被水淹了,此时赶紧组织人手,把商场的货物转运到高处仓库里去,以保证货物不受水淹,等到水退了再搬回来,这就是“数据容灾”。如果这家商场不仅有仓库,还开有其它分店,一处被水淹,其它地势高的分店,还可以照常营业,继续给顾客提供服务,这就是“应用容灾”。很明显,应用容灾要比数据容灾更有用、更强大,当然肯定也会更贵一些。
此次线路故障时,云服务商进行紧急容灾切换,依靠的就是各自的容灾系统。但从实际效果来看,这些云服务商的容灾系统估计分布得还不太广,还不足够安全,所以才会仍然难逃影响。
跨区域容灾以节点替代节点
不过也要留心到,并不是所有云服务商都受到了影响。比如星域CDN在北京的服务就几乎不受影响,依然保持着良好的畅通状态。怎么做到的?这就要说到一种容灾技术,跨区域容灾。顾名思义,跨区域容灾指的是把容灾系统铺得更广,可以横跨数个区域,这样的好处是能带来更为强大的容灾能力。
星域CDN能在这次北京断网中逃过一劫,靠的就是其强大的跨区域容灾系统。而且星域CDN的跨区域容灾系统还很有特点,它不仅拥有众多“分身”,而且分布均匀,覆盖面广,就像连锁超市一样覆盖很大一片地区。这是星域CDN最核心的技术之一,具体地说,就是依靠迅雷赚钱宝这种智能硬件,星域CDN建立起一个脱离对骨干网的依赖,同时覆盖面其广无边的超大型跨区域容灾系统。
此外,星域CDN的节点之间的联系,不是传统的树状结构,而是立体的网状结构,对骨干网路径的依赖进一步减轻,这就更加加大了它的容灾能力。传统云服务商的网络结构就像路面系统,一旦遇到洪水就处处受堵,而星域的立体网状结构,则相当于道路不通行,那我就用无人机空中送货,其灵活性和效率高出一个数量级。因此,在这次的大面积骨干网障碍中,星域CDN安然无恙,其无限节点网络的强大性,再一次得到证实。
由此可见,对于互联网企业来说,建设起自己的跨区域容灾系统是当务之急,花费再多也物有所值。或者是选择如星域CDN这种已具备跨区域容灾能力的云服务商,也是不错的选择。但无论选择哪种方式,都刻不容缓,最重要的是立即开始行动。