对IOE的依赖存在一日,国家安全就会继续受到严重的威胁。相比之下,去IOE带来的运行效率提升、成本下降等好处都显得不那么重要了。尤其在当前的国际形势下,拆除银行业内部这颗“地雷”显得尤为紧迫。
文 | 瞭望智库特约科技观察员王强
本文为瞭望智库特约文章,如需转载请在文前注明来源瞭望智库(zhczyj)及作者信息,否则将严格追究法律责任
中国银行业一直有一个核心的安全命门。
我们先回到三年多前,当时的一个重大事件让这个命门暴露无遗。2013年6月23日,正在全国各地工商银行办理业务的客户突然发现银行的电子系统出现了问题:交易失败、查询无响应……诸多故障一齐爆发,银行陷入了半瘫痪状态。
受到影响的业务涵盖了柜台与线上渠道,范围波及全国。而直到故障发生一个多小时后,各地工行才陆续恢复了系统的正常运行。
在事后的调查中,整起事件的起因被认定为是上海数据中心主机升级数据库软件时出现故障,而故障的直接原因则是供应商IBM的软件缺陷。
故障发生后,数据中心不得不紧急将升级后的软件版本完全回退到旧版,这一过程消耗了数十分钟时间,造成全国大面积的业务中断。毋庸置疑,这是近年来国内银行金融领域发生的最严重的一次信息系统故障事故。
普通人可能想不到,“6·23”事件给国内银行业带来的冲击远远超过那1小时的慌乱。
在银行金融领域,IBM的业务主机、Oracle的数据库和EMC的存储系统(简称“IOE“)多年来犹如“定海神针”,支撑着国内几乎所有银行的核心信息处理平台。
大家对IOE是如此信任,以至于很多人认为他们打造的系统永远不会出严重故障。因此,每年三大供应商都能收获数以亿计的庞大订单来建设、维护和更新银行电子系统,三家美国企业几乎控制了中国银行业的“命门”。
直到“6·23”事件爆发,人们才如梦方醒——原来IOE并不是神仙,它们也有可能出问题,而且可以是非常严重的事故;再加上当时“棱镜门”事件的刺激,国内开始强烈地意识到过度依赖IOE可能会给银行金融业带来的巨大风险。以国产系统取代IOE成为金融业信息平台“顶梁柱”不再是一项长远规划,而成为了中国IT产业面临的最迫切任务之一。
1
历史:IOE何以垄断银行业核心技术?
与一般人耳熟能详的微软、英特尔、苹果、谷歌等IT业巨头不同,IBM、Oracle和EMC三家企业的行业地位,普通消费者可能都不是很清楚,这三家公司主要的业务领域是商用生产力市场,为企业提供不同级别的信息处理平台解决方案。
其中,IBM主要生产高性能服务器、核心主机;Oracle主要提供大型数据库平台,而EMC专攻高可靠性数据存储业务。三大品牌最擅长的领域就是对性能、可靠性、安全性有着极高要求的金融行业,多年来一直凭着技术和服务的优势垄断着全球金融业信息处理平台的大多数市场份额。
以IBM设计的核心主机为例,其使用的处理器是IBM自行研发的Power系列高性能芯片,不仅有着远超一般服务器的业务处理性能,更具备业界顶尖的故障应对技术。
当一台主机的某颗芯片出现运行不稳定的状况,主机会立刻向管理员通报,后者可以及时采取各种应对措施。如果需要,主机甚至可以在通电运行状态下更换处理器、内存等关键芯片,同时不影响正常的业务处理。
主机运行的操作系统也不是个人计算机常见的Windows或Linux,而是IBM自行开发的复杂业务专用系统,稳定性和安全性更高。数据中心只需要少量的IBM主机就可以应付全年无休的业务,而主机的维护、更新等工作主要由IBM负责,银行自己无需操心太多。
类似的,Oracle的数据库和EMC存储系统也有这些优势,因此广受金融行业青睐。
在长达20余年的时间里,IOE都在全球关键数据处理市场经营得风生水起,地位无可撼动。除了金融机构,民航、铁路、电力、电信等领域也对IOE产生了“依赖症”,像阿里巴巴这样的民营企业早年的核心业务也全靠IOE支撑。三大品牌也因此收获了滚滚而来的庞大订单和利润。
所有的这一切看上去都无比美好:IOE提供最出色的平台,企业掏钱购买绝对高效可靠的服务。直到数年前,这样的局面开始出现了裂痕,一场影响深远的变革开始了。
2
变革:当IOE开始落后于时代
“铁打的营盘流水的兵”——曾几何时,IOE甚至认为自己才算那“营盘”,不管环境如何变化地位都岿然不动。
然而讽刺的是,最先意识到IOE缺陷的恰恰是他们的重要客户。全球许多金融机构、电子商务平台等企业相继在2010年前后开始了“去IOE”计划并取得了成功。
在这里,我们以国内代表性的“去IOE”案例为例,来看看为何曾经笼罩在三大企业头顶的光环开始黯淡失色。
中国最早无法忍受IOE的大型企业当属阿里巴巴。2009年,已经成为国内电商品牌一哥的阿里开始审视自己的业务架构,对IOE技术方案的依赖成为了阿里技术部门最为头痛的问题。
经过慎重研究,阿里最终提出了一项庞大的计划:在三年之内完全替换IOE技术方案,代之以自主开发的开放式处理平台。其中,IBM的主机会被廉价、流行的x86服务器取代,Oracle的数据库要被更替为在开源产品上发展起来的技术,而EMC存储平台也会换成通用的基于开源系统的存储方案。
之所以要搞“去IOE”运动,阿里有几个层面的考虑。首先也是最急迫的需求在于,IOE平台在可预见的将来很快就无法适应阿里高速增长的业务规模了。正像前文所述,IOE可以在少量的核心主机上实现非常强悍的处理性能和极高的可靠性,这样的设计思路在过去是很不错的。但是当需要处理的业务迅速增加时,IOE方案最大的缺陷就暴露了出来:无法灵活扩展。
从设计之初,IOE的主机、数据库和存储平台就不是为轻松扩展设计的。举个例子,如果一开始购买的10台主机性能不足,那么用户就需要向IBM新订购10台性能更强的主机换掉原来的机器,而不是将新旧机器联网来增强性能。即便IOE可以提供一些方案来实现联网扩展,这种扩展也只能限制在数量较少的主机和数据库节点范围里。
与此同时,新购买机器和软件许可的价格非常昂贵,而升级的过程中主要流程均需IOE厂方全程主导,用户只能在花费巨资后完全指望供应商的办事效率。诸多因素决定了企业一旦采用IOE方案,就很难根据自身需求迅速扩展信息处理平台效能,这对阿里这样高速发展的电商企业无疑是致命的缺陷。
缺乏灵活扩展能力的另一个重要缺陷在于,IOE方案很难靠增加大量冗余节点的方法来改善可靠性。虽然每一台主机都有着顶级的无故障持续运行能力,但是一旦特殊状况发生,少量的几个节点都失效,数据中心就会陷入完全瘫痪的可怕境地。
2013年发生在工行的“6·23”事件证明这种灾难并非耸人听闻。对于阿里巴巴来说,尤其在热门购物季出现类似的问题是难以忍受的,这也是下决心抛弃IOE的重要因素。
最后,IOE平台成本太过昂贵,即便是阿里这样财大气粗的企业也难以轻松承受。抛弃IOE转向自主研发的技术会为阿里节省大量资金,这些资金可以用来购买更多的设备来提升阿里的业务系统性能。从性价比角度来说,IOE无疑是完败。
当然,去IOE计划并不是一帆风顺、一蹴而就的。阿里经过前后接近五年的漫长转型期才最终完全实现了这一壮举。
在此过程中,最考验新平台能力的就是从2009年开始每年举办的“双11”购物节。头两次双11,阿里还难以做到完全自如应对,很多消费者反映高峰期网络通讯延迟巨大、卡顿明显;经过两年的练兵,从2013年开始参加“双11”的网民就很难感觉到卡顿了,各种浏览、交易操作都变得非常平顺。至此,世界最大的电子商务平台才算是完成了自己“去IOE”的宏大计划。
阿里在去IOE的道路上并不是孤独的。国内另一个典型的案例就是曾经广受抱怨的12306铁路订票系统。在建设初期,12306订票网站沿用了铁路老旧的线下订票后台,这一后台同样基于IOE方案搭建。
众所周知,12306上线初期就遭遇了性能严重不足的困境,当春运开始后这种困境更加恶化,也让民众对铁路部门的不满情绪广泛蔓延。改进12306后台,提升性能应付高负荷需求是当时的中铁最紧迫的任务之一。
最终,12306基于和当年阿里类似的理由,决定完全重建数据中心架构,采用x86服务器、Linux系统和开源数据库来取代IOE方案。由于时间紧迫,工程师只有短短几个月来部署新平台,之后就迎来了2013年的春运大潮。
12306的订票逻辑比电商网站更为复杂,面临的需求压力丝毫不亚于“双11”高峰;而缺乏经验的12306在很短时间里重构了整个后台,承担的风险也是可以想象的。
然而就是这样一套尚不成熟的系统,上线后却表现出了惊人的能力:2013年春运,12306的处理效率比前一年有了飞跃提升,大大减少了旅客订票时的等待时间和卡顿、失败错误。新后台提供的处理性能比起老平台提升了至少一个数量级,同时在可靠性、安全性层面表现更佳,成本却低得多。
阿里巴巴和12306的成功证明了“去IOE”是技术进步、企业顺应市场需求的自然结果。IOE方案的缺陷在这两个案例中暴露无遗,其他企业和单位也从中获得了宝贵的信心,下决心改进自己的数据处理平台。
近年来,国外也有很多大型企业、金融机构实施了去IOE行动,也得到了类似的正面结果。可以说,即便IOE方案仍然是不少企业和单位的首选,但过去那种整个市场被完全垄断的局面已经不复存在,IOE的份额也在各个领域不断缩减。对于中国企业来说,摆脱“IOE依赖症”的收益更为明显,去IOE已经是不可扭转的历史趋势。
3
去IOE运动,银行业为何按兵不动?
需要替换老方案的企业单位当然不可能只限于阿里巴巴和12306,国内的金融行业事实上更应该早日摆脱这三个英文字母的束缚。尤其在“6·23”故障、棱镜门等事件发生后,银行业继续使用IOE平台甚至已经涉及到部分国家安全的风险。即便不考虑性价比等因素,关系国计民生的重要基础行业中,最核心的数据中心平台是否应该交给国外企业来掌控,依然值得商榷。
然而,虽然国内银行很清楚继续依赖IOE技术的诸多风险,但时至今日全国主要银行系统依旧没有开始大规模的系统更新工程。国内银行业“去IOE”的路线图也是模糊不清,没有一个明确的时间表和任务规划。
造成这种困境的最主要因素在于,由于银行系统最重视运行的稳定性,稍微大范围、长时间的系统故障就可能造成严重的社会经济损失和政治影响,因此对数据中心进行彻底的更新是一件风险非常巨大的挑战。
一旦新的技术方案出现重大错误,或者新旧系统更替时出现严重的数据损毁、丢失故障,后果将不堪设想。对于银行系统来说,继续使用已经稳定运行多年的老方案是比较稳妥的选择,至少短期内不会有太大的问题。
另外,虽然阿里、12306等案例已经证明IOE替代方案是高效可行的,但是这些案例毕竟还是以电商平台为主;大型银行完全替换IOE后台在国内尚未有先例,领导层面对于新技术、新方案能否承担重任仍有疑虑。
此外,银行系统技术部门多习惯了维护传统平台,对于非IOE的开放、分布系统技术不甚熟悉,大规模的转换也需要补充人才资源。银行系统的技术升级、人力更新也不像电商企业那样灵活,而目前社会对银行信息处理效率提升的需求并不像当年12306面临的那样急迫,诸多因素决定了银行业没有足够的动力去迅速实现去IOE,而更多是将其列为长远目标来考虑。
虽然各大银行都有自己的苦衷和现实理由继续沿用IOE平台,但不得不说这是一种消极的态度。IT行业的发展速度如此之快,以至于很多变革发生时都会给旧行业格局带来巨大的冲击。
即便暂时不考虑IOE依赖症对国家安全的影响,一旦这三大企业内部出现巨大变动导致其产品和服务无法维持高品质,银行系统就可能面临核心平台缺乏维护和更新的严重后果。
4
银行业“换心”:并没有想象中那样困难
其实,国内银行系统对于去IOE行动的风险和难度评价可能很大程度上偏离了实际情况。
一方面,一些人认为去IOE等于软硬件完全国产化,只有等国产高性能处理器、数据库、操作系统全部成熟可用后才可以换掉旧平台;另一方面,现有的国产芯片等产品尚处于发展的初级阶段,各项指标距离大规模高负荷应用的需求还差距甚远。
在这样的背景下,很多人判断去IOE之路会非常漫长,甚至可能要等待10年以上的时间。
事实上,去IOE并不等于彻底抛弃进口软硬件。以阿里巴巴和12306为例,他们用来替换IOE方案的设备、软件依旧以国外技术或者基于国外技术发展的自主产品为主。
比如,12306新的后台主机就是使用英特尔公司的服务器芯片,阿里巴巴的数据库则是在国外流行的开源产品基础上发展而来。使用成熟的国外替代技术来实现去IOE目标,最大的好处就是大大降低了可能的风险和技术难度,也可以在较短的时间内完成复杂的任务。
当然,用国外的替代产品来取代IOE并不是国内单位的终极目标,但这种做法绝不是无意义的举措。事实上,IOE平台的最大壁垒就是它们在软硬件架构上的封闭性,这种封闭性使得用户很难走出这个圈子使用其他企业的产品和服务。
例如,IBM的主机使用自有的芯片和操作系统,Oracle的数据库也没有开放源代码;相比之下,基于Linux系统、开源数据库、x86芯片的开放式平台的各个组成要件都可以很容易地找到多家供应商,也可以较为平滑地过渡为国产方案。
举例来说,一旦银行业用开放平台取代了IOE,那么只要国产芯片发展成熟,就可以在不对整个平台做重大改动的前提下,用国产处理器替换英特尔等国外企业的芯片。
类似的,国产数据库、操作系统等产品也很容易在开放平台上部署。可以肯定地说,使用成熟的开放平台取代IOE方案,是最终实现软硬件完全国产化目标的必要过渡路线。
此外,对于平台转换的技术风险预测,银行系统也略有些“小题大作”。虽然银行业对数据中心稳定性极为敏感,但只要准备充分、预案完善、提前做好社会宣传以避免故障带来的骚动,那么更替平台的过程中即便出现一些问题也是可以承受的。
况且,开放平台的优势就在于大量节点分布运行带来的更高稳定性、可靠性,一旦实现了去IOE目标,未来银行业的数据业务会变得更为平稳,类似“6·23”事件的故障发生概率也会低得多。
近年来,国内外诸多企业和单位成功的去IOE案例也给银行系统提供了宝贵的参考,通过充分学习它们的经验教训,各大银行完全可以实现系统的平稳更替,将风险控制在最低限度。
5
加快银行业的去IOE进程:一些可行的措施
除了技术因素外,政策和法规的约束也可能是目前银行系统不愿对信息系统大换血、大动刀的重要原因。主管领导担心出现问题后承担责任,就没有动力去推进系统的的更新换代;技术人员不愿意学习适应新的架构,也懒于为新技术的应用出谋划策。
为了改变这种局面,国家可以在政策法规上入手,针对性地放松一些制约,并鼓励银行实施新技术的探索与变革。在系统更新换代的过程中,出现了一些难以避免的问题,不应该对相关人员进行无谓的惩罚;而平台更新成功后,相关人员应该得到丰厚的奖励。得到了政策背书和现实利益的鼓励,银行系统内部才会有足够的动力去放手一搏。
国有银行也应该加强与民营高技术企业的交流,充分利用后者的技术积淀,在高水平民营企业的帮助下更顺利地实现去IOE目标。目前国内顶尖IT企业在相关技术层面的水平已经远非银行自有技术部门可比,虚心向前者求助是各大银行必然的选择。
最后,社会也应该更加关注和支持银行数据平台换代的计划,理解过程中可能出现的问题。媒体不应对风险过分夸大和渲染,而是要向大众科普去IOE对银行、国民和国家的巨大正面效应。在全社会的理解和配合下,银行业自然就有了更大的施展空间,不再有后顾之忧,可以放心去加快计划的实施进程。
事实上,国内银行系统完成系统升级,不仅是银行业务的内在需求,对国家社会而言意义也非常重大。
首先,关系国计民生、国家安全的金融领域摆脱对少数几家国外企业的依赖是必须实现的目标。这种依赖存在一日,国家安全就会继续受到严重的威胁。相比之下,去IOE带来的运行效率提升、成本下降等好处都显得不那么重要了。尤其在当前的国际形势下,拆除银行业内部这颗“地雷”显得尤为紧迫。
一旦银行系统去IOE成功,国内相关的软硬件研发领域也能迎来一个需求巨大的市场。国产芯片、国产操作系统、国产存储品牌、国产数据库等产品和服务有了银行业的巨额订单帮助,就可以迅速从研究室走向市场化,获得真正的竞争力。
在银行市场的培育下,这些国产技术最终就能从弱不经风的幼苗成长为足以独立与国外对手直接较量的大树,这对中国自主信息产业来说自然是千载难逢的良好机遇。
在银行业系统更替的过程中,国有单位和民营企业的交流也会进一步深化,双方可以建立完善的合作机制,为未来新的挑战和机遇打下坚实基础。这也可以为其他行业的国企-民企合作树立良好的榜样,进一步帮助中国经济实现产业更新和升级。
无论从哪个角度来说,中国银行业去IOE的“换心”大计都是需要尽快考虑的议程。可以预料,在国家政策引导、企业互助、社会理解的氛围下,银行业多年以来对IOE的过度依赖很快就会走入历史。中国必须要打赢这场信息技术领域的攻坚战,为未来国家安全的保障和自主信息产业的发展摒除后顾之忧。
学术合作联系人:周邦民(微信号:i87062760),添加时请注明:姓名+职称+单位