专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据分析与开发  ·  字节回应大模型训练被实习生攻击 ·  5 天前  
数据分析与开发  ·  取代数据岗,某司从业人员已集体转行.... ·  1 周前  
程序员鱼皮  ·  MySQL 已经进化到这种程度了么? ·  1 周前  
程序员鱼皮  ·  MySQL 已经进化到这种程度了么? ·  1 周前  
51好读  ›  专栏  ›  数据中心运维管理

三大银行(工行、建行、农行),新IT架构是啥样?

数据中心运维管理  · 公众号  · 数据库  · 2017-03-17 06:23

正文

来源:《金融电子化》新媒体部 主任 / 邝源   编辑 / 潘婧



中国建设银行


中国建设银行北京数据中心

副主任 王立新





建设银行数据中心在“新一代”核心系统、“两地三中心”基础设施建设中,进行了一系列技术架构创新,提高了系统吞吐能力和资源供给效率,提升了系统可靠性,大大增强了数据中心风险防范水平。


以电子渠道为例,业务量从2012 年每月21 亿笔增加到2016年179 亿笔, 年均增长72%。2016 年“双十一”的核心业务系统交易峰值接近8000 笔/ 秒,较2015 年增长81%,所有系统均顺利应对业务高峰,充分验证了建行新一代系统架构的健壮性。


1、融合架构:主机平台+分布式开放平台



  • 核心账务系统,部署在主机平台上

主机平台可用性高,运行稳定,适合作为银行核心系统运行平台,但也存在风险集中、处理能力瓶颈、敏捷性不够、价格昂贵等不足。


主机资源用于核心账务系统,利用开放平台处理查询业务或者普通维护性交易,采用削峰填谷的方法优化主机资源使用,确保账务交易的资源。


为了更好地利用主机资源,建设银行提出“主机+ 开放”的融合架构,确保“好钢用在刀刃上”。


  • 查询系统,部署在分布式平台上

查询系统包括:个人客户综合积分、贷记卡管理、客户信息查询、对公/ 对私存款查询、客户渠道。

目前各类查询交易总计下移日均交易量1.4 亿笔,节省主机资源2.6 万MIPS,相当于8.22 亿元。

查询系统与账务系统分离,既分散了系统风险,又提高了并发处理能力。


最近三年在实际业务量年均增长32% 的情况下,主机MIPS资源零增长,取得了节省投资的良好效果。


  • 在分布式开放平台上,X86服务器替代小型机

在开放平台的选择上,由于同等计算能力的X86服务器价格只有小型机的1/20,所以首先在新一代架构的应用(AP)层中大量采用X86服务器替代小型机,随着替代技术逐步成熟,继续提高在数据库(DB)层使用X86服务器的比例,进一步减少小型机的数量。


自新一代实施以来,应用层和数据库层部署的X86服务器替代小型机已累计节省12.2亿元。新一代实施前后,小型机占开放计算资源比例已从1/3逐步下降到1/12,计算资源的总体可靠性和可用性保持不降。

 

图1 基础设施云部署架构

 

2、私有云,能提供1000台以上的虚拟机


建设银行自2013 年起采用云计算技术来构建基础设施环境,将计算资源、存储资源、网络资源统一打包成共享资源池。


根据每种资源池的特点,采用不同的云部署单元(CDP)模型,构建了X86 虚拟化资源池、Power 虚拟化资源池、HP 资源池以及大数据资源池等。


以云部署单元为基本单位进行部署、更新和替换,统一了标准,提高了通用性,降低了成本。


目前已经在私有云环境中部署了1000台以上物理机,提供10000 台以上虚拟机,有力地支撑了“ 新一代”核心系统上线。


3、网络架构:一网双平面,可靠性达到99.999%

新一代核心网络平台采用“一网双平面”的网络架构,用多协议标签交换技术,采用层次化、模块化的网络结构,将网络局部可靠性逐步提高到99.999% 水平,支持无中断维护。


新一代局域网通过推广柜顶接入架构,以虚拟端口聚合技术为基础,采用插入式服务架构来提高网络综合服务能力,接入层交换机使用板卡延伸技术,大规模标准化网络交换机配置。


图2 新一代局域网柜顶接入架构


通过采用“双平面”冗余设计避免逻辑单点,采用分散部署模式来分散整体性风险,逐步采用自动化变更手段杜绝操作失误。


采用松耦合的理念,模块化、层次化,网络服务资源池化,将二三层网络与四七层网络服务解除耦合关系,减少管理复杂度,有利于横向扩展,大幅提高数据中心网络平台的可靠性、健壮性。


4、安全:“多层水闸式”防范体系

原安全架构的安全功能与应用系统集成实现,嵌入到应用系统中,与应用系统紧密耦合,导致安全策略与安全功能固化。


“新一代安全架构”的应用系统只集成通用、标准化的安全代理,所有安全功能通过安全代理为应用系统提供,后台的安全服务可以统一调度、灵活组合,安全服务的调整不会导致业务系统的改造。

5、标准池化存储结构


  • NAS、SAN 存储

SAN 存储从应用(AP)层、数据库(DB)层混合部署转变为全数据库层部署,大面积在应用层使用NAS 存储替代SAN 存储。


  • 打造“存储标准化

实行存储配置标准化、资源池化,屏蔽了不同产品带来的差异化,减少了维护成本,同时实现了存储资源快速、灵活的供给。


  • 采用庞大的“边缘—核心—边缘”三层SAN 存储网络

实现了楼宇内任意地点的存储网络接入。

 图3 新一代标准化资源池化存储架构

6、自主研发云管理平台


自主开发了全面自动化的云管理平台,先后实施了IT 基础设施的服务器安装、版本部署、服务启停、日常巡检、配置比对等一系列自动化工具,极大提升了数据中心运营管理的自动化水平,形成全生命周期的自动化管理模式,完美支持了应用项目以及相关IT 框架、平台、技术和安全组件的投产上线。


图4 云管理平台架构


创造了5 个工作日内交付上千台虚拟化服务器的行业纪录,在简化流程、提高效率的同时,有效控制了操作风险。



中国工商银行


中国工商银行数据中心(上海)

总经理 钱斌





从2014 年开始,工商银行就开始布局集中式和分布式架构体系,结合云计算、大数据等新技术手段,以架构优化为核心。


1、IT架构改变,来源于银行压力越来越大


一是,客户群体多样化增大

面对多样化、个性化、国际化的客户群体,银行信息系统需要支撑更加差异化、综合化的产品和服务,并满足国际化带来的监管要求。

 

二是,互联网类营销压力变大

客户服务不再依赖网点柜员,一些营销,特殊时点秒杀抢购等互联网营销带来的负载冲击,对银行信息系统架构提出了高并发、易扩展、抗冲击的高要求。

 

三是,网络安全压力变大

以APT 为代表的有针对性、持续性的网络攻击日益突出,银行信息系统需要实现从“被动防护”转向“主动防御”,提高对安全态势的感知能力,建设全方位的安全防护体系。

 

四是,出了故障,舆论压力变大

在依托移动互联网快速传播的“自媒体时代”,银行信息系统运行的任何故障都会被大众资讯无限放大,并直接影响银行服务的经营和品牌价值。

 

工商银行信息科技以建设云数据中心为目标,以“两地三中心”为核心,持续提升业务连续性运作管理水平。


2、“两地三中心”,让业务切换只需2分钟


工行于2014年初步建成了以上海外高桥园区和嘉定园区为同城双活中心、北京西三旗园区为异地灾备的“两地三中心”体系架构。


比如:

2016 年末,人民银行领导现场观摩了工商银行数据中心的同城切换运行。

工行核心系统在业务高峰期间,由上海外高桥园区成功切换至嘉定园区,运行1 个多小时后回切至外高桥园区,整个切换时间约2 分钟,符合预期。

接管运行期间全集团各项业务正常开展,交易响应及系统运行性能良好。


亮点

  • 自主设计研发了“一键式”自动化切换系统,具备了同城中心之间快速切换和接管业务负载的能力。

  • 研发设计了“异地多点接入”和“同城双活”相结合的开放平台应用系统双活方案,在保障业务一致性的情况下实现站点间的灵活切换。

  • 正在研究,重要应用系统的“多站点多活模式

3、“云架构”真正落地


  • 基础设施,资源池云化

基础设施云已经在工行数据中心逐步推广,实现了大规模计算、存储和网络资源的池化管理和弹性供给。

  • 容器技术,实际在用

开展了基于容器技术的应用云平台规划和建设工作,已经在互联网金融、第三方支付、纪念币预约等应用系统实施了云化和微服务化改造,基于分布式系统框架实现资源弹性供应,快速响应业务突发增长需求,有效应对了“双十一”、“纪念币发行”、“微信红包”等互联网业务冲击。

  • 采用“云化管理”

利用流数据平台对各环节负载数据进行引流分析,实时掌握主机、网络、应用、数据库各环节的负载压力和性能指标,通过动态调节资源配置,全流程保障快捷支付业务的服务需求。

4、拥抱SDN、开源产品


  • 在数据中心部署SDN网络

全面启动了工商银行新一代网络架构的规划和落地


  • 引入开源产品

通过开源软负载产品低成本、可扩展的优势,解决目前负载均衡技术领域存在的性能瓶颈和难以快速扩展问题。

5、安全管控,依然是重中之重


安全重点关注点有:互联网入侵防护、网络安全隔离与访问控制、客户端安全管理、数据安全管理等中高风险领域。


措施:

  • 优化安全架构

重点推动APT 攻击防护、云网络安全防护等方案落地,与现有外部攻击检测形成有效互动和互补。


  • 加强数据分析和安全风险模型研究

通过研究科技与业务数据之间的关联关系,实施系统、网络、应用、业务等各环节日志分析挖掘,全面推动信息安全数据分析工作。




中国农业银行


中国农业银行数据中心

总经理 涂晓军





1、融合架构:主机+分布式开放平台


自农行全国数据大集中以来,核心业务处理和数据信息全面集中到主机上运行,开放平台主要承担交易前置处理、转发功能。通过主机的高可靠性及商品化程度,打造了一个高度集中的银行信息系统架构。


这种融合架构的优点:

这种架构性能可靠,开发人员无需过多关注底层技术实现方式,成熟稳定。但高度的业务及数据集中也使得风险高度集中,系统负载过大等问题导致业务连续运行的风险不断增加。

 

随着云计算与虚拟化技术发展、硬件制造能力提升,开放平台在处理能力横向扩展方面有了很大进步。


通过负载均衡机制,将业务分摊到多个节点处理,各节点松耦合,对底层产品的可靠性、可用性依赖降低。


这种架构成本更低,可用性、可扩展性更好,尤其是随着应用规模的扩大,边际成本将更低。


但这种架构的难点是做好各节点的协同工作,尤其是要处理好数据的一致性、完整性问题。必须根据业务特点,通过较复杂的应用设计,放弃实时一致性,保障最终一致性。

 

以稳定核心系统运维与减少IT 投入为出发点,农行利用云计算和分布式处理技术,构建开放型、高容量、易扩展、成本可控、安全稳定的“主机+ 开放”融合式架构,显著降低了主机依赖,有力保障全行金融业务连续稳定运行。

 

2、几大措施,确保架构转型的成功


农行从多方面推进技术架构转型。

 

1. 统一技术架构规范,推进运维技术标准化

根据技术适度收敛的总体原则,制定技术架构和软硬件平台使用标准,规范IT 基础架构建设。


将计算平台统一到X86 架构,基本实现小型机零增长;并构建Linux+ 集群数据库为主的联机业务计算环境、Linux-+MPP 架构为主的数据分析计算环境、构建集中存储与分布式存储相结合的存储模式。


目前,农行已将这些使用标准明确到企业标准中。通过系统架构标准化,进一步提升信息系统的可扩展性和可移植性,降低系统运维风险。

 

2. 构建主机开放融合架构,推进生产运行集约化

以BoEing 系统建设为契机,对核心业务系统和相关的120多个外围系统进行整体升级改造,构建了一个主机开放融合核心系统架构。

 

  • 一是创新主机通讯接入模式。

    将基于主机的三层架构简化为两层,在主机上直接采用TCP/IP 短连接接入方式,去除了主机接入中间层,形成扁平化架构。这种架构减少了出错环节,减轻了分行运维压力,构建了一个弹性好、可扩展性强的基础平台。

 

  • 二是合理均衡系统应用负载。

    在BoEing 系统的两层架构中,采用应用层负载均衡设备作为桥梁,隔离了数以万计的前台终端设备对后台的直接冲击,也可以动态调配交易负载,自动侦测和规避主机系统单个分区运行异常,从而显著提升系统整体可用性。

 

  • 三是大力推广基础架构云平台。

    针对开放平台系统多、运行环境复杂的特点,引入虚拟化、负载均衡、大数据等新技术,推广基础架构云平台,实现IT 资源和服务快速交付、动态调整、弹性伸缩,提高资源利用率。云平台自下而上分为基础设施层、资源池层、资源调度层和云管平台层。目前,农行生产环境和开发测试环境虚拟化率分别达70%、89%,云平台已成为农行基础架构领域不可或缺的首选工具和平台。

 

3. 加快自动化平台建设,推进运行管理智能化。

大力推进基础架构与应用的监、管、控自动化平台建设,实现基础设施的自动化构建、自动化监测、智能化控制和智能化管理。


4. 提高安全可控技术应用,有效保障网络和信息安全。

按照监管部门“安全可控”总体要求,采用各类措施保障业务连续性和可持续发展,规避厂商集中和供应链风险。

 

  • 一是积极开展主机应用下移。

通过将主机中非核心产品服务剥离至开放平台,逐步降低核心业务对主机系统的依赖。主机系统中实时交易下移后,单交易对主机MIPS 消耗平均降低了74%。进一步将历史交易明细数据下移到Hadoop 集群,使历史数据交易的存储和查询完全脱离主机系统。这些措施显著降低了主机的运行负载和资源投入成本。

 

  • 二是在应用交付、计算、存储领域,大力采用标准开放、安全可控的技术架构和产品,同等条件下优先采用国产产品。

大力推广分布式架构和多中心多活架构,从系统层面降低单个节点异常对全局业务连续性的影响。农行已完成银联前置、快捷支付、安全认证平台等重要开放平台系统多活架构改造。

 

  • 三是构建纵深立体的外联出口深度防护架构。

在传统网络层安全防护基础上,通过应用层攻击检测与实时阻断、网络流量双向应用识别、应用文件还原深度检测等技术,实现应用层攻击防护。对钓鱼网站进行主动爬取、检测和查封,对信息系统自身漏洞缺陷进行主动检测评估和事前修复,防范于未然。

 

近三年,全行突发事件数量逐年下降,核心系统主要服务时段可用率保持在99.99% 以上,变更成功率保持在99% 以上,为业务服务连续性提供了坚实保障。

专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。

联系小编:wj2012bj

QQ交流群: 108888484

投稿邮箱:[email protected]


数据中心运维管理

ID:wj-yunwei


▲长按二维码"识别"关注

推荐文章
数据分析与开发  ·  字节回应大模型训练被实习生攻击
5 天前
数据分析与开发  ·  取代数据岗,某司从业人员已集体转行....
1 周前
程序员鱼皮  ·  MySQL 已经进化到这种程度了么?
1 周前
程序员鱼皮  ·  MySQL 已经进化到这种程度了么?
1 周前
理想聚焦  ·  老杨头日记:当孩子诞生时
7 年前
少女兔  ·  滚!老娘胸小关你屁事!!
7 年前