近年来,为了满足不断增长的业务需求与集约化建设要求,金融机构逐渐开始进行数据中心的云化建设。在此过程中,软件定义网络(SDN)技术将发挥重要的作用。SDN本质是网络架构上的革新,在组网方面可以提升网络的利用效率与灵活性,在安全方面对网络进行精细化粒度的管控成为可能。本文主要针对金融云网络的安全需求,一是考察SDN技术是否能够提升现有网络的安全性,二是评估可能新引入的安全风险。
如下文本节选自博士后出站报告的第二部分——理论与研究框架。这部分内容旨在提出一套面向金融云SDN安全的完备理论框架体系,为之后的具体实现工作提供理论指导。
其中主要包含如下的理论贡献:
1)理论框架:提出面向金融云SDN安全的完备理论研究框架,由SDN安全组网、安全服务交付以及安全运维监控三部分组成;
2)安全模型:提出金融数据中心“大区安全组网”模型,将金融数据中心的安全级别由区域级深化至业务级,实现更优资源复用效果的同时,能够更好地应对互联网业务的高安全风险;
3)演进模式:提出未来金融行业云的演进模式,并对其中多租户、多中心、多云互联的组网安全问题进行了理论研究。
关键词:软件定义网络(SDN),安全域模型,大区安全模型,大区互联,多中心大区安全模型,金融行业云,安全服务交付,云网监控
Keyword:Software Defined Network(SDN),Security Region Model,Giant Security Region Model,Region Interconnection,Financial Public Cloud,Security Service Provision,Cloud Network Monitoring System
近年来,为了满足不断增长的业务需求与集约化建设要求,金融机构逐渐开始进行数据中心的云化建设。中国银联从2011年即开始金融云平台的建设,在本人2015年3月博士后入站时,该平台已经初具规模,并且生产上线。与此同时,也在积极开展针对下一代基于软件定义网络(SDN)的金融云平台实现研究。促使金融云采用新一代网络技术进行建设升级主要有如下几大因素:
1) 面向互联网化的业务日益增加,云网自动化协同的需求愈发迫切,同时网络必须更加鲁棒以应对互联网业务的高风险;网络的建设将逐渐从传统的“以网络为中心”,过渡到“以业务为中心”,甚至于“以数据为中心”;
2) 面向外部金融机构提供金融云托管服务,在服务形态多样化的同时,对于网络服务的质量与安全也提出了更高的要求;
3) 组网技术自主可控程度提升,这是国家目前对金融、能源等大型基础行业的技术转型要求。
因此,对于金融云网络的核心需求便是如何在提升组网效率的同时保证安全。在此过程中,软件定义网络(SDN)技术将发挥重要的作用。SDN早在2007年就由学术界提出,并在2012年左右随着云计算的兴起受到了业界广泛的关注,如今已进入逐步落地的阶段。尽管对于SDN的理解在业界出现了不少的分化而且有不同的实现方式,在此还是简要罗列几个比较公认的SDN特性:
1)数据平面接口开放,自动化可编程,对外开放了网络的能力,可以快速对接业务的组网需求; 基于流(flow)的转发控制,使得网络行为能够更加多样化、精细化。
2)中心化的控制平面,提供了全网的视角与全局的网络信息;
可以看出,SDN本质是网络架构上的革新,在组网方面可以提升网络的利用效率与灵活性,在安全方面对网络进行精细化细粒度的管控成为可能。
SDN技术的引入将对于企业数据中心的网络建设与安全运维产生重大的影响。本课题主要针对金融云网络的安全需求,一是考察SDN技术是否能够提升现有网络的安全性,二是评估可能新引入的安全风险。
从系统工程的视角来看,网络通信中基本所有的体系自上而下,都可分为管理平面、控制平面与数据平面,如图 1所示。简而言之,管理面负责制定策略,控制面负责将策略转化为具体的标准指令,数据面负责执行指令。在金融云网络的环境中,管理平面通常就是金融云业务平台,控制平面则是中心化的SDN控制器,而数据平面由分布式的SDN转发设备以及安全设备所构成。
图1:SDN安全体系架构与系统分解
针对金融云SDN安全的研究主要从SDN安全组网(Networking),SDN安全服务交付(Provision)以及SDN安全运维(Maintenance)这三个方面进行展开。在整个体系中,SDN安全组网主要负责从控制平面到数据层面的整体组网建设;而SDN安全服务交付主要负责承接从云业务平台所下发的安全服务请求,并将其转化为SDN的安全能力进行交付;SDN安全运维则对应于数据平面到控制平面的反向通路,将数据平面的运行状态与输入输出向上层平面提供反馈,从而使整个系统处于闭环可控的状态。
由图 1的数据流可知,SDN安全组网、安全服务交付以及安全运维可以构成面向金融云SDN安全研究的完备理论框架,后续将以此为主线进行展开。
由第一章的研究背景可知,未来金融云网络的演化主要有三大趋势,一是面向互联网化的应用将日益增多,私有云网络将采用SDN技术建设灵活弹性的网络;二是向外部金融机构提供行业云服务,不同形态的金融行业云将应运而生。此外,SDN作为一种开放度较高的新技术,在自主吸收的过程中无疑也将产生一定的信息安全风险。因此,在SDN安全组网这部分,将从如下的三条主线进行展开:
1)SDN架构下金融私有云网络的安全演进
2)SDN对于未来金融行业云的网络安全增强
3)SDN的新增风险点评估
图 2是典型金融业务的分层数据流,通常由外部接入、前置系统、核心系统等部分构成。金融数据中心组网的主要工作,就是将这些业务数据流映射成为网络的连接单元。
图2:典型金融业务的分层数据流
在SDN网络之前,基于IP的报文转发主要实现网络连通的目的。SDN技术对于网络安全而言,其核心的功能是能够在连通的基础之上做更加精细化的管控,这对于金融数据中心组网安全的意义在于可以将区域级的安全管控深化至业务级的安全管控。随着SDN技术的引入,本研究提出金融数据中心的组网安全架构可以沿着如下的模型进行演进,如图 3所示。
图3:金融数据中心的安全组网架构演进模型
当前架构:基于安全域的组网模型,安全控制集中在区域边缘
当前金融数据中心的组网安全架构,主要依据《人民银行信息系统信息安全等级保护测评指南》所提出的安全域模型,其中提出“通过划分安全域的方法,将金融行业信息系统...划分为不同的安全域,... ,并针对每个安全域...给出相应的保护措施,从而建立纵深防御体系,实现深度防护的目标。”
图4:安全域模型的实现示意图
这一阶段的安全实现思路,主要通过将应用进行安全等级分类,并部署到物理隔离的安全区域之中来实现安全的访问控制,可以称之为“区域级的安全控制”,如图 4所示。区域级的安全控制有如下特征:
1) 内外隔离:外部接入与内部区域严格隔离,通常外网接入被认为是不可信域,而内网核心被认为是可信域;
2) 分区而治:根据业务等保安全评级部署于不同的安全区域,区域之间有严格的安全策略控制,区域内部则相互连通;
这种实现的一大优点是模块化、结构化比较好,但在互联网云化的网络环境下,也出现一些局限性,主要体现在安全风险与组网效率两方面:
1) 安全方面,单区域内部的隔离粒度较粗。互联网化的场景下,每个应用随时有被攻陷的风险,内网区域不能作任何可信假设;
2) 组网方面,多区域之间的资源无法有效复用。由于业务差异,某些区域的资源利用率较低,容易形成资源竖井;
SDN下的安全架构:大区安全模型,安全防护渗透至大区内部
SDN由于采用了中心化的控制以及基于流的转发,可以对网络流做更加精细化的管控。
图5:SDN组网下的安全细化图示
首先从区域内部的视角来看,对于金融数据中心的业务部署而言,SDN技术下的安全管理粒度可以细化到每个业务级别,甚至于业务内部,如图 5所示。具体而言,SDN网络下每个业务都可以实现虚拟化的安全隔离,相互之间默认不连通,只有当配置策略后才能相互访问;而在业务内部,各个组成子系统之间的数据通信,可以定义访问规则实现细粒度精细化的管控。业务级的安全隔离,其实现的意义是最小安全权限,可以将互联网业务的风险影响范围降到最低。
其次从区域之间的视角来看,由于SDN已经能够将安全控制细化到单个业务级别,因此原有的基于安全等级分类而形成的区域级物理隔离可以进一步优化。可以将这些安全区域打破,而形成一个新的大区,这个大区中不仅同等级的应用可以实现有效隔离,而且不同等级的应用之间彼此也能够实行精细化的安全管控。在此将此种新型的安全组网模式称为大区安全模型,如图 6所示。
图6:大区组网模式的优化示意图
“大区安全模型”相对于“安全域模型”,主要由如下两点改进:
1)组网集约化:多个区域复用同一个大区的SDN交换矩阵以及实体安全设备,最大化利用区域资源,增强灵活性与可扩展性;
2)安全精细化:通过SDN技术对于大区内部的网络进行精细化的管控隔离;
因此,依托于SDN技术,大区组网所实现的效果是组网集约化,安全精细化,很好地回应了研究背景中所提出的“提升组网效率的同时兼顾安全”这一核心需求。
最后从数据中心的视角来看,由于金融数据中心大区目前在合规上还有一项硬性的要求:“原则上禁止从外联区直接访问内部网络”(《人民银行信息系统信息安全等级保护测评指南》),因此内网业务区域与外联区域无法合并。综上,在合规要求的前提下,理想的生产区域组网形态将演变为两个大区:外联大区(DMZ大区)与业务大区(APP大区),两个大区之间配备实体的安全控制设备,如图 7所示。其中的技术难点主要有大区之间的跨业务互联(Region interconnection),以及实体安全防护的集成。
图7:面向金融数据中心的大区安全模型示意图
多中心大区安全扩展:多中心的安全组网,安全策略一致协同
以上讨论集中于单数据中心的安全组网,对于金融行业而言,出于可靠性以及服务性能的考虑,通常会采用两地三中心的基础设施建设。当前的金融数据中心纷纷在开展大二层网络的建设,使得一个广播域能够跨越多个数据中心,从而可以支持多数据中心之间业务的双活同步以及异地灾备。
图8:多数据中心的大区安全组网扩展
在SDN广域网大二层技术的支持下,大区安全模型能够在多数据中心的场景下进行扩展,如图 8所示。同城与异地数据中心可以看作是主数据中心的逻辑延伸,主要体现如下:
1)每个数据中心依旧实行大区模式的组网;
2)单业务跨中心可以实现互通;
3)跨中心的业务之间始终保持逻辑隔离;
其中的核心是安全策略跨数据中心保持逻辑一致。
此外,相对于单数据中心,多数据中心的组网增加了数据中心之间互联的骨干链路,通常基于运营商的专线网络。这部分的链路也需要进行安全加强,目前绝大部分金融机构的大二层流量直接在专线中明文传输,这将产生一定的安全隐患,尤其是大二层流量中往往会涉及数据库之间敏感信息的同步,以往专线可信的假设也并不一定成立。
境外目前针对专线传输已有强制加密要求,在此也建议能够对多数据中心之间的广域网链路进行加密传输以保证数据安全,目前包括银联在内的大型金融机构已经在试点量子保密通信。
最后对于三个阶段的安全模型,对比列表如表格 1所示:
表格1:金融数据中心安全组网模型对比表
安全模型 | 安全域模型 | 大区安全模型 | 多中心大区安全模型 |
安全假设 | 内网可信假设,区域内网络默认互通 | 内网业务不可信假设,网络默认不通 | 内网业务不可信假设 专线不可信假设 |
安全管控粒度 | 区域级安全管控 | 业务级细粒度管控 | 跨中心业务级细粒度管控 |
资源复用粒度 | 区域资源竖井 | 大区资源复用 | 多中心大区双活互备 |
安全形态 | 专用安全设备,区域安全防护 | 组网与安全高度融合,安全渗透至网络内部 | 跨中心的逻辑统一 中心间互连链路加密 |
未来金融云建设的另一大目标是对多租户组网的支持,更好地复用物理的基础资源。在博士后的中期报告中,曾提出未来金融云的发展方向将从金融机构私有云建设,过渡到金融行业云的托管,最终实现金融云之间的互联,如图 9所示。
图9:金融云的演进路线
其中,“金融私有云”可以采用大区安全的组网模式,实现组网效率提升的同时保证安全;对于“行业托管云”而言,有条件有能力的金融机构将建设金融行业云,为集团内部分子公司以及行业内的其他金融机构提供IT资源的半托管与全托管服务。其中,半托管是指将部分的业务托管在金融行业云中,托管中心相当于一个远端扩展的数据中心;而全托管则是将全部或者某个完整的业务托管在金融行业云中,这种模式通常被称为“虚拟专用云”(vPC)。“金融云互联”则是行业云发展的高级形态,能够将各个金融云进行互联,实现资源拆借并互为灾备,其最终目标是在实现业务整合的同时,促进业务协作与信息共享。
金融托管云的组网安全
行业托管云的网络安全研究,仍然能够在私有云的安全组网架构之上进行衍生;在基于SDN组网的私有云大区组网模型中,安全隔离的粒度已经非常细化。相对于私有云,行业云在网络安全层面的差异性主要体现在:
1)多租户级的隔离,提供虚拟专有云服务,不同租户IP地址可重叠;
2)提供多样化的虚拟安全服务能力,尤其是防火墙、负载均衡、IDS/IPS等4-7层实体的安全防护服务;
3)外部的VPN接入能力,能够打通本地云与远端的vPC;
针对上述三点需求,SDN可以提供如下的解决思路:
1)首先是租户级的隔离,由于大区组网的模式,已经能够将安全管控粒度精细到业务与应用级别。因此,对于更大粒度的租户级隔离而言,能力上也是完全能够胜任。在云网络的环境中,租户只是一个逻辑的概念,对应于一些业务的集合。因此,在多租户场景下,需要支持如下两点:
一是多租户IP地址可重合,由于目前的云组网中大多采用overlay的隧道组网,其支持将租户网络的虚拟IP地址封装在实际物理传输的GRE或者VxLan隧道内部,从而可以实现不同租户的IP地址重叠;
二是多租户之间的访问管控,SDN服务链引流技术可以使得租户间访问必须经过地址转换与外层实体安全控制。在此过程中,将会产生一个比较重要的传输形态变化,原有两个机构之间通过专线互联的访问传输,可以转化为托管云数据中心内部的流量进行交换。如此,传输效率可以极大提升,同时也有助于促进金融机构之间业务的合作。
2)其次是多形态的安全服务提供能力,尤其4-7层实体的安全防护服务,例如防火墙、负载均衡、IDS/IPS等。以防火墙为例,需要能够支持金融租户部署独立的硬件防火墙,也需要能够支持将一台物理防火墙虚拟成多个虚拟防火墙给多个租户,可能是不同品牌的防火墙,甚至是采用软件形式的防火墙对外提供服务。其在网络层面需要具备的能力,一是屏蔽异构环境下不同设备之间形态的差异,统一抽象模型与配置策略,二是是解决服务链引流的能力,而这正是软件定义安全的核心功能之一。
3)最后是为金融租户提供远程接入的服务。对于半托管形式的行业云服务,需要建立站到站(site2site)VPN,主中心与托管中心业务之间实现二三层互连;对于全托管形式的行业云服务,需要具备点到站(point2site)的VPN能力,管理员可以远程登录操作。可以通过采用软件定义广域网技术(SDWan),实现接入专线的统一管理。
金融云互联的组网安全
金融行业云建设的最终目标是将所有的金融云能够连起来,从而实现资源的互相拆借与信息互通。
图10:多云互连场景下的管理调度模式
SDN强调中心化的管理,但是由于不同的金融云之间并非处于同一个可信任区域,所以其间的资源协调以及分配记录工作,很难通过一个集中式的节点来进行。本研究认为,未来的云间互联有可能采用一种分布式的协同调度方案,通过分布式的数据库以及共识机制协调服务资源的提供,同步记录各金融云之间资源的分配情况以及网络的控制信息,如图 10所示。
这部分从架构的角度,分析SDN的引入可能对于整体系统所带来的增益与风险。
首先阐述前几节中安全增强与本节中安全风险之间的关系。条线一与条线二中所讨论的安全增强,其实都是反映在网络的数据平面。传统的人工运维由于无法进行大规模的精细化操作,安全管理的粒度只能停留于区域级别。SDN之所以能够实现精细化的安全管控是由于引入了一个中心化的控制平面,具有全局的信息,SDN控制器可以将业务的安全需求转换成细粒度的安全策略与指令下发到了SDN的数据平面。因此,在数据层面理论上SDN是增强了安全可控性与隔离粒度,而不会造成额外的安全风险。但是在策略转换与指令下发的过程中,由于是SDN全自动化地进行,因此在管理与控制层面有可能会引入新的风险。
由于这方面的安全问题在以往的研究文献中已经做了非常详细的梳理,在此我们主要通过比对SDN技术引入前后,从操作数据流层面所产生的变化筛选出真正影响企业网SDN安全的一些风险点,如图 11所示。
图11:SDN技术引入前后的网络操作流程对比
由此可见,从云业务需求到网络映射的过程中, SDN的信息风险点主要存在于控制平面及其相关联的南北向链路上:
1)北向链路,这是一个新增的自动化数据通道,以往的流程是是由人工线下沟通业务的需求并转换为操作指令;
2)南向回调链路,南向的正向链路在以往的操作中已经存在,网管通过带外的管理网络对于网络设备进行配置。因此,新增加的安全风险点主要存在于从数据平面回调控制平面的链路上;
3)控制器的安全,控制器作为网络大脑,其重要性不言而喻,这也是SDN架构中唯一一个中心单点,因此需要更高强度的保护措施;
4)虚拟网元的安全问题,这部分风险主要由网络虚拟化所引入,不过鉴于虚拟网元的使用场合较为普遍,在此仍将其列为一个主要的安全风险点。
在第(一)节所展示的SDN系统架构中,管理平面是决策生成的地方,控制平面是指令产生的地方,而数据平面负责执行指令。从信息论的角度而言,管理平面是唯一产生信息熵的部分,在SDN的场景下,其余的控制与数据平面理论上都可以由自动化地转化执行,并且保证策略实施的一致性。因此,在SDN的组网架构下,人工的精力将应当主要集中于制定最顶层的策略,而无需关心网络操作的细节,真正让网络服务于人。
另一方面,随着云技术的演进与复杂化,开发运维一体化(DevOps)已经成为业界的普遍共识。对应于安全而言,从安全运维延伸至开发阶段的全生命周期安全管理也将是今后安全重要的演进方向[35],SDN技术可以在其中做有效的支撑。相对于简单对接云平台的需求,未来的安全的策源将更加主动深入至业务的定义阶段。
因此,SDN安全服务交付的核心研究问题是提供一套面向策略、面向业务的安全服务定义框架。对此,主要的设计思路有如下几点:
1)采用声明式的接口、模板化的定义。相对于命令式(Imperative)的接口,声明式(Declarative)的接口面向更高层的策略抽象,事务性保证强,全局一致,出错概率低;模板化的定义,其每一项对应于后台的功能,具有可扩展性。
2)直接面向业务的定义,人工只负责制定有信息量的策略。其中,模型定义是直接面向业务的,而非网络层面的语言;人工的精力集中于制定最顶层的策略,其余由SDN自动转化下发。
3)同时具有单业务的数据流视角,以及全局的资源编排视角。其中,单业务视角面向开发人员,全局视角面向运维管理人员。
在第三章节的研究工作介绍中将提出一套直接面向应用的、模板化的、敏捷化安全业务下发流程,由工作流的定义,模板化的资源编排,服务链整合,以及物理网络映射四个步骤构成。
网络中的监控维护是非常重要的一个环节,及时告警并处理内外部的故障与威胁,以保障整个网络持续稳定的运行。相对于服务的运营交付自上而下的流程,网络的监控与维护则是自底向上形成一个反馈闭环。
在数据中心云化以及引入SDN技术后,网络运维监控将面临如下挑战:
1)SDN属于典型的“逻辑集中、物理分布”式系统,对于流量路径的反向追踪、逆向关联分析造成了极大的挑战;
2)正向环路的自动化水平越来越高,人工的反向排错已不堪重负;
3)流量模型相对于传统金融组网,呈现出动态化,以及东西向流量比重上升的特点,对于网络流量的有效提取提出了更高的要求。
以往由于技术的限制以及网络的封闭性缘故,网络运维中异常的发现、故障的处理大量需要依靠人工值守。SDN的出现以及大数据、机器学习等技术的出现为整个闭环的打通提供了条件,从而最终实现智能化运维。对于安全而言,人工智能分析将成网络安全未来创新方向。
图12:SDN组网架构下智能运维的闭环模型
在SDN架构中,数据平面的部分的实时状态信息与输入信息(例如packet_in,以及流量统计信息)已经能够直接反馈至控制平面,以驱动后续的控制流程。但是对于数据转发平面整体的网络数据流而言,由于数据量巨大,并不适合直接反馈给控制平面。此外,出于系统解耦合的考虑,需要一个独立的旁路系统进行过渡,以提炼出更加有效的信息向前反馈,这个旁路系统在此称之为运维监控系统,由此将产生三个主要的处理流程,如图 12所示。
1)大数据流量提取,在云网络的动态场景下,需要具备云网流量镜像,以及多维度收集数据平面信息的能力;
2)智能分析:针对网络流量以及告警统计信息进行智能化的分析与存储;
3)告警与反馈响应:依据智能分析的结果通过SDN控制器对网络采取相应的措施。这部分除了技术实现外,由于将涉及到直接操作网络,风险较大,因此通常还需要运维人员进行判断与决策。
图13:经典的安全防护P2DR2闭环模型
此外,对于安全运维而言,存在一个经典的以策略为中心的P2DR2(策略,防护、检测、响应、恢复)的安全闭环模型,如图 13所示,其与上述的系统是可以进行有效结合的。
在此,提出一种开放的智能网络运维系统架构设计,如图 14所示。
图14:开放的智能网络运维系统架构设计示意图
该模型首先动态的从云网络中收集各类型的数据,包括网络流以及日志,告警等状态数据(收集的过程可以直接通过控制平面驱动);
所收集到的数据导入至大数据平台首先进行报文数据的聚合重组以及关联匹配,随后再进行后续的实时分析处理以及持久化存储。大数据平台所形成的数据沉淀可以提供一个公共的云网络报文数据平台;
基于此开放平台之上,可以通过各种大数据以及人工智能算法对网络、业务以及安全进行多种形式的实时与后台分析,并反馈给相应的业务与网络系统。其中,
1)网络分析的结果直接反馈至SDN控制器,以驱动故障域的隔离、或者自动化修复网络组件等;
2)业务分析可以对业务交易进行分析、追溯、预测,相应的分析结果反馈至业务系统;
3)安全分析则对于异常的报文流量进问题行实时监测以及深度分析,所形成的结果可以同时反馈至SDN控制器或者业务系统,对恶意流量进行拦截隔离,或者进行主动的防御反击。通过此方法也可以实现经典的P2DR2(策略,防护、检测、响应、恢复)的安全闭环(如图 13所示)。
综上,该模型具有如下特点:
1)平台开放,所形成的网络报文大数据平台,可以进行网络、业务以及安全等多种形式的分析应用,符合运维开发一体化的趋势;
2)技术综合,综合运用大数据,人工智能等开放技术来分析网络转发平面的报文数据,这在业界还处于探索与尝试阶段,尤其是针对网络报文流的大数据分析,未来将有很大的应用前景;
3)人的核心角色是策略制定,其他环节通过自动化流程形成闭环;
1)提出面向金融云SDN安全的完备理论研究框架,由SDN安全组网、安全服务交付以及安全运维监控三部分组成;
2)基于SDN精细化网络管控的能力,提出金融数据中心大区安全组网模型,将金融数据中心的安全级别由区域级深化至业务级,实现更优资源复用效果的同时,提升原有的安全级别;
3)提出未来金融行业云的演进模式,并对其中多中心的组网安全问题进行理论研究;
1)在SDN的安全设计中,安全与组网是紧密结合的,安全的实施从网络边缘向网络内部渗透融合;
2)在互联网业务逐渐增加以及多租户行业云兴起的过程中,内网业务区域必须基于不可信的假设,通过精细化的网络控制将风险域隔离在最小范围;
3)安全的实施基于更高层面的策略抽象,安全定义从运维延伸至开发阶段的全生命周期安全管理;
4)在逻辑集中、物理分布式的系统设计中,能够打通反向的闭环,提供有效的反馈,是可控运维的重要保证;
5)网络智能化运维需要结合大数据平台、机器学习等综合技术对整个网络的运行进行综合分析;
6)SDN的自动化时代,人的核心角色是定义最顶层的策略;系统是辅助人进行决策的,最终目标是解放运维。
如有需要,请在文章下留言向管理员索取完整版研究报告。