专栏名称: 数据猿
关注大数据行业的最前沿资讯,分享最有价值的大数据深度文章,关注“数据猿”就是关注大数据!
目录
相关文章推荐
软件定义世界(SDX)  ·  2025两会|人工智能40项热点提案汇总 ·  2 天前  
数据派THU  ·  用PyTorch从零构建 DeepSeek ... ·  5 天前  
数据派THU  ·  2025年清华大学大数据研究中心 | ... ·  5 天前  
CDA数据分析师  ·  CDA数据人才能力模型与认证体系简介​ ·  5 天前  
CDA数据分析师  ·  CDA数据人才能力模型与认证体系简介​ ·  4 天前  
51好读  ›  专栏  ›  数据猿

【案例】农业银行大数据平台项目——海量数据复杂运算处理

数据猿  · 公众号  · 大数据  · 2017-06-05 08:00

正文

数据猿导读

随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,满足内部数据分析和监管机构的监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。


本篇案例为数据猿推出的大型 “金融大数据主题策划” 活动 (查看详情) 第一部分的系列案例/征文;感谢 南大通用 的投递


作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融信息行业协会、互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的 《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》 还将在上海隆重举办 【论坛详情】 【上届回顾(点击阅读原文查看)】


在论坛现场,也将颁发 “技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖” 四大类案例奖



来源:数据猿丨投递:南大通用


本文长度为 4800 字,建议阅读 10 分钟


中国农业银行原有数据分析平台基于SYBASE IQ建设,随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,同时也无法继续接入更多的源系统数据。为满足行内数据分析和监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。


南大通用GBase 8a MPP Cluster集群在众多备选产品中脱颖而出,被选作大数据平台核心组件企业数据仓库及集市的数据管理基础软件。到2016年底,农行大数据平台已经建成为数据源完整、业务支撑覆盖面广的银行重要IT基础。


平台建设期间,农行与南大通用共同对MPP数据库进行深入研究、适配,总计完成数百项包括底层架构、高可靠性、高可用性、性能等方面的优化与改进。南大通用GBase 8a MPP Cluster产品也发展成为国内企业大数据、数据仓库领域基础平台软件的领先产品。


周期/节奏


2012年10月至2013年7月,项目组与多家厂商进行了技术交流,并组织了对Oracle、IBM、EMC、GBase8a等主流数据库,IDH、CDH、ZDH、FusionInsight、Inceptor等Hadoop发行版的调研与选型测试,通过MPP数据库、Hadoop的研究、学习,初步得到结论,可以将Hadoop与MPP数据库相结合运用。


2013年8月,农行数据仓库正式立项,确定采用南大通用GBase 8a MPP Cluster与Hadoop的混搭架构。


2013年11月30日,数据仓库原型集群及资负、零售数据集市试运行(28节点MPP集群)。


2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。


2014年12月,完成财会集市(16节点MPP集群)搭建。


2015年4月5日,数据仓库及资负、零售数据集市投产上线。


2015年底至2016年3月,完成ODS迁移至Hadoop、集市外迁及双活环境搭建等一系列架构优化升级,升级后GBase MPP数据库集群共计250个节点,容量5.2PB;Hadoop集群共计150个节点,容量4.3PB。


2016年11月至今,完成五大集市即对公客户、个人客户、风险、运营风控等数据集市的投产上线,同时建设集数据处理、模型算法、结果展示于一体的数据挖掘平台。


目前平台规模为:GBase MPP数据库集群共计622个节点,容量约15PB,Hadoop集群共计263个节点,容量5.6PB;其他数据加载服务器、调度服务器等合计37节点。


客户名称/所属分类


中国农业银行/大数据技术服务


任务/目标


围绕农行发展战略,围绕数据管理和数据服务两个基点,按照全行大数据平台统一框架,遵循“统筹规划、顶层设计、共享复用、分步实施”的设计思路,构建全行企业级大数据平台,实现数据资源统一管理。


同时,全面提升数据服务能力,充分挖掘数据价值,满足全行客户营销、风险管控、经营管理及外部监管需要,推动数据治理,全面提升全行数据资源管理水平和数据资产综合应用能力,促进业务“用数据说话”,为业务发展提供不竭的内生动力,持续推动全行业务创新、营销创新、服务创新、管理创新。


实现行内业务数据统一管理,可以采用与第三方合作等方式获取行外数据,实现数据资源的全生命周期管理;向行内各层级各业务条线,提供全方位的数据产品。


建立健全数据服务管理体系;统筹规划,建设个人客户、对公客户、运营风控、风险管理、绩效管理、审计内控、监管统计、分行集市等八大领域数据集市;业务支撑涵盖客户营销、风险管控、运营分析、外部监管、资产负债、绩效管理等各个领域;基于行内外数据开展各领域和热点业务分析,深度挖掘数据价值。


挑战


农行大数据平台建设中面临以下难点:


1、如何实现MPP数据库与Hadoop平台完美混搭


MPP数据库适合高密度结构化运算,而Hadoop平台的优势在于非结构化数据处理及其扩展能力。因此要评估哪些场景适用MPP数据库,哪些场景适用Hadoop平台,如何实现MPP与Hadoop的数据交互,同时能够做到2种架构功能互补。


2、系统开发从传统数据库转至MPP及Hadoop平台,如何能够运用新的基础架构特性,并快速完成已有数据模型迁移,新数据模型开发。


3、大规模的集群环境,如何统一规划、部署、管理、监控。


大数据平台涉及数十套集群、近千台服务器,对机房环境、网络环境高,需要提前做好规划设计;同时如此量级的服务器,操作系统、数据库等安装部署、升级、管理需要有统一的管理流程及操作方式;对于多集群的监控、预警、健康检查也需要有有效的流程与系统支撑。


4、如何满足上层应用、联机服务的多样性的数据需求及响应时间


大数据平台上层支撑监管、审计、零售等不同业务领域的应用,各应用的数据交互方式差异化明显,对时效性的要求也各不相同,需要设计统一的接口方式并支持配置化管理。


5、如何保证平台高可靠性,高可用性,容灾机制


大数据平台支撑上层多个领域业务,在整个IT系统中地位非常重要,平台发生故障会对业务产生不可估量的影响,因此要从数据库、应用等多个层面保障平台的稳定性及高可用性;同时要对PB级数据备份这一难题深入研究,通过搭建双活集群、数据备份至Hadoop集群等多重灾备机制保障数据安全。


解决方案


平台采用南大通用GBase 8a MPP Cluster+Hadoop混搭架构建设,其中GBase集群总计622个数据节点,其中主仓共112个节点,采取双集群组成双活主库,其余为8套集市环境及5套外围应用;Hadoop集群总计263节点,其中ODS Hadoop集群172节点,其余为流计算平台Spark数据分析挖掘平台。


总体架构图


GBase 8a MPP集群承担大数据平台核心组件:企业数据仓库(EDW)、数据集市(DW)及数据挖掘、数据提取、监管报送等应用;


Hadoop集群承担数据操作区(ODS)处理、历史数据备份及流计算以及部分分析挖掘工作。


大数据平台还包括:统一调度、统一监控、统一ETL开发工具、统一元数据管理、统一数据质量管理等系统以及统一展示平台。


关键技术1:混搭架构


运用Hadoop集群非结构化数据处理优势,将数据清洗、转换、字符编码自动识别转换、去重等ODS任务分解为分布式、并行执行的M­R作业,同时将全量数据加工为增量数据,降低数据处理量级,显著提升ETL性能。


主库作业通过GBase 8a MPP加载工具直接从Hadoop读取并加载LZO文件,数据入库效率提升显著,同时降低了大量网络开销;主库MPP集群在增量数据入库后,完成基础模型加工、指标汇总等高价值、大数据量复杂运算;集市MPP集群主要负责各领域宽表加工、多维分析(CUBE)及部分报表加工。


目前大数据平台日终加工时间为8­10小时,月终加工时间为12­14小时,日终处理数据文件1.5TB,月终处理4TB。其中MPP数据库内复杂作业1万多个,涉及SQL语句10万多个,库内总计约6万多张表,存储总数据量接近15PB裸数据,最大表约2万亿行。


关键技术2:MPP集群双活


双活架构示意图








请到「今天看啥」查看全文