专栏名称: 产业智能官
用新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
目录
相关文章推荐
高分子科学前沿  ·  浙工大,Nature之后,再发Nature大子刊! ·  14 小时前  
高分子科学前沿  ·  新国大谢建平、天大姚桥峰团队ACS ... ·  昨天  
高分子科技  ·  国科大杨晗课题组诚聘博士后、副研究员 - ... ·  2 天前  
高分子科技  ·  暨大刘明贤教授团队 Nano Today: ... ·  4 天前  
高分子科技  ·  苏州大学王召教授团队 Nat. ... ·  3 天前  
51好读  ›  专栏  ›  产业智能官

【数据中台】数据中台技术相关进展及发展趋势

产业智能官  · 公众号  ·  · 2019-11-24 00:01

正文


编者按

自2018年起,业界被“各种中台”狂轰乱炸,技术中台、业务中台、AI中台等等雨后春笋般纷纷涌现。那么国外也有数据中台吗?数据中台为什么会引人争相追逐?数据中台在政府事务的落地情况如何?本文以数据中台为核心,综述了数据中台相关领域的国内外研究,并提出数据中台通用技术架构,对数据中台的行业落地进行了全方位解读,最终呈现出一幅“数据中台”的全景图。



苏萌,贾喜顺,杜晓梦*,高体伟


北京百分点信息科技有限公司,北京100089


摘要

[目的] 本文主要就数据中台相关研究背景、技术架构和关键技术以及在行业中的落地应用展开介绍,并结合技术发展趋势提出未来研究和应用发展方向。


[方法] 本文综述了数据中台相关领域的国内外研究,并提出数据中台通用技术架构,分别对大数据技术平台、数据资产管理平台、数据分析挖掘平台和统一服务总线的核心技术和功能进行了展开讨论。


[结果] 基于本文提出的数据中台的相关技术框架,数据中台在相关行业已经得到初步应用和实践,其中互联网、金融和政府等行业走在前沿。


[结论] 数据中台的相关技术会越来越向自动化、智能化方向发展,其支撑的上层业务应用将会在一系列相关技术突破的推动下在各行业形成爆发式的发展。


关键词: 数据中台;数据治理;数据仓库;人工智能;数据服务;数据应用


引言


近年来随着互联网、移动互联网、IoT、5G等技术的普及与发展,企业和政府获取的数据以指数级增长,同时数据类型也从最初的结构化数据逐渐扩展到视图声等非结构化数据。对企业来说,需要更好地应对生产、营销和运营等业务挑战,快速响应用户需求;对政府来说,需要更好地服务人民及进行国家治理,二者对数据资产的综合应用越来越重视。为了解决海量异构数据的采集、加工、分析,以沉淀数据资产快速响应上层应用的难题,数据中台的概念应运而生,其在满足常规报表生成、报告数据分析需求的同时,也为催生业务创新提供了坚实的基础。


数据中台是阿里巴巴公司在2015年根据自身业务需要提出来的概念,随着2018年各大互联网公司纷纷提出中台战略并随之进行组织架构的调整,将“中台”的概念推向了高潮,各类公司纷纷效仿跟进,一时各种“中台”喷薄而出,技术中台、业务中台、AI中台、算法中台、研发中台、组织中台、服务中台、数据中台……各种“中台”让人眼花缭乱,应接不暇。不论何种中台,核心是抽象、组件化共性的能力,以降低成本、避免重复建设浪费资源。


本文主要以数据中台展开描述。数据中台并不是一个具体的产品或技术架构,而是一种综合解决方案或是一种运营理念,在业界还没有清晰明确的定义。我们认为数据中台的核心在于构建标准的数据体系和快速支撑前端应用的能力,通过数据来驱动业务的创新和变革。而要构建标准数据体系并达到相应能力,必须结合产品、技术、数据、业务及组织力量来保障企业的综合运转和长期运营,这样数据中台才能发挥出巨大的价值。


1

研究背景


目前国内对于数据中台的研究趋于成熟,数据中台在互联网、金融 [1] 、电力 [2] 、媒体 [3] 等多个行业被广泛应用,其中以阿里巴巴的数据中台最具代表性并被大家所熟知。为了更快地响应前台业务,以此应对多变的市场需求及外部竞争压力,2015年阿里巴巴正式宣布:“构建符合DT时代的更创新、更灵活的‘大中台小前台’组织机制和业务机制。” [4] 构建 OneData体系实现既“准”且“快”的“全”“统” “通”的智能大数据体系。通过OneModel、OneID、OneService完成数据中台落地,OneModel实现数据构建及管理;OneID完成核心商业实体识别;OneService通过主题式数据开放服务支撑最终的统一数据开放服务 [4] 。同时,利用计算后台的离线计算能力、实时计算能力和在线分析能力支撑中台运算。电力行业作为应用数据中台较早的行业,提出采用分布式微服务技术架构的方案,通过应用分布式服务治理、分布式数据库、消息队列等成熟互联网技术,保障共享服务中心快速建设与稳定运行,最终为中台赋能 [2] 。金融行业提出了核心包括数据平台、数据资产、数据治理、数据服务的数据中台建设方案 [1]


在数据标准研究方面,国内研究范围覆盖监管政策、存储规范和传播交流机制[5,6],以及数据质量标准、元数据标准等[7,8]。在数据平台和数据资产部分的底层数据处理与分析也有较多研究,如实时数据处理决策[9]、图像内容检索[10]、可解释NLP[11],以及降维、分类、数据挖掘应用等内容[12]。在数据服务方面,国内开源的微服务框架Duboo提供了一系列可进行微服务治理的开源组件[13]。另外,针对微服务框架组件维护成本高等问题而推出的服务网格(Service Mesh),对其运行操作进行了标准化,开发者或运维人员可以编写策略来执行运行操作,而无需开发任何代码,同时国内对其使用声明性方法也进行了相关研究[14]。另外针对物联网数据分析而提出的面向微服务的互联网大数据分析平台的概念验证也已经完成[15]。


相比国内的研究,国际上虽然尚未推出数据中台的概念,但针对具体的数据治理、数据处理和数据服务等方面的研究已经比较成熟。 其中数据治理相关研究已经比较成熟,DGI从规则、组织和过程三个方面提出了10个通用过程,进而推出了DGI《数据治理框架》[16]。 并且,IBM、Gartner分别提出了数据成熟度模型[17,18],用于指导数据治理工作的顺利开展。 根据DAMA的定义,数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。 数据治理涵盖的范围一般以Khatri和Brown提出的数据治理决策模型为准,包含了数据准则、数据质量、元数据、数据访问、数据生命周期管理5个决策域[19]。


在数据质量方面,研究主要包含数据质量检测、错误数据修正和劣质数据查询处理等[20]。 近年来的研究包括对包含数据质量定义、评估和改进的多种数据质量框架的研究[21]以及通过计量方法验证数据可靠性的研究等[22]。 Apache Griffin[23]为大数据数据质量管理提供了解决方案。 元数据管理包括元数据存储库、业务术语表、血缘关系、影响性分析、规则管理、元数据获取与转换几大功能[24]。 通过ML和语义搜索功能自动化构建元数据知识库,以及NLP来改进交互操作[24]的研究也在进行中。 Apache Atlas[25]为Hadoop生态系统元数据治理提供了解决方案。 数据生命周期管理包括数据采集、数据处理和数据存储,分别负责数据采集、数据加工处理和数据存储、归档备份和销毁[26]。 Apache Falcon[27]为数据生命周期管理提供了解决方案。


数据处理的相关研究包括数据的存储、访问、处理等内容,具备传统数据仓库、实时数据仓库、上下文无关数据仓库、逻辑数据仓库四部分能力[28]。 数据存储方式主要有传统关系型数据库、全文检索、分布式大数据存储。 传统关系型数据库包括关系型数据库和并行数据库集群。 全文检索如ElasticSearch等,分布式存储包括Key-Value存储系统、列存储系统,以及文档存储系统如HBase、Hive、MongoDB等。 同时数据处理中的粒度计算研究也在逐步深入,如Beliakov,et al.的图像缩小算法等[12]。


数据开放服务的研究主要集中于基于微服务架构(Microservice Architecture),比如Spring Cloud的领域。 微服务架构通过组合预定义服务组成应用,满足系统业务需求的分布式体系结构[29]。 各微服务独立部署,通过暴露REST API对外提供服务,服务间可以自由组合和调用,由API网关提供权限验证、负载均衡、压力检测与智能路由等功能[30]。 Istio作为服务网格架构的一种实现,为整个服务网格提供行为洞察和操作控制的完整的解决方案,满足应用程序的多样化需求[31],另外提供自动语意功能也是目前数据服务平台研究的方向之一[32]。


基于以上国内外的相关研究成果,综合业界各行业广泛应用的实践可以看出,数据在企业数字化转型的历程中成为了最核心、最重要的生产资料已经成为共识,甚至有人预言,数据将会写进企业的资产负债表中。 在企业重塑业务,通过数据驱动业务转型和业务创新这个数字化转型的背景下,企业需要一个源源不断的输出数据服务,数据预见洞察的能力源泉,数据中台的出现就成了顺理成章的事情。 但不同行业、不同企业的业务千差万别,具有很大的差异性,很难提炼出数据驱动业务的共性之处,我们由此提出数据中台构建过程中相对通用的技术架构,并在下文进行详细阐述,希望能够为企业在数字化转型过程中提供参考和借鉴。


2

技术架构


2.1 数据中台总体架构


数据中台可定义为一个集数据采集、融合、治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台。从业内较为通用的架构来看,数据中台一般可分为四层:大数据技术平台、数据资产管理平台、数据分析挖掘平台、面向应用的主题式数据开放服务平台,总体架构图如图1所示。本章节针对数据中台每个层次单独进行阐述。


图 1数据中台总体架构图

Fig.1 Overall architecture of Data Mid-End


我们认为数据中台其整体架构可以分为四层:


(1)大数据技术平台,为数据资产管理平台提供技术支撑,基于hadoop生态体系构建,包含多个数据存储、计算框架,解决多源异构的海量数据采集、存储、计算等问题。


(2)数据资产管理平台,基于大数据技术平台之上的数据管理中间件,用于盘点数据家底、构建统一的数据标准体系、构建行业化主题式数据仓库,以实现数据资产化为主要目的。 数据资产管理平台通过数据开发引擎与底层大数据技术平台进行数据交互。


(3)数据分析挖掘平台,架构在数据资产管理平台之上,为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源。 同时支持自然语言处理、机器学习建模平台、智能标签+动态知识图谱等多个易用的数据挖掘工具集。


(4)统一数据服务总线,提供统一的、面向应用的、主题式的数据服务,将数据资产管理平台、数据分析挖掘平台的数据处理和分析结果以数据服务形式对外提供,同时生成以业务为导向的服务资源目录,让前台应用更清晰的使用数据中台里的各类数据,实现以数据驱动业务,促进前台业务。


2.2 大数据技术平台


大数据技术平台为数据中台提供技术支撑,包括数据采集、数据存储、数据处理、数据分析等计算组件。一般基于开源Hadoop生态体系构建,数据中台使用的大数据技术架构不应该限定为单一架构,而是复杂多样的,要求上层资产管理平台具有较高的兼容性,能适配国际、国内多种主流大数据技术平台。


2.2.1多源异构数据采集与存储技术


数据中台面向的业务较为复杂,涉及的数据种类繁多、容量巨大,常规技术无法满足如此复杂的海量数据进行采集、处理与分析,所以需要研究不同行业多源异构数据的特征,定义数据采集标准、技术方式,并将之产品化,用简单配置的方式实现多源异构数据自动接入到数据中台。同时,需要构建一套通用的、基于本体论的数据语义描述模型,包括:模型中的基本元素、基本类型、基本关系、基本函数和用于推理的逻辑内核,用于存储和表达异构数据,让数据更容易被使用。


2.2.2 基于统一模型和pipeline的数据融合引擎


数据融合引擎的底层技术一般基于Spark RDD的全内存并行计算,支持跨源数据融合分析处理。上层提供简洁易用的交互界面,通过简单的拖拽配置就可以完成多源数据的输入、处理、融合和输出操作。该引擎需支持多数据源、跨数据源的数据接入与融合,数据源一键式配置,数据全自动化拉取,并且支持毫秒级预览查看,适用于数据探索与挖掘分析场景。数据融合引擎基于Pipeline式数据流的方式将ETL流程拆分成多个中间节点,每一个节点完成一项数据处理工作,并且是交互式响应操作,用户在使用过程中只关心一进一出,使用简单、无需技术功底,执行流程通过简单的连线做到了充分的自定义,并且提供多种执行计划,可以对数据进行各种实验,更富有探索性。


2.2.3 与底层解耦的异构任务执行引擎


对数据中台来说,异构任务执行引擎可以起到承上启下的作用,它连接底层大数据技术平台与数据资产管理平台,负责数据计算任务提交、分发与管理,同时也是维护大数据技术平台稳定运行的关键服务。任务执行根据大数据平台集群状况决定计算任务是提交或是在队列中等待,在集群任务负载较高的情况下,保障高优先级的任务优先被执行。同时,任务执行引擎支持多种异构任务,如MapReduce、Spark、R、Python等,以适应不同技术团队的数据开发需求。


2.2.4 基于多租户的异构工作流调度引擎


数据中台管理整个企业或机构的全域数据和业务流程,从工作流调度的角度来讲,单个业务流程是一个向无环图DAG(directed acyclic graph),这些业务流程往往由不同的业务部门(租户)负责,每个业务部门的业务流程都有自己的优先级配置,所以多租户模式下的多DAG调度技术在多工种协同场景下显得尤为重要。多个租户存在资源共享的情况下,异构工作流调度引擎需要兼顾不同租户之间及租户内部的多个DAG之间调度的公平性,通过异构任务执行引擎提交和获取任务执行状态,以最大限度地提升技术平台资源利用率为主要目标。


随着大数据采集、存储、计算能力的逐渐成熟,可获取的数据种类越来越多,用户对从数据中挖掘出商业价值的需求也越来越迫切。未来几年内,实时数据处理技术在解决现有实时分析场景的前提下,还将与复杂的业务场景结合,进一步加快复杂关联计算分析的处理速度,在人类决策的任何一个时间点都能让数据参与进来。同时结构化数据与非结构化数据的融合处理也是一个重要的技术趋势,通过元数据信息实现异构数据的整合拉通是大数据技术领域的一个关键挑战。


2.3 基于大数据技术的数据资产管理平台


2.3.1 统一标准的数据治理体系


数据治理是数据中台建设过程中基础且重要的环节,数据治理三个核心要素包括数据标准管理、数据质量稽核、元数据管理。


(1)数据标准管理一般基于国标数据元与编码标准建设,包括数据接入标准、命名标准、数据格式标准、数据安全标准、资源管理标签等多个方面。


(2)数据质量稽核,通过数据质量管理工具从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警。 做到事前质量检查、事中运行监控、事后归纳总结,结合系统提供的全方位评估并提高数据质量,为决策者的提供参考并辅助决策。


(3)元数据管理将数据资产用清晰直观的方式进行呈现,让数据资产真正被读懂、能利用,通过血缘分析和影响性分析,可以直观地了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观地把握数据资产状况。 同时,提供全域数据的检索功能,让用户能快速找到、理解、应用数据,利用数据驱动业务。


2.3.2 全链路数据生命周期管理


数据生命周期管理是数据中台的核心步骤,所有的数据都应该经过一条标准的处理流程:采集、清洗、融合、分析挖掘、应用、归档、销毁等。流程中每个步骤都要有对应的工具,帮助数据开发者快速上手,这些工具包括:数据模型设计与开发、数据ETL(包括可视化工具与脚本工具)、工作流调度等,并通过一些智能化的方式帮助数据开发人员快捷地完成数据开发任务,进一步降低数据开发成本。


2.3.3 面向分析挖掘的新型数据仓库


数据中台需要的新型数据仓库不仅仅是结构化的、离线数据,还包括非结构化的、实时的业务数据。因此,还需要借鉴传统数据仓库的设计理念,构建一套既能管理全域业务数据、又能支撑上层应用需求的新型数据仓库。基于这套数据仓库,数据科学家可以方便地查找并使用各类业务数据,进行深层次的数据分析与挖掘。


数据资产管理平台在数据中台中解决的关键问题就是实现数据资产化,也是现在数据中台建设过程中周期最长的一个环节,如何通过人工智能降低数据开发团队的人工成本,借助机器学习实现自动化、智能化的数据加工、挖掘也将是未来大数据领域最值得期待的新技术方向,也是数据中台发展过程中面临的最大挑战。


2.4 成熟易用的数据挖掘分析平台


数据挖掘分析平台架构在数据资产管理平台之上,可以为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源、易用的分析工具集。数据挖掘分析平台可以支撑在大数据时代企业和政府在业务中的各种数据挖掘需求,例如以下几类。


2.4.1 自然语言理解与处理


利用机器学习、深度学习、深度迁移学习等技术,实现对分词词性标注、命名实体、情感分析、文本分类等。可快速从文档中抽取出知识,构建各种实体、映射关系,实现基于语义的深度理解并将信息知识化,支撑机器智能决策。


2.4.2 基于动态知识图谱的智能标签管理


动态知识图谱,是以本体论为方法论,对所属业务领域的数据进行分类、关联而构成的知识网络,用于支撑复杂的分析场景、知识发现与知识挖掘。其核心是构建了“实体-关系-标签”三个业务要素,其中实体包括:人、事、地、物、组织等。复杂业务场景下的的知识图谱,应用不同的存储介质存储多种不同类型数据,并且在数据融合之后还能将不同介质中的数据进行连接与关联,实现关联访问与挖掘的效果。


2.4.3 交互式机器学习


交互式机器学习包含数据导入、数据预处理、模型训练、模型评估、模型预测、模型发布、模型管理、任务管理,以及任务监控等一站式、全方位的从建模到上线的流程。内置丰富的算法模型,通过拖拽组件可视化建模的方式,降低科学建模的技术门槛,让数据科学家充分利用数据中台的数据资源快速打造智能业务。


相较于大数据来说,基于机器学习的数据分析挖掘是个相对较新的领域,其面临的直接挑战则是场景化的业务落地,近几年是人工智能概念的热潮,用户要从热潮中冷静下来,分析自己的业务需求,再结合机器学习、深度学习方法来逐步解决业务问题,让人工智能真正的场景化、业务化。


2.5 面向应用的主题式数据开放服务平台


数据开放服务平台,目的在于打通数据中台与数据使用者(前台)间的数据通道,通过可视化方式实现数据API的创建、注册、发布、管理与运维。利用数据服务网关提供安全、高效、稳定的数据通道,包括服务监控、流量控制、用户鉴权、黑白名单等多个功能,并且提供负载均衡能力、多协议转换能力,加强原有API的服务能力。最后,按业务梳理数据资源目录结构,在资源目录中分类展示数据中台中可用的数据服务,让数据使用者可以有序的、清晰的浏览数据服务目录与详情,并申请与订阅数据资源。


数据开放服务是数据资产对外输出的唯一出口,是数据驱动业务的直接通道。支撑内部、外部多个核心业务系统,其安全性是数据中台的核心任务。数据服务的安全机制包括:数据开放是否合法合规、服务访问认证体系、服务访问审计与访问追溯、数据泄漏应急机制等。


综上所述,数据中台不仅仅是一套产品或者工具,数据生态的打造也不是短期就能完成的目标,须结合企业的自身业务实际情况来做整体规划,并按通用步骤依次建设。下文将具体介绍数据中台在企业和政府中的落地应用,以帮助读者了解数据中台在我国的实践情况。


3

行业应用


3.1 数据中台在互联网落地情况


阿里巴巴集团于2015开始实施数据中台战略后,据2015财年统计,阿里集团批量数据计算总时长减少50%,数据存储节约上百PB空间,直接降低成本数亿元。而通过中台面向应用提供的数据服务方面,更是对营业额的大幅增长起到了直接的促进作用,仅2015年双11当天通过对淘宝搜索排序中引入实时数据影响因子这一做法就带来了数十亿元人民币的增收 [33] 。如今阿里正在打造云数据中台,融通多元化、复杂化、丰富化的业务数据,建设统一标准,以达到技术降本、应用提效、业务赋能的目标。


美团涉及外卖、酒店、旅游、娱乐、出行等多项业务领域,同时还并购了大众点评、摩拜单车等应用,众多业务和应用背后庞大的数据急迫需要集团层面实施数据中台战略。近年来美团数据中台紧紧围绕业务开展建设,其中核心的一项业务场景即是建立集团统一的会员服务。美团获客渠道广,用户数量庞大,其中摩拜单车还涉及大量的境外用户,但缺乏用户在体系内转换的有力推手,通过数据中台将不同应用中的用户数据标准统一、打通融合后,可精准刻画用户画像,为用户提供更好的生活体验。对美团来说,用会员打通各业务,使得各高频业务能够作为拉新手段让会员关注到并尝试其它低频业务,可从会员和业务双通道获取直接的价值收益。


2018年腾讯、京东都对各自企业组织架构进行了调整,其中相同的一点是都对企业中台业务的战略发展做出了重要部署,强化数据中台的建设。如今,更多的互联网企业正抓紧建设符合自身业务发展的数据中台,通过数据中台实现一切数据业务化、一切业务数据化,驱动企业业务精细化管理,带动产业数字化转型。


3.2 数据中台在传统行业落地情况


2012年左右,中国传统行业开始进入数字化转型的道路,不同行业拥抱大数据技术的维度和速度略有差异,但基本都会结合自己的数据状况、需求优先级选择构建适合于公司发展的大数据底层平台。随着企业能获取到的数据量级和结构的多样化,企业急需一套适用于不同治理类型数据的数据平台。另一方面,随着企业内外部不同部门的需求进一步增加,如何更好地将企业的数据资源盘点清楚并高效地支撑这些需求,就成为企业IT负责人考虑的首要问题。在这样的背景下,企业数据中台也逐渐在各行业应用起来。


金融行业是较早开始构建数据中台的行业。商业银行、证券公司和保险公司等,在互联网和大数据的技术推进下,业务不断转向线上,急需将线上产生的海量消费者行为数据与线下网点的数据结合起来,对客户进行综合的分析。多家金融企业发现,传统的Oracle、SAP数据库已经不能支撑大数据环境下的内部分析、营销和服务的需求,纷纷转向搭建基于大数据的数据中台,从而更好地支持业务需要的海量数据挖掘、搜索等服务。中信集团、招商证券、光大集团等金融企业在构建数据中台和业务中台方面已经走在前列。






请到「今天看啥」查看全文