今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区
阿里大数据和人工智能科学家 行在,阿里公共数据平台负责人 罗金鹏,在云栖大会、Data Tech等大会中分享到:阿里的“双中台+ET”数字化转型方法论及成果,以及阿里数据中台产品OneData、OneID、OneService、Dataphin的建设实践
。
本文整理了其中15页PPT精华浓缩,下面我们跟随技术大咖,一起来学习阿里数据中台的建设方法论、建设实践、组织中台如果支撑数据中台、以及数据中台建设分哪些步骤等等。
01
阿里数据中台全景图
(点击图片可放大)
阿里数据中台在架构的组成上,呈现了一个“四横三纵”的结构,底层的基础设施来自于阿里云平台。
四横。在这张架构图中,从下往上看,最下面的内容主要数据采集和接入,按照业态接入数据(比如淘宝、天猫、盒马等),我们把这些数据抽取到计算平台;通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。
基于公共数据中心在上层根据业务需求进行建设:消费者数据体系、企业数据体系、内容数据体系等。
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJ5mvtiaU9t0pCiaCcgIjSwt7vpXUvpED37tzHQcthc0n9EG4ODsSVfQfQ/640?wx_fmt=jpeg)
(图片来源:云栖社区)
经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJWuPwkNEhibl3iaIpu6CdF36mCFWFG5ZZt2ROx6mn4YqRxURvcWayvMyA/0?wx_fmt=jpeg)
(点击图片可放大)
三纵。为保证阿里巴巴整个数据体系的快速、高效、高质量数据接入,需要有一套智能数据研发平台来实现,将理论及实践过程,通过一整套的工具体系及研发流程去保障落地,确保每一个团队,每一个BU,通过统一规则去建设数据体系;同时,当数据多了以后最直接问题就是成本,因此我们还建立了统一的数据质量管理平台。
02
阿里“双中台”共同支撑的“大中台+小前台架构”
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJmEuTzrjctX4VTwn5ib5ZlicPGYicBWc0zp79jcUFQC4SN1cKwcxI0p7Qg/640?wx_fmt=jpeg)
阿里云的大数据和人工智能科学家--行在,在访谈中提到,阿里中台主要体现为由业务中台和数字中台并肩构成的双中台,并肩扛起了所有前台业务。
业务中台将后台资源进行抽象包装整合,转化为前台友好的可重用共享的核心能力,实现了后端业务资源到前台易用能力的转化。
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhy5gicEGicd03G7ZEgVVJDFDYicN2lruHOtmVPfLN6dU9gibaWBKCZ6MlEjtjhgBjQ3Nia3QxicW2JuSSVQ/640?wx_fmt=jpeg)
(点击图片可放大)
数据中台从后台及业务中台将数据流入,完成海量数据的存储、计算、产品化包装过程,构成企业的核心数据能力,为前台基于数据的定制化创新和业务中台基于数据反馈的持续演进提供了强大支撑。
(点击图片可放大)
业务中台与数据中台相辅相成、互相支撑,一起构建起了战场强大的后方炮火群和雷达阵。
03
阿里数据中台OneData体系
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJFh9rWicAqCvIL1aBYojRnGFuF6Jo0ib9o89DyzZhEkNJeXQ1EibAxtxUg/0?wx_fmt=jpeg)
OneData是阿里数据中台的核心,阿里公共数据平台负责人罗金鹏介绍,OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。
统一数据标准是一项非常复杂的工作,譬如,针对UV这一相同的指标,在统一之前阿里内部竟然有10多种数据定义。据介绍,OneData数据公共层总共对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个。
在DT时代,数据暴增对存储计算成本带来很大的挑战。据罗金鹏介绍在没有建设统一的数据公共层时,阿里内部服务器需求量会在5年之后达到现在的100倍之多。而经过数据公共层的统一建设,5年后的服务器需求量相对会节约90%。
![](http://mmbiz.qpic.cn/mmbiz_jpg/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJlmgCbWw5XuQiaZSwWUO0nhrFATN7MQHGII10pKB9KfBYTz1rW4mVOjg/640?wx_fmt=jpeg)
阿里数据中台之OneData也并非是“一次成型”的,它经历了三个阶段的能力演进:
第一阶段:完全应用驱动的时代。这个时期主要将数据以与源结构相同的方式同步到Oracle,那时候的数据架构只有两层ODS+DSS,严格说来基本只有一个ODS层,也基本没有模型方法体系。
第二阶段:随着阿里业务的快速发展,数据量也在飞速增长,性能已经是一个较大问题,希望通过一些模型技术改变烟囱式的开发模型,消除一些冗余,提升数据的一致性,所以阿里引入了Greenplum。
第三阶段:引入以hadoop为代表的分布式存储计算平台,确立第三代模型架构(OneData),核心CDM层都采用多维模型。选择了以Kimball维度建模为核心理念的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系。
04
数据中台PasS层Dataphin
![](http://mmbiz.qpic.cn/mmbiz_png/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJ7R8k6KvwBIKOkCDkCfQUEaqRCDWXxZ9gia0hbI45XRteOOFKqFlkg5Q/640?wx_fmt=png)
(图片来源:云栖社区)
在整个数据中台模式中,PasS层产品Dataphin如引擎般存在,下到规划数仓,上至输出主题式服务。
有了Dataphin之后,种种数据问题弹指间即可迎刃而解,它既可以保证数据标准规范定义、数据模型设计即自动化开发、主题式数据服务即时生成。
同时还能提供数据资产化管理的门户,有效降低数仓建设门槛,也提高生产效率、降低生产成本,轻松实现让数据从成本中心真正变成价值中心,且可量化呈现。
05
Quick BI助力云上企业数据分析
![](http://mmbiz.qpic.cn/mmbiz_png/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJT2HeVXOxm7bPSnmDxID6kmc0ancyrRjBXLb6ecsOiavdHOphjoQibyOA/640?wx_fmt=png)
大数据构建与管理完毕之后,我们需要利用Quick BI这一智能数据与可视化组件将数据背后的价值展现在人们面前。
Quick BI扭转了当初重度依赖专业数据分析人才的局面,能够赋予一线业务人员智能化的分析工具,真正的做到了“数据化运营”让数据产生价值。
现在,越来越多的企业开始数据上云,也有的行业如政府、金融因为严苛的安全需求而自建本地数据库,导致企业出现数据分散式存储的状况。而Quick BI却可以链接各种数据源,满足云上和本地的不同需求,整合为可被统一调度的数据集。
06
阿里大数据能力框架
![](http://mmbiz.qpic.cn/mmbiz_png/sqibwUCydDhxtFV0UEQ4B13hQ8sLqBVrJFZtBYutfHJUZ6hGiaYzRIe0TicJyiaOcfxPU954rofaYvQ6lvGOPxhFsg/640?wx_fmt=png)
阿里巴巴提出的数据中台模式,正是为解决问题而生,并通过实践形成了统一全域数据体系,实现了计算存储累计过亿的成本降低、响应业务效率多倍提升、为业务快速创新提供坚实保障。
全域数据采集与引入:以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务、多终端、多形态的数据。
标准规范数据架构与研发:统一基础层、公共中间层、百花齐放应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。
连接与深度萃取数据价值:形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。
统一数据资产管理:构建元数据中心,通过资产分析、应用、优化、运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。
统一主题式服务:通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。