专栏名称: AI报道
大数据时代,做数据的玩家!
目录
相关文章推荐
数据派THU  ·  2024大数据挑战赛全国六强团队获奖经验+p ... ·  5 天前  
大数据文摘  ·  实测 | GPT-o1:学会了思考,也学会了偷懒 ·  6 天前  
CDA数据分析师  ·  CDA 认证考试内容入选宁波工程学院校级选修课 ·  1 周前  
51好读  ›  专栏  ›  AI报道

【好书推荐】Apache Kylin 权威指南

AI报道  · 公众号  · 大数据  · 2017-05-12 17:13

正文




 《Apache Kylin 权威指南》

Apache Kylin核心团队 著

机械工业出版社   出版


内容简介



本书第1章介绍Apache Kylin的历史、技术原理和产品定位,帮助用户了解何时和为何使用Kylin。第2章通过一个具体的案例快速入门,讲解Kylin核心概念、Cube建模和SQL连接查询这些基本使用。第3、4章讲解增量构建和进一步的流式构建,是大多数案例典型配置。第5、6章是针对查询和可视化、Cube调优的两个专门章节,适合较高级的用户。第7章是一系列有行业特点的具体案例分析,贯穿之前的所有概念。第8、9章讲Apache Kylin的扩展和企业级高级功能,技术性较强,会有较多的代码示例。第10章讲运维管理,从安装配置、监控维护到常见的问题和修复。全书后两章谈ApacheKylin开源社区和项目发展规划。


作者介绍



本书由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队,是了解麒麟技术的一个团队。


  李扬是大数据架构师和工程师,专注大数据分析技术。他是Apache Kylin管理委员会成员,也是Kyligence Inc.(一家专业提供大数据商务智能服务的创业公司)创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人,在eBay期间从2014年开始开发Kylin项目。之前,李扬在IBM工作8年,在摩根士丹利工作2年。在IBM期间,他是“杰出技术贡献奖”的获奖者,曾担任InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构。在摩根士丹利期间,李扬担任副总裁,负责全球监管报表基础架构。


名家导读



范济安

国家“千人计划”专家

中国联通大数据信息化事业部

副总经理、总架构师


2016年早些时候,我曾写过一篇有关联通Hadoop的文章,在其中的“展望篇”里谈到过OLAP on Hadoop 的新技术Apache Kylin。今天《Apache Kylin 权威指南》一书即将出版,我也有幸受本书作者之一的韩卿(Luke)的邀请来写推荐序。


联通集团的BI是2010年建设的,由于全国有四亿用户的明细数据需要集中处理,再加上对移动互联网用户流量日志的采集,使得数据量急增。截至2013年已达PB级规模,并仍以指数级速度增长,传统数据仓库不堪重负,数据的存储和批量处理成了瓶颈。另一方面BI上面提供的面向用户的数量查询和多维分析服务,使得后台生产的Cube越来越多,几年下来已有七八千个。用户需求对某一维度的改变往往会造成一个新Cube的产生,耗费资源不说,也为管理带来了极大的不便。2013年年底我们在传统数据仓库之外搭建了第一个Hadoop平台,节点数也从最初的几十个发展到今天的3500个,大大提高了系统的存储及计算能力,为联通大数据对内对外的发展都起到了至关重要的作用。美中不足的是分布式存储和并行计算只解决了系统的性能问题,尽管我们也部署了像Hive、Impala这样的SQL on Hadoop 技术,但在Hadoop体系上的多维联机分析(OLAP)却始终得不到满意的结果。Oracle +Hadoop的混搭架构还因为对OLAP的需求而继续维持着,零散的Cube数还在继续增长,架构师们还在继续寻找奇迹方案的出现。


Apache Kylin就是在这种大背景下出现在我们的视野中的。一个好的产品首先要有一个清晰的定位,要有一套能够明确解决行业痛点的方案。Kylin在这点上做得非常好,它把自己定义为Hadoop大数据平台上的一个开源OLAP引擎。三个关键词:Hadoop、开源、OLAP,使它的定位一目了然,不用过多地解释。同时,Kylin也是透明的,不像许多产品把自己使用的技术搞得很神秘,Kylin沿用了原来数据仓库技术中的Cube概念,把无线数据按有限的维度进行“预处理”,然后将结果(Cube)加载到HBase里,供用户查询使用,使得现有的分析师和业务人员能够快速理解和掌握。相比于IOE时代的BI,它非常巧妙地使用了Hadoop的分布式存储与并行计算能力,用横向可扩展的硬件资源来换取计算性能的极大提高。


为了能够将Kylin真正融入到联通的大数据架构中,我们正在紧锣密鼓地组织系统测试。比如对单用户级的数据查询、第三方可视化工具的集成、多维Cube建立的维度数极限等的测试。我们还计划用Kafka来导入数据,用Spark来加工Cube,用其他产品来代替HBase进而提高数据读取性能,用Kylin的路由选择来桥接新老Cube,等等。这时出版的《Apache Kylin 权威指南》一书,对于我们来说无疑是雪中送炭,我们的许多疑惑都会在这本指南当中找到权威解答。


联通公司现在经历的这些过程很多企业都会遇到,“坑”我们愿意去填,路希望大家来走。在向读者推荐《Apache Kylin 权威指南》一书的同时,我们真诚期望Kylin(作为Apache开源社区第一个由中国人开发并主导的产品)能够成功,能够在不断的实践中提高自己,能够充分利用中国这个占世界数据量20%的大市场,把自己打造成大数据领域的一只独角兽。


限时干货下载:添加微信公众号“数据玩家「fbigdata

回复【2】免费获取「完整数据分析资料,包括SPSS\SAS\SQL\EXCEL\Project!