【好书推荐】Apache Kylin 权威指南

AI报道 · 公众号 · 大数据 · 2017-05-12 17:13

正文

《Apache Kylin 权威指南》

Apache Kylin核心团队著

机械工业出版社出版

内容简介

本书第1章介绍Apache Kylin的历史、技术原理和产品定位，帮助用户了解何时和为何使用Kylin。第2章通过一个具体的案例快速入门，讲解Kylin核心概念、Cube建模和SQL连接查询这些基本使用。第3、4章讲解增量构建和进一步的流式构建，是大多数案例典型配置。第5、6章是针对查询和可视化、Cube调优的两个专门章节，适合较高级的用户。第7章是一系列有行业特点的具体案例分析，贯穿之前的所有概念。第8、9章讲Apache Kylin的扩展和企业级高级功能，技术性较强，会有较多的代码示例。第10章讲运维管理，从安装配置、监控维护到常见的问题和修复。全书后两章谈ApacheKylin开源社区和项目发展规划。

作者介绍

本书由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队，是了解麒麟技术的一个团队。

　　李扬是大数据架构师和工程师，专注大数据分析技术。他是Apache Kylin管理委员会成员，也是Kyligence Inc.（一家专业提供大数据商务智能服务的创业公司）创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人，在eBay期间从2014年开始开发Kylin项目。之前，李扬在IBM工作8年，在摩根士丹利工作2年。在IBM期间，他是“杰出技术贡献奖”的获奖者，曾担任InfoSphere BigInsights的技术负责人，负责Hadoop开源产品架构。在摩根士丹利期间，李扬担任副总裁，负责全球监管报表基础架构。

名家导读

范济安

国家“千人计划”专家

中国联通大数据信息化事业部

副总经理、总架构师

2016年早些时候，我曾写过一篇有关联通Hadoop的文章，在其中的“展望篇”里谈到过OLAP on Hadoop 的新技术Apache Kylin。今天《Apache Kylin 权威指南》一书即将出版，我也有幸受本书作者之一的韩卿（Luke）的邀请来写推荐序。

联通集团的BI是2010年建设的，由于全国有四亿用户的明细数据需要集中处理，再加上对移动互联网用户流量日志的采集，使得数据量急增。截至2013年已达PB级规模，并仍以指数级速度增长，传统数据仓库不堪重负，数据的存储和批量处理成了瓶颈。另一方面BI上面提供的面向用户的数量查询和多维分析服务，使得后台生产的Cube越来越多，几年下来已有七八千个。用户需求对某一维度的改变往往会造成一个新Cube的产生，耗费资源不说，也为管理带来了极大的不便。2013年年底我们在传统数据仓库之外搭建了第一个Hadoop平台，节点数也从最初的几十个发展到今天的3500个，大大提高了系统的存储及计算能力，为联通大数据对内对外的发展都起到了至关重要的作用。美中不足的是分布式存储和并行计算只解决了系统的性能问题，尽管我们也部署了像Hive、Impala这样的SQL on Hadoop 技术，但在Hadoop体系上的多维联机分析（OLAP）却始终得不到满意的结果。Oracle +Hadoop的混搭架构还因为对OLAP的需求而继续维持着，零散的Cube数还在继续增长，架构师们还在继续寻找奇迹方案的出现。

Apache Kylin就是在这种大背景下出现在我们的视野中的。一个好的产品首先要有一个清晰的定位，要有一套能够明确解决行业痛点的方案。Kylin在这点上做得非常好，它把自己定义为Hadoop大数据平台上的一个开源OLAP引擎。三个关键词：Hadoop、开源、OLAP,使它的定位一目了然，不用过多地解释。同时，Kylin也是透明的，不像许多产品把自己使用的技术搞得很神秘，Kylin沿用了原来数据仓库技术中的Cube概念，把无线数据按有限的维度进行“预处理”，然后将结果（Cube）加载到HBase里，供用户查询使用，使得现有的分析师和业务人员能够快速理解和掌握。相比于IOE时代的BI，它非常巧妙地使用了Hadoop的分布式存储与并行计算能力，用横向可扩展的硬件资源来换取计算性能的极大提高。

为了能够将Kylin真正融入到联通的大数据架构中，我们正在紧锣密鼓地组织系统测试。比如对单用户级的数据查询、第三方可视化工具的集成、多维Cube建立的维度数极限等的测试。我们还计划用Kafka来导入数据，用Spark来加工Cube，用其他产品来代替HBase进而提高数据读取性能，用Kylin的路由选择来桥接新老Cube，等等。这时出版的《Apache Kylin 权威指南》一书，对于我们来说无疑是雪中送炭，我们的许多疑惑都会在这本指南当中找到权威解答。

联通公司现在经历的这些过程很多企业都会遇到，“坑”我们愿意去填，路希望大家来走。在向读者推荐《Apache Kylin 权威指南》一书的同时，我们真诚期望Kylin（作为Apache开源社区第一个由中国人开发并主导的产品）能够成功，能够在不断的实践中提高自己，能够充分利用中国这个占世界数据量20%的大市场，把自己打造成大数据领域的一只独角兽。

限时干货下载：添加微信公众号“数据玩家「fbigdata」”

回复【2】免费获取「完整数据分析资料，包括SPSS\SAS\SQL\EXCEL\Project!」