专栏名称: Python程序员

最专业的Python社区，有每日推送，免费电子书，真人辅导，资源下载，各类工具。我已委托“维权骑士”（rightknights.com）为我的文章进行维权行动

每月好书：全栈数据之门（Python数据分析全线技术栈一站贯通 Spark机器学习算法工具无缝集成）

Python程序员 · 公众号 · Python · 2017-05-10 08:38

正文

和老规矩一样，本月月考的奖品就是《全栈数据之门》两本。不知道什么是月考的同学，请补习下面文章：

每月送书活动来袭,免费哦!

规则就说到这里，下面是书籍介绍。

-----------割------------

全栈数据之门（Python数据分析全线技术栈一站贯通 Spark机器学习算法工具无缝集成）任柳江著

ISBN 978-7-121-30905-2
2017年4月出版
定价：79.00元
396页
16开

编辑推荐

内容提要

《全栈数据之门》以数据分析领域最热的Python语言为主要线索，介绍了数据分析库numpy、Pandas与机器学习库scikit-learn，使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习，既有常用算法kNN与Kmeans的应用，决策树与随机森林的实战，还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上，使用Spark的ML/MLlib库集成了前面的各部分内容，让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。

《全栈数据之门》不是从入门到精通地介绍某一种技术，可以把《全栈数据之门》当成一本技术文集，内容定位于数据科学的全栈基础入门，全部内容来自当前业界最实用的技能，有非常基础的，也有比较深入的，有些甚至需要深入领悟才能理解。

《全栈数据之门》适用于任何想在数据领域有所作为的人，包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习，或许都能在书中找到一些之前没有接触过的内容。

前言　自强不息，厚德载物 / XIX
0x1　Linux，自由之光 / 001
0x10　Linux，你是我的眼 / 001

0x11　Linux 基础，从零开始 / 003

01 Linux 之门 / 003
02 文件操作 / 004
03 权限管理 / 006
04 软件安装 / 008
05 实战经验 / 010

0x12　Sed 与Grep，文本处理 / 010
01 文本工具 / 010
02 grep 的使用 / 011
03 grep 家族 / 013
04 sed 的使用 / 014
05 综合案例 / 016

0x13　数据工程，必备Shell / 018
01 Shell 分析 / 018
02 文件探索 / 019
03 内容探索 / 020
04 交差并补 / 020
05 其他常用的命令 / 021
06 批量操作 / 022
07 结语 / 025

0x14　Shell 快捷键，Emacs 之门 / 025
01 提高效率 / 025
02 光标移动 / 026
03 文本编辑 / 027
04 命令搜索 / 028
05 Emacs 入门 / 029
06 Emacs 思维 / 031

0x15　缘起Linux，一入Mac 误终身 / 032
01 开源生万物 / 032
02 有钱就换Mac / 032
03 程序员需求 / 033
04 非程序员需求 / 034
05 一入Mac 误终身 / 035

0x16　大成就者，集群安装 / 036
01 离线安装 / 036
02 Host 与SSH 配置 / 037
03 sudo 与JDK 环境 / 039
04 准备Hadoop 包 / 040
05 开启HTTP 与配置源 / 041
06 安装ambari-server / 041
07 后续服务安装 / 042
08 结语 / 044

0x2　Python，道法自然 / 045
0x20　Python，灵犀一指 / 045

0x21　Python 基础，兴趣为王 / 047
01 第一语言 / 047
02 数据结构 / 047
03 文件读写 / 049
04 使用模块 / 050
05 函数式编程 / 052
06 一道面试题 / 053
07 兴趣驱动 / 055

0x22　喜新厌旧，2 迁移3 / 056
01 新旧交替 / 056
02 基础变化 / 057
03 编码问题 / 058
04 其他变化 / 058
05 2to3 脚本 / 060
06 PySpark 配置 / 061
07 喜新厌旧 / 062

0x23　Anaconda，IPython / 062
01 Anaconda / 062
02 安装与配置 / 063
03 pip 与源 / 064
04 IPython 与Jupyter / 065
05 结语 / 067

0x24　美不胜收，Python 工具 / 067
01 缘起 / 067
02 调试与开发 / 068
03 排版与格式化 / 070
04 辅助工具 / 072
05 实用推荐 / 074

0x25　numpy 基础，线性代数 / 075
01 numpy 的使用 / 075
02 索引与切片 / 076
03 变形与统计 / 078
04 矩阵运算 / 080
05 实用方法 / 083
06 结语 / 085

0x26　numpy 实战，PCA 降维 / 085
01 PCA 介绍 / 085
02 数据均值化 / 086
03 协方差矩阵 / 087
04 特征值与向量 / 088
05 数据映射降维 / 089
06 sklearn 实现 / 090

0x3　大数据，其大无外 / 093
0x30　太大数据，极生两仪 / 093

0x31　神象住世，Hadoop / 095
01 Hadoop / 095
02 HDFS / 096
03 角色与管理 / 097
04 文件操作 / 098
05 结语 / 100

0x32　分治之美，MapReduce / 100
01 map 与reduce 函数 / 100
02 分而治之 / 102
03 Hello,World / 103
04 Streaming 接口 / 105

0x33　Hive 基础，蜂巢与仓库 / 106
01 引言 / 106
02 Hive 接口 / 107
03 分区建表 / 108
04 分区机制 / 110
05 数据导入/ 导出 / 111
06 Hive-QL / 112
07 结语 / 114

0x34　Hive 深入，实战经验 / 115
01 排序与分布式 / 115
02 多表插入与mapjoin / 116
03 加载map-reduce 脚本 / 117
04 使用第三方UDF / 119
05 实战经验 / 120
06 生成唯一ID / 121

0x35　HBase 库，实时业务 / 122
01 理论基础 / 122
02 Shell 操作 / 123
03 关联Hive 表 / 126
04 数据导入 / 128
05 实用经验 / 130

0x36　SQL 与NoSQL，Sqoop 为媒 / 130
01 SQL 与NOSQL / 130
02 从MySQL 导入HDFS / 131
03 增量导入 / 134
04 映射到Hive / 135
05 导入Hive 表 / 136
06 从HDFS 导出到MySQL / 137
07 从Hive 导出到MySQL / 138

0x4　数据分析，见微知著 / 141
0x40　大数据分析，鲁班为祖师 / 141

0x41　SQL 技能，必备MySQL / 143
01 SQL 工具 / 143
02 基础操作 / 144
03 查询套路 / 145
04 join 查询 / 146
05 union 与exists / 149
06 实战经验 / 151

0x42　快刀awk，斩乱数据 / 152
01 快刀 / 152
02 一二三要点 / 152
03 一个示例 / 154
04 应用与统计 / 154
05 斩乱麻 / 156

0x43　Pandas，数据之框 / 157
01 数据为框 / 157
02 加载数据 / 158
03 行列索引 / 159
04 行列操作 / 161
05 合并聚合 / 163
06 迭代数据 / 164
07 结语 / 165

0x44　Zeppelin，一统江湖 / 166
01 心潮澎湃 / 166
02 基本使用 / 168
03 SQL 与可视化 / 169
04 安装Zeppelin / 172
05 配置Zeppelin / 173
06 数据安全 / 174
07 使用心得 / 176

0x45　数据分组，聚合窗口 / 177
01 MySQL 聚合 / 177
02 Spark 聚合 / 178
03 非聚合字段 / 179
04 Hive 实现 / 180
05 group_concat / 181
06 Hive 窗口函数 / 183
07 DataFrame 窗口 / 184
08 结语 / 185

0x46　全栈分析，六层内功 / 186
01 引言 / 186
02 MySQL 版本 / 186
03 awk 版本 / 187
04 Python 版本 / 188
05 Hive 版本 / 189
06 map-reduce 版本 / 190
07 Spark 版本 / 190
08 结语 / 191

0x5　机器学习，人类失控 / 193
0x50　机器学习，琅琊论断 / 193

0x51　酸酸甜甜，Orange / 195
01 可视化学习 / 195
02 数据探索 / 196
03 模型与评估 / 199
04 组件介绍 / 200
05 与Python 进行整合 / 202
06 结语 / 204

0x52　sklearn，机器学习 / 205
01 sklearn 介绍 / 205
02 数据预处理 / 206
03 建模与预测 / 207
04 模型评估 / 209
05 模型持久化 / 210
06 三个层次 / 210

0x53　特征转换，量纲伸缩 / 211
01 特征工程 / 211
02 独热编码 / 212
03 sklearn 示例 / 213
04 标准化与归一化 / 215
05 sklearn 与Spark 实现 / 216
06 结语 / 219

0x54　描述统计，基础指标 / 220
01 描述性统计 / 220
02 Pandas 实现 / 222
03 方差与协方差 / 223
04 Spark-RDD 实现 / 224
05 DataFrame 实现 / 226
06 Spark-SQL 实现 / 227
07 结语 / 227

0x55　模型评估，交叉验证 / 228
01 测试与训练 / 228
02 评价指标 / 229
03 交叉验证 / 231
04 验证数据 / 232
05 OOB 数据 / 233

0x56　文本特征，词袋模型 / 234
01 自然语言 / 234
02 中文分词 / 235
03 词袋模型 / 236
04 词频统计 / 237
05 TF-IDF / 238
06 结语 / 239

0x6　算法预测，占天卜地 / 241
0x60　命由己做，福自己求 / 241

0x61　近朱者赤，相亲kNN / 243
01 朴素的思想 / 243
02 算法介绍 / 243
03 分类与回归 / 244
04 k 与半径 / 245
05 优化计算 / 246
06 实例应用 / 247

0x62　物以类聚，Kmeans / 248
01 算法描述 / 248
02 建立模型 / 249
03 理解模型 / 251
04 距离与相似性 / 252
05 降维与可视化 / 253
06 无监督学习 / 255

0x63　很傻很天真，朴素贝叶斯 / 257
01 朴素思想 / 257
02 概率公式 / 257
03 三种实现 / 258
04 sklearn 示例 / 260
05 朴素却不傻 / 262

0x64　菩提之树，决策姻缘 / 263
01 缘起 / 263
02 Orange 演示 / 264
03 scikit-learn 模拟 / 266
04 熵与基尼指数 / 267
05 决策过程分析 / 268
06 Spark 模拟 / 270
07 结语 / 271

0x65　随机之美，随机森林 / 271
01 树与森林 / 271
02 处处随机 / 273
03 sklearn 示例 / 274
04 MLlib 示例 / 275
05 特点与应用 / 276

0x66　自编码器，深度之门 / 277
01 深度学习 / 277
02 特征学习 / 278
03 自动编码器 / 280
04 Keras 代码 / 282
05 抗噪编码器 / 283

0x7　Spark，唯快不破 / 285
0x70　人生苦短，快用Spark / 285

0x71　PySpark 之门，强者联盟 / 287
01 全栈框架 / 287
02 环境搭建 / 288
03 分布式部署 / 289
04 示例分析 / 290
05 两类算子 / 292
06 map 与reduce / 293
07 AMPLab 的野心 / 294

0x72　RDD 算子，计算之魂 / 295
01 算子之道 / 295
02 获取数据 / 296
03 过滤与排序 / 297
04 聚合数据 / 298
05 join 连接 / 299
06 union 与zip / 300
07 读写文件 / 301
08 结语 / 303

0x73　分布式SQL，蝶恋飞舞 / 304
01 SQL 工具 / 304
02 命令行CLI / 304
03 读Hive 数据 / 305
04 将结果写入Hive / 306
05 读写MySQL 数据 / 307
06 读写三种文件 / 308

0x74　DataFrame，三角之恋 / 310
01 DataFrame / 310
02 生成数据框 / 311
03 合并与join / 313
04 select 操作 / 314
05 SQL 操作 / 315
06 自定义UDF / 316
07 三角之恋 / 318

0x75　神器之父，Scala 入世 / 319
01 Spark 与Scala / 319
02 Scala REPL / 320
03 编译Scala / 321
04 sbt 编译 / 322
05 示例分析 / 323
06 编译提交 / 325

0x76　机器之心，ML 套路 / 326
01 城市套路深 / 326
02 算法与特征工程 / 327
03 管道工作流 / 328
04 OneHotEncoder 示例 / 329
05 ML 回归实战 / 331
06 特征处理与算法 / 332
07 拟合与评估 / 334

0x8　数据科学，全栈智慧 / 337
0x80　才高八斗，共分天下 / 337

0x81　自学数据，神蟒领舞 / 339
01 机器学习 / 339
02 语言领域 / 339
03 Python 数据生态 / 340
04 相关资料 / 341
05 书籍推荐 / 342
06 性感的职业 / 343

0x82　数据科学，七大技能 / 343
01 七大技能 / 343
02 SQL 与NoSQL 技能 / 344
03 Linux 工具集 / 344
04 Python 或者R 语言生态 / 345
05 Hadoop 与Spark 生态 / 345
06 概率、统计与线性代数 / 346
07 机器学习与深度学习 / 346
08 业务及杂项 / 347
09 结语 / 347

0x83　大无所大，生态框架 / 348
01 计算生态 / 348
02 离线计算 / 348
03 交互分析 / 349
04 实时处理 / 350
05 算法挖掘 / 351
06 发行版本 / 352
07 其他工具 / 353

0x84　集体智慧，失控哲学 / 354
01 数据是宝 / 354
02 一分为二 / 355
03 回归统一 / 356
04 聚少成多 / 356
05 你中有我 / 357
06 从小看大 / 358
07 大事化小 / 358
08 少即是多 / 359

0x85　一技之长，一生之用 / 359
01 一技之长 / 359
02 数据分析相关 / 360
03 Python 相关 / 360
04 Hadoop 相关 / 361
05 Spark 相关 / 361
06 模型相关 / 362
07 算法相关 / 362
08 一生之用 / 363

0x86 知识作谱，数据为栈 / 363
01 知识作谱 / 363
02 理论基础 / 363
03 Python/R 编程 / 364
04 分析与可视化 / 365
05 大数据 / 365
06 ETL 与特征工程 / 366
07 机器学习与深度学习 / 366
08 工具与库 / 367
09 全栈为用 / 367

精彩节摘

0x00　自序

慈悲为怀大数据，云中仙游戒为师。

这是自己从几年前一直沿用到现在的签名，几年之后的今天，再来体会这句话，不一样的处境，不一样的心境，却依然有着同样的追求。

曾想出世修行，渴望每日有高山流水相伴，能过着青灯古佛的生活。终因现实残酷只得入世而求存，在多少次碌碌无为中坚定了技术这条路。

技术之路，注定会一波三折。在下也经历了从安全测试、安全分析，到大数据分析，再到APP 后端开发，直至数据分析、机器学习与深度学习之后，技术之栈才得以完全确立。技术之路漫长而曲折，需要不断修行，目前我也仅仅是入得门内，自此方有机会窥探神秘数据世界之一二而已。

少年不识愁滋味，为赋新词强说愁。而今识尽愁滋味，却道天凉好个秋。

学无止境。曾经以为学会Linux 便够了，殊不知，这仅仅是系统的基础；后来学了Python，以为这便是编程的全部；殊不知，Python 最强大的领域在数据科学；直到接触大数据与机器学习，才发现，原来种种际遇，都只是为数据科学而铺设的“套路”。

本书并非从入门到精通的讲解，只是想通过浅显易懂的语言让读者了解全栈数据的全貌。阅读本书时，如果其中某个知识点，让你入了门，我甚感欣慰；如果其中某节内容，让你得到了提高，我备受鼓舞。另外，入门之路千千万，用时下流行的话来说，只希望本书不会导致你“从入门到放弃”。

全栈数据，主要想尽可能多地涉及数据科学中的主题。任何复杂的技术，都是一点点积累起来的，数据科学也不例外。如果能将本书中涉及的全栈数据技术，如Linux、Python、SQL、Hadoop、Hive、Spark、数据挖掘、机器学习与深度学习进行系统性整合，则全栈数据之技可成也。

每月好书：全栈数据之门（Python数据分析全线技术栈一站贯通 Spark机器学习算法工具无缝集成）

正文

请到「今天看啥」查看全文