专栏名称: 爱数据原统计网

中国统计网（www.itongji.cn），国内最大的数据分析门户网站。提供数据分析行业资讯，统计百科知识、数据分析、商业智能(BI)、数据挖掘技术，Excel、SPSS、SAS、R等数据分析软件等在线学习平台。

数据人之苦

爱数据原统计网 · 公众号 · BI · 2017-04-20 17:01

正文

谨以此文献给所有数据从业苦逼之人，如有中伤之处，请自行戴好盔甲，以防中伤过深。同时也以此文献给后期对数据热情，想长期从事此行业的年轻人，希望对你们有所启发，并快速的调整思路和方向，以对自己的职业生涯有更好的发展。

最近听到一些段子，挺有意思的，先分享给大家，写清了数据分析人员的很多真实写照。

（此段子非我原创，来源于qq群@路西法）：

一：新招进公司，做大数据分析师，好嗨森，入职第一天老板给了张50M的excel表说：“瞧，你看我们有100多万条用户信息呢，这么大的数据，来个大数据分析下！”

二：还没从震惊中恢复过来，业务部又神补一刀：“我们准备跟星巴克合作，来预测下明年多少人喝咖啡，几千万的大项目，预测不准公司要亏很多钱的，你加油哈”

三：好想把“我要是未卜先知为啥不去炒股来给你打工”这句话甩在业务部脸上，就被IT一句：“哥们你可来了，那失散到天涯的数据有娘啦！”噎了回来。

四：终于把数据拼起来开始分析，发现好有规律啊，好工整啊，隐隐感到有坑，去业务部一问才知道，全是被经销商篡改操纵的数据，人家都有简便操作的顺口溜了，一读发现顺口溜还朗朗上口

五：没有四的困扰了，这下终于是全真实数据！全部没有规律了！喜极而泣，擦干泪仔细一看发现80%的记录缺失，10%记录不全，5%记录出错……

六：整完数据开始统计，然而领导觉得只做加减乘除太简单了，有没有有深度的方法（解读：需要纠正的是，有用为先，花哨次子，这种说法不太合理）

七：简单了就做个模型吧，然而检验值还没讲完领导表示太复杂搞不懂，能简单点不（解读：这个是解读能力的问题，跟领导没关系）

八：改来改去已很多遍了！我已不太记得领导唠叨了什么，总之又听到一句：“再改一下，看看其他维度深入分析分析”，然后默默新建一个文件：《分析报告V16-8版》

九：输出结果和业务部的认知差不多，被评价为：“我们都知道了吗，做跟没做一样吗”

十：输出结果和业务部的认知差很多，被评价为：“这个与业务经验完全不同，肯定是数据的问题，我们都十多年经验了，快回去检查数据，上次我去见XXX客户人家就不是这样的！一定是你错了！

此段子一出，群里都炸开了锅，各位数据从业人员开始不断的煽风点火，各种数据背锅，各种吐槽，说尽了数据分析师的各种的辛酸苦辣。上面提到的一些问题，我做分析师的时候也经常碰到过，我现在找到了一些规避这些问题的方法，在下文中，我会提出微薄的建议和意见，希望对大家有所帮助。

当然，我也希望借此能够并号召所有的数据从业者都能够在数据应用实践上能够深入思考并且有所突破，以此在正确的轨道上更好的发挥出数据的价值，从而让数据从业者有更大的前途和钱途，不在拘泥于每天的抱怨和自怨自艾中。

数据人之苦

进入正文，数据人之苦最苦的是：有好处想不到你，出了问题都是数据人的错，这句话的意思就是你做好是应该的，做得不好你就得承担责任。这种痛苦完全命中了马云蜀黍对离职的两点看法：心累（得不到价值肯定）、钱少（没业绩肯定哪来的升职加薪）。区分不到数据流程的不同阶段，数据人之苦又有所区分侧重不同，说一下我的个人浅见。

根据数据应用的不同阶段，我的划分方法如下，从数据底层到最后应用：

大数据平台

目前很火，数据源头，各种炫酷的新技术，搭建hadoop,hive,spark,kylin,sparkstreaming,druid~，目前很多企业都把数据采集下来了，还有很多企业都不知道怎么进行存储数据。

这里面要解决的是实时、近实时和离线的大数据框架如何搭建，各数据流之间如何耦合和解耦并且如何进行灾难备份都是需要重点考虑的。

所以我的感觉是：未来的三四年中，这块人才还是很稀缺的，因为大数据概念炒作的这么厉害，很多企业都被忽悠的说，我们也来开始挑战大数据行业吧。所以挑战的前提之一就是需要把数据存储下来，现阶段，很多公司都要做第一步：存储数据。传统的SQL，针对大数据量的非结构式数据，我们所想的就是：用最廉价的成本存储数据，所以分布式是很有前途的。另外，云端会是个很好的方向，不是每个公司都是养得起这么多这么贵的的大数据平台开发人员和运维人员OPS，DBA的，所以我们要有很好的危机意识，及时贡献出自己的价值。所以花点钱让云服务提供商是个很好的思路。说了以上这些看法，主要是想对未来会从事这块的人一点方向，追上潮流是很重要的，选择某些未来潮流和这块工作最被吐槽的一点就是：Hive速度好慢，SQL查询好慢，你的集群怎么老是挂掉，hadoop版本升级后，怎么数据跑出来不对了；

在这个领域内工作，需要有强大的攻坚的能力，并且还需要有快速定位和解决bug的能力，因为有很多工具都是开源的。因为是开源的，所以你们懂得，各种坑爹，甚至出现无法向下兼容的能力，所以你需要的是强大的加班能力和Java开发的能力。这块机能就看你们自己对号入座了。

如果想在这块做的很好，就需要有整个系统架构的设计能力并且比较的强的抗压能力和解决问题的能力，以及资源收集的能力，可以打入开源社区，这样就可以随时follow最新的潮流和技术。

数据仓库-ETL

常见被吐槽的就是：

a、数据字典呢？这个字段是什么意思？我们用数据的人最痛苦的莫过于此，看到了表名和字段，可是你也只能脑补说这个字段的业务含义是什么？

b、DW设计和维表设计的不合理，怎么找个数据这么难的？为什么生产上的表在仓库里面没有呢？

c、我明明只要取一个集团的订单统计数据，还要我去join 3张表？这个仓库做的是什么东西啊。我的报表要新增一个维度，怎么排期要半个月？

d、我要取个数据，怎么要排队半个月？

这个是我有时候吐槽的点，确实仓库的人做的很辛苦的，单单Oncall就会让人望而却步，有很多数据库工程师晚上睡觉的时候经常被Oncall电话吵醒，因为数据流程出问题了，所以需要第一时间去排查，哪个数据源出问题了并且要立即解决问题，否则整个数据流程都会受到影响。如果数据流程受到了影响，你就可能会被大领导一言不合叫到办公室说：我要的数据怎么还没有准备好，我的业务报表今天怎么没有发出来。

所以通过这个对话，我们可以知道：这个职业是个很重要的职业，因为数据流程很重要，决定了数据从源头杂乱无章的情况，通过ETL之外变成了整齐的数据，这些整齐一致性的数据可以让你很方便的把各业务的统计结果计算出出来，并且能够统一口径，要不然就变成了有几个部门就有几种统计结果，到时候A部门说业务增长了，B部门说业务下降了。

这么重要的部门为什么会受到这么大的挑战呢，就是因为经常他们的工作内容虽然很重要，但是经常看不到什么产出。也跟我们开头说的：这个是很重要的工作，你做好了是应该的，做不好就面临了各种挑战、挑刺。不过，既然拿了公司的钱就应该在这个岗位上都应该把事情做到极致。至少在以下几点上，我觉得数据仓库人员做好是无可厚非的：

a、数据字典的完整性，用的人都希望能够清晰的知道这个字段的逻辑是是什么。字段的一致性很好的，不要同样一个字段在不同表的定义还是不同的。何况，我们也没有要求字段的命名要完全一致，我们就因为历史遗留问题，人员的流动性，导致同样一个表的相同字段，在不同的目的地表上，字段不一样，一个是驼峰形，另一个是下划线形，所以SQL逻辑在HIVE上和SQL上需要做大量的改动，用起来非常痛苦。

b、核心流程的稳定性，不要说每天订单主表能够使用的时间很不稳定，有的时候很早，有的时候要中午才出来，如果不稳定就会导致使用数据的人对你很没有信心。

c、仓库版本迭代不要过于频繁，要保持稳定性。不要你做好了仓库1.0，很快就把原来的推倒重来，变成了2.0。所以在数据仓库中需要考虑到延续性，主表的变动不要太频繁，否则使用的人会非常痛苦，好不容易才用习惯了1.0的表结构，没办法这么快进行切换。简单的说，要能向下向上兼容。

d、保持各业务逻辑的统一性，不要出现说同样的业务逻辑，同一个组别的人统计出来的结果不同。原因在于共同的逻辑没有落地成通用的东西，所以导致每个人写法不同。这点其实需要特别注意。

针对以上想法，我对这个岗位的技能要求是：不要成为仅仅会写SQL的人，我觉得现在工具都很发达，如果你的技能很单一的话，那么你的可替代指数是非常高的。

仓库人员应该要常常思考，表结构之前如何进行架构设计师最合理的，所以需要有架构思维。另外技能上，我觉得除了SQL熟练之外，还需要知道如何写Transform，MapReduce，因为有很多业务逻辑实现用SQL实现起来非常负责，但是如果你会写程序，那么就能给你提供便利，让你的效率提升很多。另外最好的仓库人员需要写Java或者Scala，通过写UDTF或者UDAF来提升你的效率是很有必要的。

数据仓库人员也应该常常考虑自动化和工具化方面的事情，它需要很好的工具或者模块的抽象能力，动手实现自动化的工具来提高整个组织效能。针对经常碰到的数据倾斜问题，需要很快定位问题并进行优化。

接下来是数据应用的几个关键职位，待我一一道来，但是在进入被吐槽之前，我想说数据应用的一个最关键的前提是：数据质量、数据质量、数据质量！！在每次阐述你的观点或者利用用算法的时候，都需要先检查，数据源的数据正确性，否则任何结论都是伪命题。

数据人之苦

正文

请到「今天看啥」查看全文