专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

如何做一名“称职”的数据专家?

爱数据原统计网  · 公众号  · BI  · 2016-12-27 17:20

正文



众所周知,在数据挖掘课题中,很大比重的工作量集中在数据信息收集、整合和探索阶段,挖掘模型的稳定性和提升度很大程度上依赖于大宽表的数据质量。


我们数据专家的作用就是要确保大宽表的数据完备性和数据准确性。


那么,什么样的人才能称为数据专家?


我的理解是:


1、熟悉行内常用业务系统的功能;


2、了解行内指标体系的业务定义和业务口径;


3、熟悉行内数据平台的架构及数据分层方式;


4、能从数据角度加以分析解释任何业务问题;


5、技术能力不可或缺。


下面,我从挖掘课题的前期数据准备阶段入手,介绍一下如何更好发挥一个数据专业人士的作用。


第一,理解需求,达成共识


在项目组接收业务需求、明确业务目标后,挖掘领域专家、业务领域专家、数据领域专家会一同讨论研究以下相关问题:


1、所有干系人讨论并熟悉挖掘主题相关的业务流程和业务知识;


2、为了实现业务需求,可能应用的算法理论和模型设计、开发;


3、基于对模型算法和业务目标的理解,确定应该准备的数据集合。


第二,数据信息收集


数据专家根据达成的共识,去分析可能获取目标数据的业务系统,对照数仓映射文档,查询和确认目标数据是否已经入仓、在仓库的存储位置、是否需要获取第三方数据等数据来源问题。


数据专家在收集到这些信息后,结合对业务目标的理解,再次组织相关干系人沟通和确认数据情况,讨论数据是否完备,对部分缺失数据提出可选的解决方案。


第三,数据整合


在确定数据信息后,数据专家开始着手对数据进行合并整合。


前几年,我曾接触到一个挖掘课题,数据专家在准备好大宽表后,并没有对数据质量进行充分的校验就交给了挖掘专家,后续的结果可想而知:模型结果的稳定性和提升度无法让客户满意,导致项目合作并不愉快。


因此,我在进行数据整合的过程中,始终带着辩证的思想去验证数据质量,在确保基础表数据准确的情况下,每拼接一张表,我都会从以下角度来检查:


1、数据记录条数。比如在做内关联时,如两个表的主键不匹配,则很可能导致关联结果表的数据记录有误;


2、关键指标合计值。对合并后的宽表与源表进行指标合计值比较,个人认为这是检查多表合并后数据质量最好的办法之一;


3、指标间勾稽关系。对于原表有勾稽关系的指标,抽样检查是否继续满足勾稽关系;


4、关键维度取值校验。在维度取值代码重定义后,需全样本分析检查是否与设想一致,包括代码取值、频数分布等。


第四,数据探索


此处数据探索的目的是为了再次确保移交给挖掘专家的大宽表的数据完备性。


在多次与相关干系人讨论后,各领域专家依据长期的经验积累,判定出某些变量可能会起到决定性作用,由于系统历史原因,此时数据专家需要去验证这些变量取值缺失是否严重、分布是否合理,在提出可替代的解决方案并获得认可后重新进行数据整合。


总的来说,万丈高楼平地起,作为一个被认可的数据专家,我们需要做好挖掘项目的基石,让挖掘专家对从我们这接收的大宽表不要有任何数据顾虑,集中精力做大楼的修葺美化。


End.


作者:杨老师(中国统计网特邀认证作者)


本文为中国统计网原创文章,需要转载请联系中国统计网(小编微信:itongjilove),转载时请注明作者及出处,并保留本文链接。