专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
商业智能研究  ·  一文详解什么是全链路数据分析平台! ·  2 天前  
51好读  ›  专栏  ›  爱数据原统计网

58同城大数据总监李志松:分析“新鲜”数据是企业对BI的要求 | 中国统计网专访(1)

爱数据原统计网  · 公众号  · BI  · 2017-02-17 18:09

正文


今天非常有幸能够请到58同城大数据总监李志松先生做客中国统计网和我们聊一聊他这些年对于数据行业的一些经验看法。李老师是非常资深的数据人,行业经验丰富。所以我们也准备了一些问题,希望李老师能够帮我们解答。


1、中国统计网李总,您好。您差不多在互联网大数据平台这块工作十多年了,其中在携程这里工作了7年多,你感觉每个段经历给您最大的收获是什么?以及有那些你认识是比较有成就感?

李志松(58同城大数据总监):赵总,您好,很高兴也很荣幸,能在中国统计网就大数据方面进行一些交流和探讨。我本人的工作经历大概可以分三个阶段吧。第一阶段就是刚开始毕业工作了两三年,这阶段我是从事程序开发以及数据库管理方面的工作。这段时间给我最大的收获就是打好了扎实的,数据方面的基础,比如说数据库知识,表设计、sql语句开发、程序编程能力等等,相当于计算机技能方面有了一个很大的提高。


第二个阶段就是我在携程工作的七年多时间。在这个阶段我主要做bi的工作。我主要做传统的平台的企业级的数据仓库以及BI系统的建设工作,最基本的报表系统、KPI的管理系统、产品分析报告、业务分析报告以及日常的工作都离不开数据。我们会同技术团队,业务团队一起合作。组成一个虚拟的项目团队,为了一个流程的改进或者指标的改进,大家会从各个方面综合起来去考虑。这个我觉得,真的就是说深入到企业日常工作的最大的体现吧!项目其实我认为也是数据应用到企业最终发展的真正的体现。在携程的这段时间,我真正的从一个BI的门外汉,到真正的了解了BI是什么,给企业带来什么,我们数据的应用价值应用点,在什么地方。


第三段工作经历就是我在58同城、安居客工作的这几年。这几年我基本上都是从事基于HADOOP大数据相关的工作。在上面的报表分析挖掘推进推荐等等各式的工作及业务。在这段时间,我自己相当于从传统的BI行业,接触了大数据,基本上算对大数据有个比较深刻的了解,这么多年下来,我觉得最大收获就是养成了不断学习和应用新技术的习惯,从最传统的程序出发到数据库管理和传统BI,其实我自己在不断学习一些新东西。在公司当中有一个实际的应用-学习-应用,这样学习应用不断的循环。


2、中国统计网:您能给大家分享一下,一个大型互联网公司数据平台规模与人员配置差不多是怎么样的,你能分享一下,你之前在携程网的数据团队的结构会是怎么样的呢?以及同其他部门是怎样的协作呢?

李志松(58同城大数据总监):从平台的角度来看,首先我们来看平台的结构分布,我们一般都会有平台架构师,从整个架构方面都会设计比较合理的大数据平台,数据仓库平台。另外我们还有工具研发人员,这些研发人员方便真正的ETL开发,以及分析师使用我们的数据平台 ,我们自己开发自己的一些工具,让他们研发工作更顺利,所以我们会有自己的工具研发人员,配合架构师一起把基础的数据平台能够建设好,这两种人我们一般都会放在平台架构组里面,基本上架构师1到2名,或者是3到5名,这要看规模。研发人员可能会配2到3名,因为工具研发工作相对会是多一些,这也是提高生产率的一块,需要值得投入的一块。之外我们还是会有一些ETL的研发人员,包括数据仓库建模,ETL流程开发,这一系列日常的工作,这个需要看根据业务的需求,以及公司的组织架构来规划。


这个团队结构,我就拿我们现在安居客这个团队平台结构来分享一下。可能每个公司的组织结构都不一样,但是大家做的事都是差不多的,因为我们目前数据平台的开发工具,调度工具,源数据等一系列的研发,所以我们有一个平台架构团队,这个团队也是我们投入比较大的团队。主要工作就是我们基础平台的架构设计及维护我们的工具开发,还有就是说我们新技术人员,特别是推出了BM这种实时跟整合的一种框架,整个大数据业界不断会有这种新技术出来,这个团队也要负责新技术人员的落地,这块的投入是真正能够保持我们整个大数据团队竞争力的地方,因为新技术的研究跟引入,让我们能够享受大数据业界发展带来的红利。这些红利我们投入的越多,我们收获的也就越多。


另一块就是我们的ETL研发团队,这边我们会分两种角色,一个是设计师,另一个就是ETL研发。设计师的主要工作就是跟产品、技术、运营去沟通,一个是收集需求,另一个是根据产品业务规则逻辑,以及跟业务团队去沟通,了解技术细节分析,设计我们数据仓库的模型,当然他们还有一些日常的管理工作。带领ETL研发人员去完成ETL的研发工作。ETL研发人员基本上就是跟技术团队沟通的比较多,主要是了解产品细节、技术需求,完成我们ETL的工作。


3、中国统计网:李总,您能否分享一下传统的BI与现在58同城用的HADOOP系统这块,你感觉那些会有不一样呢?以及这种不一样是不是会体现在业务当中或者效率当中会更将明显吗?您这边如何看待,现在国内的BI产品与互联网公司开发的BI系统差别在哪里,以及性价比哪个大?

李志松(58同城大数据总监):传统BI系统因为已经发展的这么多年了,已经有一套成熟完整的方法论了,工具也相对成熟。但发展到一定阶段,也有一点点局限,比如说,我们的需求响应速度,我们整个开发的效率,包括我们系统的整个运营维护成本都会比较高,资金及人员的投入都会相对比较高一些。包括Hadoop整个互联网大数据平台的发展,我们更关注一个“快”字,在现在移动互联网时代,数据采集的速度也会很快,数据量又很大,需求方对需求的相应速度、频率的要求也会越来越高。特别是我们的运营人员随时就可以取到今天的数据来做分析。


与传统的BI区别最大的不同是我们需要最新鲜的数据,以及以最快的速度拿到数据来指导我们的运营工作以及产品的其他方面的需求。因为大数据平台发展大概也就5、6年的时间,所以工具方面确实不太成熟,但是大家基础都是一样,都是基于Hadoop平台围绕它来看展。 正式因为工具的不成熟,所以我们主要以研发的方式。因为工具方面,我们主要走自己研发的这条路,所以对业界了解的不是特别深。


目前就我了解比较火的大数据相关工具,比如说Growing IO,神策类似于无痕埋点方式的网站分析的数据解决方案。他们其实可以给中小型的互联网公司提供一种快速的网站分析,用户分析的解决方案,成本应该在百万级,和传统的工具相比起来便宜一点。除了用户行为这种用户行为、网站流量方面数据以外,企业内部还有很大一块业务数据,这类业务数据我们可以用传统的ETL的解决方案来做。但是,当我们需要将用户的流量数据和业务数据需要打通做分析的时候,就会面临一个选择,我们到底有没有一个好的BI的解决方案,能够解决这个问题,一般我们都会选择自研的方式,基于Hadoop平台开发一套大数据开发管理工具,既能够处理线上海量用户的流量数据,又能够处理业务数据,这一块的投入主要是人力成本。对于企业数据平台的建设,还是需要根据不同的企业,不同的数据发展现状,不用的企业发展阶段综合的考虑,成本主要是考虑的一部分。


4、中国统计网未来我们也不排除市面上真的有一款数据产品,性价比和性能各方面都是非常不错的,那么作为我们企业方来说的话,我们会从哪些角度来看,采购依据会有哪些呢?

李志松(58同城大数据总监):如果真的有这么一套完整的解决方案的话,从几个方面进行评估。第一方面,整个工具的应用性,包括数据开发的应用性、数据访问的应用性。因为整个数据平台最大的使用方应该是我们的数据开发人员和数据分析师,因为他们基本上每天的工作都是围绕这个平台来开展的。另外一方面,整个工具的可维护性和拓展性。维护性,是因为企业采供回来,是需要运维人员负责的,如果在运维方面投入很多的话,那么就不太划算。拓展性,是目前更多的开发是基于SAP这种离线数据的解决方案,针对实时数据处理技术的成熟,以及未来对实时数据要求,工具能够快速迭代支持实时数据,像SPARK实时数据的解决方案。最后一个要考虑的就是成本,这个成本是软件采购成本,过去传统针对TB解决是千万解决,针对TD、BO、SAP是百万级的。这个成本还是一个不小的投入。


明天将继续为您带来58同城大数据总监李志松老师在工作中的实践案例,以及对大数据从业者的建议,敬请期待。