专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
数据派THU  ·  IoTDB ... ·  3 天前  
软件定义世界(SDX)  ·  星图数据:2024年双十一全网销售数据解读报告 ·  6 天前  
数据派THU  ·  科普之旅 | 大语言模型与量子计算的融合 ·  1 周前  
数据派THU  ·  【NeurIPS2024】将连续潜在变量模型 ... ·  1 周前  
51好读  ›  专栏  ›  大数据文摘

对话【友盟+】李丹枫:每天处理百亿级事件,超大量级数据场景下数据团队如何健康运转?

大数据文摘  · 公众号  · 大数据  · 2017-06-15 11:59

正文


大数据文摘作品,转载要求见文末

作者|薛娅菲、魏子敏、卢苗苗


*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。


“数据对于数据科学家来说是非常重要的,甚至比算法还重要。要知道,再好的模型都是靠数据养的。因此在数据应用层面,我认为中国比美国更有优势。”曾供职于雅虎,微软,FICO等多家领先科技公司,【友盟+】CDO李丹枫感慨到。

 

大数据发展的下半场,意识到数据重大价值的不止李丹枫,而在数据产业中,争夺数据话语权的无声战争也正愈演愈烈。2016年1月,友盟、CNZZ和缔元信三家各自拥有本行业大批量数据的公司合并,组成了新的公司【友盟+】,而新生的【友盟+】数据体量遂之倍增到中国乃至全球瞩目。

 

骤然增多的数据量一方面让【友盟+】在众多的数据服务提供商中,获得了天然的数据体量优势,另一方面,数据的合并和数据团队重新定位整合也给管理层带来了前所未有的挑战。就大公司内部的数据治理与整合、数据产品和数据团队的重构等话题,我们与李丹枫进行了深度对话。


每天处理约280亿事件高数据体量下,如何定义和实现高效计算?


合并后的【友盟+】数据体量到底有多大呢?

 

李丹枫称,合并后,【友盟+】覆盖的用户行为数据打通了PC、手机、传感器、无线路由器等多种设备。用数据具象展现:


-        覆盖125万个APP;


-        每天监测14亿移动设备;


-        每天监测680万个网站;


-        每天处理的事件数约280亿。

 

面对如此庞大的数据量,李丹枫坦言:第三方数据量级太大、覆盖面太广。面对全面打通的数据,【友盟+】的数据团队首先要解决的问题是:如何定义和实现用户行为数据的高效计算?以【友盟+】提供的风控业务为例,用户行为数据的量级大但数据深度浅,对于数据团队来说,在这种数据上做挖掘很有挑战性。同时,这项服务会承担大量的外部查询量。

 

首先摆在数据团队面前的是数据的全量更新或按需更新的选择。这个选择题经常出现在一个数据模型的训练和测试阶段。建模时不仅要考虑到基于不同层面的数据特征清晰地定义目标,还要考虑当模型成型后,所有的指标需要被有效地计算。如果数据科学家的决策是数据指标需要每天全量更新,每天将有几十亿个ID的数据回溯到数据训练的平台上,带来的是巨大的计算量和计算资源的占用。同时需要数据工程师协助数据科学家搭建有效的数据生产环境,保护计算的稳定性。因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。为此李丹枫博士为我们介绍了“代码健康度”的概念和评价标准。


很多时候机器是在“傻算”给定代码“健康”度规则,高效挖掘数据价值


“我们要让数据团队有这样的意识,一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,差一点就会差很多”,李丹枫说到“比如说100亿个ID,如果每个计算能提高1%,能节省的资源是很大的。”对资源的消耗与公司的生存直接相关,作为CDO,李丹枫必须清晰地界定“高效计算”的评价标准,督促并激励数团队能够有效地使用数据。

 

【友盟+】的数据团队分为数据科学家和数据工程师,有不同的check point来保证“高效”。友盟对于代码有一套评价体系——代码“健康”度。里面囊括了经常出现的代码错误、模型的稳定性(对变量依赖程度的评估)、模型的可持续性(不同版本更新的用户体验是否顺畅)和对占用资源的评估。如果一个数据科学团队的代码连续三次被监测为“不健康”,他们在组织中的权重会相应降低。对于数据科学家来说,对业务的理解直接关系到在特征的实现,需要在建模的阶段定义好数据和好方法。“不要过分追求模型的极致表现。比如一个模型的表现30%都依赖于1~2个变量,在实验室里的表现可能非常好。在实际生产过程中,一旦这1~2个变量出了问题,可能整个模型的结果都废了,这显然是公司无法接受的。所以,数据科学家要时刻提醒自己:你怎么定义你的目标?”李丹枫说。对于数据工程团队来说,内部技术委员会对定期评价团队正在运用的技术是否有效。


高效运转数据团队的核心数据团队的重构 & 数据人才的再定义


【友盟+】能够运作起如此庞大的数据量,除了专注于对数据的高效使用,还有一个重要因素是合并时的数据整合,以及和阿里巴巴内部数据团队的合作。公司高层在合并之初发动了“五大战役”,从业务角度出发整合数据。经过半年时间确定了三大产品线,其数据团队也在此基础上重构成了三大业务模块+上层数据价值实现模块的结构。“我们希望用户在用我们产品的时候就像搭积木一样,把有需求的模块拼接起来使用。数据在其中是横向打通的。”李丹枫说。

 

整合过程中涉及了数据的融合和业务的融合。模块制的管理思路保证了其数据可以横向打通。在数据标准化及治理方面,【友盟+】全面借鉴了阿里巴巴的数据管理经验,针对每一个Business Unit迁移数据到One Data数据体系中。同时,将数据全部迁入阿里云,做到降低运维成本及数据安全合规。接下来,数据科学家们通过第一方账号打通和算法打通两种方式对数据进行识别。在数据资源打通后可通过第一方登陆账号,把来源多样的数据识别整合为同一个人的数据。而通过建模识可以实现在第一方账号缺失的情况下的账号打通。这样一来,用户在不同设备、不同账号中上留下的痕迹就这样被标准化整合,并在脱敏后成为商家提供决策依据。


【友盟+】高层合并的流畅性给数据团队和业务的融合创造了良好的平台。改组后的【友盟+】数据团队大致分为数据科学家和数据工程师两部分,分别负责数据价值实现和数据基础保障。“数据从业者太容易钻到自己的小圈子里去了。”李丹枫坦言。作为CDO,他需要把数据团队从小圈子里拉出来,激发团队的主动性和外向型。他鼓励数据团队一旦有了新想法,便去说服同伴,组成2~3人的小团队把这个想法实现出来。再自下而上扩展影响圈,不断完善想法,直至一个新数据应用场景的出现,变成产品。在他看来,数据人才还需具备:了解客户、发现需求的沟通力;说服同伴的领导力;批判思维的洞察力和实现想法的执行力。

 

激发团队贡献想法,驱动数据体现价值。这对李丹枫来说是使命感使然:“我做数据的时间比较长,回国后看到有些数据沉寂很多年,并没有利用起来。我是有使命感的。我希望根据我的经验来判断数据在哪些场景中可能比较容易地产生数据价值。‘先摘容易摘的果子’,激励团队挖掘更多的数据价值。”

 

对职场新人的期待:放下架子,放手去做!


回国前,李丹枫在美国从事了十多年数据挖掘和机器学习方面的工作,曾服务于雅虎,微软,FICO等多家领先科技公司。“我不认为在数据领域,美国比中国具有明显的优势。从数据团队的构成来看,我认为中美的差异也已经非常小了,美国的数据团队里有很多中国人。”李丹枫说到。

 

李丹枫认为数据人才不单需要有数据建模的能力。具体说来,他给了职场新人三条建议:


1.     Get your hands dirty。打好基础,去充分了解在你手上数据。不要只想着发论文,要放下架子,动手去清洗你的数据,了解你的数据。不要怕数据“脏”;


2.     让自己成为跨界人才、π型人才。工程方向的学生要补充数据知识,数据方向的学生要补充工程知识,工程和数据方向的学生都要补充行业知识;


3.     务实、主动、合作精神


后台回复关键词友盟,可获取【友盟+】招聘信息


李丹枫,【友盟+】CDO,本科毕业于清华大学,后在美国伊利诺伊大学(UIUC)电子与计算机工程专业取得博士学位。毕业之后,在美国工作10多年,服务于包括雅虎,微软,FICO等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验,所参与的产品在金融,保险,搜索,互联网广告及零售业中有广泛的应用。


《数据团队建设全景报告》系列专访往期回顾:


对话猎聘CDO单艺:数据人才困局还需要大数据应对

【独家专访】揭秘LinkedIn总部数据科学战队:技术强者常有,顶级团队胜在软实力

【独家专访】微软郑宇:这个时代不缺数据,缺的是开放的思维

对话Capital One纽约总部数据中心负责人:构建中央数据团队与业务部门的良性生态



我的公司是否需要有独立的数据团队?

我该何时、怎么样建设自己的数据团队?

数据团队的价值如何衡量?

数据团队需要具备哪些技能和知识? 


《数据团队建设全景报告》系列专访


数据驱动时代,数据团队作为一家公司的核心竞争力所在,正在受到越来越多高管、从业者和投资人的关注。而目前,相对公司中的财务、运营等已经规模化的组成,数据团队还是不少公司可有可无的部分,即使是一些已经建立了独立数据团队的公司,其运作方式以及与其他团队的协作仍然处于探索阶段。

 

为了探索数据团队建设现状,清华-青岛数据科学研究院联合大数据文摘,发起了一次数据团队全行业调研。本次调研将对国内外数据团队发展现状进行盘点和趋势预测,同时探索数据团队应如何建设。我们将结合一系列专访与调查问卷内容,在7月初发布《数据团队建设全景报告》。


如果你也是相关领域数据科学团队负责人并希望分享自己的团队建设经验给更多读者,我们诚挚的邀请您作为深度访谈嘉宾,与我们的记者和研究员就相关话题深入沟通。相关专访内容将作为重点专题,在《数据团队建设全景报告》中呈现。请将您的需求和团队介绍发给我们。


如果你对于数据科学有自己的见解、有一定的采访报道技能,并且希望接触到一线的数据科学大咖,也欢迎加入我们的专访团队,请将简历和相关作品发给我们。


联系邮箱:[email protected]


如果你是数据团队的一员、和数据团队一起工作,或者希望了解其他数据团队的发展现状和未来,那么恳请你花费5分钟时间扫描下方二维码填写相关调研问卷,帮助我们完成这次调研。



参与者均可获得:最终详细数据报告完整版;2017年度大数据文摘电子杂志。


*为保证结果尽量准确,我们恳请您认真完成本次调研。

*本次调研匿名进行,不涉及任何个人信息,所留邮箱仅用于获取完整版报告,请放心填写。


今天的第三篇推送《最后48小时 | 数据可视化工程师课程早鸟优惠》内有课程优惠码送出快去看看吧


点击阅读原文,了解课程详情!


关于转载


如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:[email protected]

往期精彩文章

点击图片阅读

数据清洗要了命?这有一份手把手Python攻略