300 + 明星创业公司,3000 + 行业人士齐聚
全球人工智能与机器人峰会 GAIR 2017
,一 同见证 AI 浪潮之巅!峰会抢票火热进行中。
今天特放出
5
个
直减 1400 元的无条件优惠码
(见文末),感谢各位读者对雷锋网的支持,点击
阅读原文
即可使用。
到今年为止,大数据的概念已经火了 7 年,如今 “落地应用” 已经变身为大数据产业的核心,第三方全域数据服务商【友盟 +】将今年定为 “实现全面商业化” 的一年,目前其直接服务客户群依然是互联网企业,“未来传统企业客户将是重要服务客群”,【友盟 +】CDO 李丹枫称。
在 2017 年【友盟 +】主办的 2017UBDC 全域大数据峰会上,李丹枫与在场观众分享了【友盟 +】的几个应用案例。
-
在融 360 平台推出了基于用户互联网和移动互联网行为的风险控制分析模型,几乎对于任何设备,我们就能找到这个设备的相关信息以及用户在设备上的行为信息,并且最终效果为提高风控效果 20%。这个项目充分证明了结合企业数据和【友盟 +】数据探索具体应用落地的可能性。
-
我们与平安科技进行了合作,基于互联网上的用户行为数据,判断哪些人有申请信用卡倾向、哪些有贷款倾向等,使用了该模型之后,广告花费明显降低。
-
【友盟 +】与梨视频合作,用我们的数据帮他们解决冷启动的问题。
-
在广告投放领域,机器能根据后台大数据判断哪些是企业的核心用户、哪些与其客群相近,基于此进行广告投放。
李丹枫称,目前【友盟 +】重点关注 3 个领域:互联网应用、新零售和广告营销行业。“同时也会做一些摸索性的项目,对行业没有太多限制。”
大数据火了多久,数据相关性弱、数据质量不高、数据处理过程复杂等问题就存在了多久,对此,雷锋网采访了李丹枫。
数据相关
“数据已经成为一种资产” 已是行业共识,而【友盟 +】基于其提供的数据监测工具采集互联网公开数据、APP 端以及用户行为数据,进行简单清洗梳理后向企业提供数据资源。
据悉,目前有 125 万个 APP、680 万个网站用了【友盟 +】的数据服务,每天可搜集的数据设备是 14 亿。“中国网民数大概是 7 亿多,一个人可能有多个设备,【友盟 +】基本覆盖了全网用户。” 李丹枫如是说。
雷锋网:【友盟 +】的数据属于强相关还是弱相关?
李丹枫:
营销场景的数据在很多情况下是强相关性的,用户在移动互联网上耗费的时间很多,通过网上行为对人们兴趣做判断是很靠谱的,营销场景的数据是强相关的数据。
对于风控场景,数据是分散的,最上面一层是借款、还款相关的数据,这部分数据属于强相关但数据量比小,并非所有人都有借款还款的记录;再下面是银行卡、信用卡交易消费数据;再往下可能是一些社交数据;最后是用户行为数据。用户行为数据可能看起来与风控没太大关系,但我们的优势是数据体量大,覆盖率高。另外,这些貌似不是强相关的数据往往会产生一些意想不到的附加效果,比如,一个人的互联网和移动互联网行为数据实际上对这个人是很好的描述,如果某用户在金融领域有一些特定的行为,实际上在其他领域也会显露出来。
我们开始做这个项目时,也是抱着试一试的心态,后来发现效果非常好。融 360 本身会集合各方面相关的数据做模型,我们发现在有些案例中【友盟 +】的数据能排第二。
另外,用户在互联网、移动互联网行为数据是很难造假的。金融数据可以造假,可能开始非常守信的用户在贷款额提高时不还款,行为数据能真实反映情况,看似不相关的数据往往会产生意想不到的效果。
雷锋网:目前,【友盟 +】的兴趣标签、人口属性标签有多少类呢?
李丹枫
:兴趣标签固定体系有 400 多类,但现在很多时候客户会要求跟场景相关,客户有某个需求可以定制标签,这是自动化的生成流程。人口属性标签是性别、年龄、收入、是否有房、是否有车、是否有小孩儿等这些信息。
雷锋网:定制标签的过程是怎样的?
李丹枫
:标签定制有两种方式,一种人工一点,通过观察客户目标群体的属性,判断哪些属性是突出属性,进行标签定制,这个过程基本是半机器半人工的状态。另一种是自动化的:用户直接上传它的核心用户数据,基于这些数据找出我们这里所有与其核心用户相近的数据,比如对十几亿设备进行排序,排在最前面的是最相近的,排在最后的是不相近的,这是自动化的一个过程。
我们更希望客户通过这个过程来进行人群定位、广告投放,但这需要时间,因为企业一般很难明确地说出其目标人群特点,而模型是发现一些内在的联系,有时候也是难以解释的。
雷锋网:您讲到企业本身要提供一部分数据进行放大,如果企业没有数据呢?
李丹枫:
整个过程需要闭环,如果没有数据,企业一般对其目标群体有大概的概念,我们可以先做投放,有一定客户积累之后再放大,整个操作流程是很简单的。
雷锋网:形成标签的过程是怎么的?
李丹枫:
每天都有新数据进来,我们每天都会处理这些数据做标签更新,有些标签变化不会太大,对性别预测不会产生太大的变化,但不排除在一些场景下,性别标签会变化。
比如一个男性用户老婆怀孕,那他的行为转变为一个女性行为了,这是用户的行为性别。一个人的行为性别可以随着其人生阶段变化,在这个意义上,行为性别可能比真实性别更有意义。如果标签体系中用户的真实性别为男性,并且不知道其人生阶段,那么,与母婴、育儿相关的内容不会推送给他。一个用户原来的行为性别是男性但现在看起来像女性,可能是他的人生阶段发生变化。
还有兴趣标签,比如我是一个比较喜欢看金融类新闻的人,但我从来不点金融类新闻广告,如果做效果类广告标签,我是没有的,但如果做品牌广告我是有标签的,根据不同应用场景每一个标签会有不同的设置。所以一个 400 维的标签,在同一个设备不同场景下,可能变成 800 维或 1200 维。
数据收集上来后的第一步工作就是做基础标签。一般来说我们很少会直接使用原始数据,因为原始数据一是体量大,二是占有的空间大,而且不同的业务用到的数据往往都要经过标签生产的过程。所以,基础标签肯定要生成的,场景标签、高级标签是按需求来做的。我们平时做的工作是建立自动化或半自动化的体系让效率更高。比如我们最开始做风控的时候,我们做一个模型可能需要一个多月两个月,现在可能一个星期就把做出来了。我们是在工具层把它体系搭建好,这样如果场景来了我们就可以高效地生成。
雷锋网:数据的质量是怎么把关的呢?收集上来的数据如何判断这个数据好还是不好?
李丹枫
:首先是原始数据收集,我们第一步做的事情其实很简单,就是通过常识判断数据是不是合理。如果发现一个人一天的行为很多,那判断这可能是机器而不是人,在这个层面上,通过一些规则或统计模型删除一部分。在互联网和移动互联网上,这种假的人或机器还挺多的,所以第一步会筛掉不是真实的人的信息,而这些信息本身对开发者也是有帮助的。比如做渠道质量判断,通过这个过程可以判断哪些渠道是垃圾设备,后续就不太用这些渠道。
第二可能需要一个应用场景用以验证。比如广告投放场景中,用了我们的标签后,发现结果没改善,或者改善不明显。我们就会回过头来看标签生产过程是不是有问题,再往后推数据会不会有问题,应用场景越多,数据质量检验的方式越多。
我们认为在某个场景中应该有效果但实际没有的,往往会去追究其原因。实际上,这个过程能帮助我们把数据质量不断做好,有时候会发现这是系统性的原因,系统修好后,数据质量问题就解决了。
整个过程有两层,一层是统计级别,第二层是在应用级别做质量把控。
雷锋网:多少天没效果就会怀疑数据质量问题?
李丹枫:
比如投放,一般投放几天到一星期,几天到一星期没有效果,我们判断是模型的原因是数据的原因,这个跟场景相关。比如风控周期会长,一般 30 天逾期、90 天逾期,今天贷了款可能 6 个月之后才用还,我需要等 6 个月才能发现这个问题。当然我们做这个模型时,会有一些历史的数据,用历史的数据来检验,如果发现历史数据一点效果没有可能就会有问题。