专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
数据派THU  ·  【NeurIPS2024】迈向统一的多模态编 ... ·  4 天前  
数据派THU  ·  原创 | ... ·  6 天前  
大数据分析和人工智能  ·  知乎上的45个神回复 ·  1 周前  
51好读  ›  专栏  ›  AI前线

增长黑客创业公司中的数据清理和用户行为分析技术

AI前线  · 公众号  · 大数据  · 2017-06-01 16:43

正文

增长黑客是大数据目前的一个典型应用。从领英出发,到创业公司不断涌现,无不说明“增长黑客”概念得以被大众广泛接纳。神策数据就是这样的一个创业公司,InfoQ 采访了神策数据的创始人和首席架构师付力力,以此了解这类公司使用中的数据清理和用户行为分析的一些技术。

付力力,神策数据联合创始人兼首席架构师。神策数据是一家致力于帮客户实现数据驱动的公司。公司主要的产品是神策分析,是一款可以私有化部署的用户行为分析产品。

   InfoQ:在创业之前您在百度工作过 5 年,能回顾一下那段经历么,对您创业来说有哪些帮助?

付力力:百度是我的第一份工作,我在大三实习时就加入百度,前后工作 5 年。百度对我的职业生涯影响非常大,百度的工作习惯、工作方式和同事之间交流沟通的开放性都是对我个人以及神策数据的团队文化都有非常大的影响。神策数据绝大部分员工都来自百度,尤其是工程师团队,神策数据本身大部分技术积累是在百度完成的,我们在百度做的事情和现在在神策公司做的事情是一脉相承的,从这个角度来讲如果没有百度就没有神策数据公司。

   InfoQ:神策数据的目标客户是怎样的,怎么确定的目标客户?

付力力:广泛的讲,所有需要数据驱动的公司都可以是神策数据的目标客户。从我们目前 300 多家付费客户来看,我们的目标客户分布非常广,并没有明确的行业或者说非常窄的垂直的限定,但是客观来说,我们在不同阶段都有重点开拓的行业,比如最近重点关注的是金融、电商、零售行业。但是我们并不限定于具体某个行业,神策分析这个产品设计是普适化的用户分析产品,并不局限为某个行业去做服务。

   InfoQ:那神策数据的产品理念有哪些方面?

付力力:非常强调一点就是,神策数据不止是 BI 分析或者数据分析产品,并不只是为了产出几个简单的报表数字给客户或者给用户看。我们更强调整个数据体系的建立,我们希望的是,数据能够贯穿在客户的整个生产运营和应用环境中,帮客户真正实现真正意义上的数据驱动,我们从数据源阶段开始,帮客户进行业务梳理,帮客户根据业务特点,建立好数据基础,在此基础上才开始建立包括数据分析,实现进一步的深入的数据挖掘、推荐、个性化等等各方面的应用。所以神策理念在于帮助客户实现数据驱动,而不是提供简单的数据统计分析的服务。

   InfoQ:那您认为现阶段的产品和技术的壁垒都包括哪些呢?

付力力:神策分析在设计上,跟上一代数据分析产品本质上还是有比较大的区别。

首先,上一代数据分析产品都会基于一个理念,就是数据需要经过预先的定义和计算,必须事先知道想要计算什么指标得到什么样的数据,才能够去提需求。然后数据经过技术部门的程序预算,得出一个报表,这就是传统的数据团队产出的方式。

但是神策数据的理念是,希望整个数据产出方式完全自主化,需要数据的人应该有能力并且能够非常简单地产出他需要的数据,也就是说在基础的数据,采集数据建模完成之后,所有需要数据的人,不管是 CEO、分析师、产品经理,还是程序员,都通过神策数据直接找到自己想看的东西,神策数据为了实现这个目标提供了非常灵活、非常简单的一个分析引擎,它能够高效地直接从原始最细粒度的数据里产出任何需要的数据,而不用做预先的聚合。

比如说不管你是想看产品整体的流量还是想细分地看每个地区、每个子频道、每个子产品、每个用户分群的流量,都可以非常简单地实时地在界面上通过交互的方式得到,而不用预先把指标和维度的需求提给相关的产品或技术部门,然后经过研发后才能够得到。这是神策数据和其他上一代分析产品比较大的区别。这主要是神策本身设计的理念和产品特性,并不是说这个东西会构成多强大的壁垒。神策数据用的绝大部分是开源的技术,所以这方面的数据壁垒一般不会超过 3 个月。竞争对手如果一定要按照我们的方式来做的话,可能 3 个月就能赶上我们同样的水平。所以真正技术上的壁垒在于神策本身团队对技术不断地投入,这才是真正意义上的勉强称为壁垒的东西,而不是说做完之后不动能够成为壁垒,这个是不太现实的。

   InfoQ:那现有阶段神策的数据源都包括哪些呢?

付力力:神策数据是一个比较普适化的用户行为分析产品,所以神策数据能够采集的数据源是比较广的,广义来讲分为两部分:线上数据与线下数据。

线上数据,也就是线上的一些行为操作包括用户在网页上的浏览,包括在 APP 上的点击、浏览等购买下单的操作,这些是传统的用户行为,也是比较容易被采集的。线下数据的采集相对其他数据分析产品,比较独特。用户在线下的便利店、3C 电器店购买商品,7 天之后发生退货或者上门维修的行为,这些数据都可以被采集,并作为一条条用户行为数据进行分析。只要符合用户行为的定义,都是可以被采集到神策分析进行深度分析的。

   InfoQ:有了数据源之后,神策数据其实是一个用户行为分析的产品,在用户行为分析的算法方面,有没有什么发展的计划?

付力力:神策目前来讲提供了八大数据分析模型,包括事件分析、漏斗分析、留存分析、分布分析、用户路径、点击分析、用户分群、属性分析。经过我们调研和抽象,这些分析模型是绝大部分行业和客户,都是有普遍使用价值的。

不同行业具有特殊性,我们之后会在特定领域中进一步加强分析模型,比如针对电商、针对金融领域的证券银行等。电商还会细分为平台型电商和垂直电商等,因此不同行业、不同产品都有不同的行业特征,不同的行业特征会导致不同的算法模型。

   InfoQ:你刚才提到了就是很多电商行业,包括就是其实是用户数据的分析,那这些行业,我理解用户数据其实是比较敏感的数据,那我们是怎么展开这种数据方面的合作的呢?

付力力:神策数据的一大原则是神策数据不直接接触客户数据。我们提供两种部署方式,一种是私有化部署,部署在客户业务的网络环境中,另外一种是 saas 服务。神策更多提供的是分析模型,加上数据能够帮助客户做决策,这两种服务神策数据都不会去主动接触任何客户的数据。

   InfoQ:那么私有化的部署成本会不会比较高?

付力力:私有化的部署成本其实肯定是比 SaaS 要高,因为 SaaS 不存在任何的部署成本,但是这个问题,还是要看具体情况。比如现在绝大部分客户已经在用各种公有云,比如像阿里云、AWS 或者 UCloud,在这些产品上,我们都做了标准化的一键部署的方式,因为他们的环境本身也是标准化的,所以在类似阿里云的标准环境上,我们的私有部署是可以实现一键部署的,所以在这个前提下基本上是没有成本的。另外一些客户,他们会有自己的 IDC 或自己私有的环境,这种环境的确部署成本会高一些,但是是一次性的,对我们来讲并不是一个大的问题。

   InfoQ:刚才也提到了神策数据的一个技术壁垒,就是持续不断的投入,那么您认为技术方面神策未来的发展重点是什么呢?

付力力:神策数据在未来的一段时间内,还是会专注于用户行为分析,沿着这一条技术栈持续往前去做,具体上可能还是包括两部分。

一方面,在基础平台上面,我们的底层数据架构,包括导入、存储、查询这一层,我们会在性能、稳定性、可靠性上都做到最佳,我们会在这方面持续投入。

另一方面,在数据应用层,包括我们现在的各种数据分析模型,尤其是我们现在的绝大部分的数据分析模型,其实还是一个辅助决策的作用,它的效果是非常依赖于使用人员的水平,就是你需要用的好,才能得出比较好的结论,才能帮助你的产品做出改进和提升,然后我们后面会加入更多的这种比如说基于人工智能,基于数据挖掘的算法,来实现半自动甚至全自动的数据决策,能够更好地节约人力成本。

   InfoQ:您刚刚提到人工智能,那么您是如何看待大数据和人工智能两者的关系,神策数据未来的发展计划中,是已经包括了,用一些 AI 的算法的计划是吗?

付力力:神策数据会在这方面持续投入:

一方面是人工智能或者说 AI 技术能够帮助数据本身的分析和决策,变得更加自动化和智能化,很多时候需要靠人工去发现数据上的问题,或者得出数据结论,是可以通过算法来去做半自动或者全自动的推导得出的,这是非常直接的应用。

我们已经在做类似的事情,比如智能预测,根据其他用户之前流失的情况来预测一个还没有流失的群体,预测一个用户群体流失的概率,然后得出这个结论让客户去参考,这是一个比较典型比较直接的应用。另外神策数据非常强调数据的价值,不仅仅在于能够做数据分析,我们花很大力气去帮客户建立基础数据平台,采集各种各样的数据源,把数据变成非常干净、整洁的数据表。

另一方面,其实我们还是希望这些数据能够为更多的应用,比如说最简单最通用的可能就是推荐算法,或者是一些其他的反作弊的算法,或者说是广告的精准的一些投放算法,为这些东西去服务,去提供数据源,因为你不管是做什么样的人工智能的算法也好,最基础的东西肯定还是数据源,如果你没有一个干净可靠的数据源的话,你不管用什么算法,得出来的算法的结论,肯定都是会偏差非常大的,所以神策至少是在数据源这一点上,相当于是为进一步的人工智能的应用打好了基础。

   InfoQ:您刚才提到了干净的数据源,而且之前也说,神策数据其实重点是,用户行为分析产品,那有没有考虑说把数据源清理这一块,单独作为一个产品或者作为一个应用点呢,因为据我了解人工智能有一个很大的障碍其实就是来源于数据质量这一块,就是我们其实在应用过程中,可能 80% 的时间,都花在数据清洗上,那么神策数据有没有考虑说把数据变成干净的数据源的过程,变成一个单独的产品呢。

付力力:确实曾经有不少的客户,来问过我这个问题,原则上的确是可以卖的,但我们现在的确还没有作为一个标准化的产品来提供。我们最初的设计目标是希望通过数据分析这样一个比较普适、容易理解的产品,销售神策分析整个架构。神策数据表面上看是一个数据分析产品,但是底层也是包含这个架构的。因此这个可能性的确存在,可以两两组合去卖,可能是单独去卖。但是从目前来讲,我们现在觉得这个时机还不是特别成熟。

   InfoQ:在分析层次,你刚才也说了我们还是可以做一些别的产品,比如说像推荐,像反作弊,我理解这个产品应用的层次,还有用户行为分析的层次,是相同的层次吗?

付力力:可以这么理解。简单来说它可以都认为是底层的用户行为数据的上层应用,当然每个应用,其实都需要花很大的精力,需要有很多的投入去做这个事情,才能把它做好。但是神策数据目前还是个非常小的团队,研发才不过 20 个人,所以我们肯定还会非常专注于现在手头的事情,也就是说用户行为分析,以及相关的底层架构的搭建。而且并不是所有相关的事情都一定要我们自己去做,我们可能会采用一些跟第三方合作的方式,然后给客户提供这种相关的服务,包括推荐、反作弊、广告等,都是有可能的。如何深挖数据价值,让数据驱动落地企业,了解更多数据分析行业应用场景,可点击阅读原文。