归因分析可能是广告技术中最复杂的一个问题,其复杂来源几个方面:难建模,难验证,难应用;但从另外一个方面说,它又是重要无比的,它可以帮助回答“我的50%广告费用都浪费在哪里了?”,我的广告预算分配如何更加合理?
虽然,本篇文章会假模假样的建立几个科学模型,把问题讲“清楚”,并且试图解决之,但是,这个状态离真正的验证和广泛应用还是有一段距离。
这有点像我们的中医,理论听起来有模有样,诊疗也是煞有介事,至于疗效是否有因果关系,并非可以通过经典科学实验可验证。这个问题本身就是非线性的问题,但是,道长且阻,行者将至!
归因分析(Attribution Analysis)要解决的问题,就是广告的Conversion的产生,其功劳应该归功于哪些渠道;举个例子,广告主投放了信息流广告,搜索广告,视频广告,转化(Conversion)很多都直接发生在搜索广告中,那么这些Conversion完全是搜索渠道功劳么?
其实未必,很多转化都是用户在观看视频广告/信息流广告之后,引起用户注意,而后用户做了大量研究后,最后一次转化发生在搜索引擎渠道中而已。
因此,在PC时代,搜索引擎收割各个营销渠道的成果,成为了一个不争的行业秘密。
下面图示意了这个简单的过程,目前大部分人在手机上的时间已经超过了PC时间,虽然手机上的推广对人们会有直接的影响,但这些转化的落地往往在搜索和垂直电商网站。
所以,搜索引擎的每一次转化,实际上是和之前渠道的的投放是密切相关的,那么到底有多相关,就是归因分析要解决的问题。
首先,介绍一下几种归因分析模型,假设广告触点,依次发生在渠道1,2,3,4,最后发生了转化,如何将转化归功于几个渠道。
比如说,Last Model就是认为最后一个渠道的贡献是100%;Decay Model认为贡献程度随着时间而衰减,越接近转化的渠道,程度越高。
上面几种模型,权重分配听起来都比较武断,并非根据数据计算出每个渠道的权重,无法直接指导投放的优化。
因此,很多学术同学,对这个问题深入研究,并且做了一些模型。今天,介绍4种模型,分别
夏普里值(Shapley Value)
生存分析(Survival Analysis)
通径分析
马尔科夫链
方法一,夏普里值方法
夏普里值(Shapley Value)指所得与自己的贡献匹配的一种分配方式,由诺贝尔奖获得者夏普里(Lloyd Shapley)提出,它对合作博弈在理论上的重要突破及其以后的发展带来了重大影响。如果对夏普里不熟悉的同学可以看看下面的例子:
约克和汤姆结对旅游。约克和汤姆准备吃午餐。约克带了3块饼,汤姆带了5块饼。
这时,有一个路人路过,路人饿了。约克和汤姆邀请他一起吃饭。路人接受了邀请。约克、汤姆和路人将8块饼全部吃完。吃完饭后,路人感谢他们的午餐,给了他们8个金币。路人继续赶路。
约克和汤姆为这8个金币的分配展开了争执。汤姆说:“我带了5块饼,理应我得5个金币,你得3个金币。”
约克不同意:“既然我们在一起吃这8块饼,理应平分这8个金币。” 约克坚持认为每人各4块金币。为此,约克找到公正的夏普里。
夏普里说:“孩子,汤姆给你3个金币,因为你们是朋友,你应该接受它;如果你要公正的话,那么我告诉你,公正的分法是,你应当得到1个金币,而你的朋友汤姆应当得到7个金币。”
约克不理解。
夏普里说:“是这样的,孩子。你们3人吃了8块饼,其中,你带了3块饼,汤姆带了5块,一共是8块饼。你吃了其中的1/3,即8/3块,路人吃了你带的饼中的3-8/3=1/3;你的朋友汤姆也吃了8/3,路人吃了他带的饼中的5-8/3=7/3。这样,路人所吃的8/3块饼中,有你的1/3,汤姆的7/3。路人所吃的饼中,属于汤姆的是属于你的的7倍。因此,对于这8个金币,公平的分法是:你得1个金币,汤姆得7个金币。你看有没有道理?”
约克听了夏普里的分析,认为有道理,愉快地接受了1个金币,而让汤姆得到7个金币。
我们如何用这个方法来分析不同渠道的贡献度呢? 下面是一个例子,
假设有3个渠道:信息流(A),开屏(B),视频前贴(C),他们的独自投放效果和两两投放效果如下图所标识。
下面,我们来计算,每一个渠道的夏普里值,夏普里值的定义:是在各种可能的联盟次序下,参与者对联盟的边际贡献之和除以各种可能的联盟组合。
三个渠道,有3*2种联盟次序,具体计算如下:
因此,信息流的夏普里值为20,开屏的夏普里值为33.3,视频前贴的夏普里值为46.6。
方法二:生存分析方法(Survival Analysis)
生存分析(Survival analysis)是来源于医学研究的一种方法,指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。这个方法在医疗处理领域也比较成熟,可以通过以下的映射到归因分析;
病人==>Impression
治疗方法==>渠道
死亡==>转化
在实现分析中,可以使用COX回归方法,COX可以对多个因素进行分析;COX回归方法和逻辑回归LR有些相似的地方,通过训练过程找几个参数,不同的是COX回归中考虑了时间的因素;通过COX回归计算,可以算出每一个渠道的权重。
方法三:通径分析(Path Analysis)
通径分析的基本原理是美国学者赖特(S·Wright)于1921年创立的。通径分析是指利用通径系数分析变量间相关关系的方法。
通径分析是进行相关系数分解的一种统计方法。
它的意义不仅在于揭示了在多个自变量x1,x2,…,xm,y的相关分析中,xi对y的直接影响力和间接影响力,而且还可以在x1,x2,…,xm,y间的复杂相关关系中,从某个自变量与其他自变量的“协调”关系中得到对y的最佳影响的路径信息,即从复杂的自变量相关网中,得到某个自变量决定y的最佳路径,具有决策的意义。现通过实例说明通径分析的方法与步骤,并进一步了解通径系数的意义和应用。它的本质也是基于概率的一些计算。
方法四:马尔科夫链
马尔科夫链模型来自于数学家Andrew Markov所定义的一种特殊的有序列。
马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。
这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”。
在应用当中,序列中的每个点通常映射为一个广告触点,每个触点都有一定概率变成真正的转化。
通过这种建模,可以选择最有效,概率最高的触点路径。这种方法需要较多的数据,计算也比较复杂。
“哲学是用来解释世界的,而重要的是改变世界”--马克思
那么我们得出各个渠道的重要程度后,我们如何使用这些权重是非常有趣的,因为这些渠道都是相关的,需要程序组合一套方案,达到效果推广最佳。但是,这些影响力实际上也会发生很大变化:
1.时间变化而变化:例如人们对一些广告,容易在时间轴上产生疲软;
2.人群变化而变化:例如洗人群后,效果变化很大;因此,广告花费在一个渠道的过渡增加,往往会影响效果。
介绍几个知名归因分析公司:
1Google Attribution 360:
Google Analysis Suite 360中有一个重要模块就是Attribution,这个产品是收购收购了Adometry公司之后,全新打造的新产品。
这个产品使用起来非常复杂,需要专业的培训才可了解。它支持以上大部分归因分配模型,例如Last Model, Decay Model,customized Model等。
2.VisualIQ
Visual IQ是一家全球领先的跨渠道营销归属软件公司。公司在2006年成立。
公司的IQ智能套件可以为用户提供市场数据见解,行政级别和从业级别建议,以提高自己的营销业绩。
Visual IQ是一家专门研究营销信息管理方案、利用数据以及消费者经历的每一个营销触点对一个客户整体营销目标的影响的科学计算和衡量方法的公司。
Visual IQ采用信息管理归纳方案的方法收集数据,然后利用分析模型,计算和量化消费者的购买习惯的方法,去分析数据,整理出最适合企业的广告方案。
3.Convertro
Convertro 主要利用数据分析,帮助营销人员了解哪些类型的广告导致了客户的购买。
AOL与2014年收购了这家公司,收购时间与谷歌收购Adometry非常接近。AOL可以利用 Convertro 的技术,告诉广告主他们的那些广告取得了更好的效果,例如,是 AOL 网站主页上的横幅广告,还是《赫芬顿邮报》网站某视频下方的广告。Convertro 还可以检测电视或电台那一时段的广告导致了客户购买。
4.AppsFlyer
移动的归因市场应该是刚刚起步,有几家公司开始这方面的工作,包括App推广渠道的跟踪,跟踪效果可以直接对接各种广告平台;国外的应用市场比较单纯,Android是Google Play, iOS是App Store。
AppsFlyer是一个以色列公司,在移动App方面,起步比较早,在行业中也做的比较领先。
//移动归因其实是一个非常有趣的话题,找个时间,单独好好聊聊。
总结的话
归因是一个大问题,帮助分析广告传播的效果,更加系统的分析效果贡献程度,效果形成的路径,传播的方式等方面,帮助广告主优化预算的花费,最大化传播效果和转化效果。
End.
作者:欧阳辰