专栏名称: 拓扑社
拓扑社是IT桔子旗下专注企业级服务的垂直媒体,关注和报导To B市场的新产品、新趋势、新观点,传递企业服务价值。
目录
相关文章推荐
投行业务资讯  ·  一IPO辅导验收! ·  昨天  
现代财经  ·  《现代财经-早读早分享》2024年11月23 ... ·  4 天前  
现代财经  ·  《现代财经-早读早分享》2024年11月23 ... ·  4 天前  
天使调研  ·  11月20日 天哥算法推演 ·  6 天前  
天使调研  ·  11月20日 天哥算法推演 ·  6 天前  
点拾投资  ·  ETF新时代,沪深300指数仍是市场焦点 ·  6 天前  
51好读  ›  专栏  ›  拓扑社

办公室选什么颜色能提高员工效率?Google将AB测试的作用发挥到了极致

拓扑社  · 公众号  · 科技投资  · 2017-06-22 19:00

正文

分享嘉宾:吆喝科技 创始人&CEO 王晔

内容来源:第54期拓扑秀

编辑:拓扑社 成琨


吆喝科技是一家A/B测试云服务提供商,其产品AppAdhoc A/B Testing是国内领先的A/B测试云服务平台、国内唯一同时支持前端及后端AB测试云服务的专业SaaS平台。产品、市场以及运营人员可以通过数据验证最佳方案并发布,提高效率的同时降低决策风险。自2016年5月17日商业化版本上线以来,已为近千家用户提供AB测试云服务,参与试验的独立设备超5亿部。


第54期拓扑秀“FreesData”邀请到吆喝科技的创始人兼CEO王晔,为大家分享“AB测试驱动业务优化与科学决策的应用场景”,以下是分享内容,约4700字,enjoy~


大家好,我是吆喝科技的创始人和CEO王晔,今天的话题是关于AB测试大数据领域实践时,如何能够帮助业务的增长和优化,不会太聚焦在AB测试的原理上,更多的是将AB测试的思想再提高一层,用在决策之中。


这里是我的一些个人经历:


我的老东家Google是一个非常典型的用数据驱动决策的公司。大数据和数据的区别在于,数据一般是通过采样调研所获取的,通过样本数据来分析、理解整体,而大数据是我们把所有的数据尽可能地汇聚起来,然后直接去理解我们的用户和业务。AB测试不仅用于Google的主营业务,比如搜索、广告等,还有一些副产品像Gmail、地图、YouTube、Android等,Google甚至会把这样一种思想用在企业内部像HR方面的一些决策之中。可以想象一下,如果HR希望决定给员工同事们提供的餐盘到底是大的好还是小的好,原来的做法可能是调研分析,但Google会采用做试验的思想,分别在一些餐厅用大盘子、小盘子以及混合搭配,一段时间后来统计去不同餐厅的员工的健康情况,比如说采集病假数据,最后实验结果很有意思,大小盘子的搭配对员工的健康是最理想的,而且一定是少量的大盘子加上大量的小盘子。


通过做对比实验来帮助我们理解如何做决策,也就是AB测试的方法,它在实践中解决了一些层面的问题,比如个人随性决定、目标不明确、投入与产出不符等。比如尝试不同的办公室主题颜色,然后通过AB测试来对比到底什么样的颜色会让员工的工作状态更好,从而不断地优化提升自己业务。当然,做对比实验,用数据对比看结果,不断地去找更优的策略,这种实验方法也十分普及了,大到国家政策试点研究,小到我们平时做事情会先找一些样本用户进行尝试,都是这个思想的体现。但是在Google发现最好的实践方法还是严格的AB测试,AB测试是只改变一个条件的单盲实验,是一个组间分离实验,它有对照组、试验组。


AB测试和一些简单试验方法最大的区别在于AB测试的科学性,试验组里采样的用户应该是具有很强的代表性的,覆盖全量用户,是大数据性质的,而不是随机采样。比如得到的试验结果是试验组会有8%的转化率,它会提升5%的业务增长,把试验组的结论应用到全局用户时,也能够得到非常近似的结果,这是AB测试最大的一个优势。有些人会问:我原来的一些方法与决策思想是能让业务正常运转的,那为什么要用AB测试?其实大数据更多的是帮助我们提高效率来增加单位产出。当员工的单位产出提高了,再去理解用户就能不断有新的想法来提高转化率,反复驱动我们做新的尝试。


AB测试不断迭代优化的思想和互联网产品的MVP迭代思想是高度吻合的,并且在实践中融为一体。这张图是想说明互联网产品思维和传统产品思维的不同, 在传统产品思维中,用户需要一个像保时捷一样优秀的产品,那么就应该使用保时捷的轮子、底盘、车身以及包装,最后生产出保时捷交付给消费者,这个模式有时候被称为软件工程模式,很多优秀的软件产品都是通过这种方式诞生的,Microsoft Office、Photoshop等。这样的工作流程当然也很好,但是由于产品诞生周期太长,有一个明显的劣势,也就是要求业务人员(无论是你是产品、技术还是销售负责人)提前18个月到36个月来理解未来的用户需求,这其实是非常难做到的。


而最下面一行,互联网人交付保时捷的思维方式就很不一样。互联网人首先会理解需求的本质,用户需要一辆可以开的车,所以最初交付给用户的产品就是一个简单的汽车;在互联网上获得了用户,我们通过大数据等手段进一步了解到用户还有别的需求,于是可以做一些AB测试,一步步改进和优化;最后你可能会觉得几乎没有新的想法了,但实际上你会发现更高端的用户希望这辆车可以很帅,我们就可以把这辆车打造成保时捷一样,继续改进与提升业务。当然,一定要避免这种形而上学的说法——互联网思维即快速交付、不断迭代,否则会有可能就会走向中间那条路,不是用数据来说话,而是每次大胆盲目地改变,先给用户一个滑板车,再猜用户会不会喜欢自行车,接着是摩托车,最后是汽车。这个过程大都会中途失败。


从理论回到现实,做数据工作的人肯定会关注很多的业务数据,下面是从数据中发现的一些问题。


对此,应该如何进一步优化和增长呢?我们可以通过AB测试来解决。在实践中,首先,通过大数据的方法进行统计和分析用户的喜好,来寻找增长机会,提出一些假设,通过AB测试试验进行尝试,然后,通过对比试验的结果来验证真否真的如预想对用户行为进行了改变,最后,将验证成功的策略发布给所有的用户,废弃或重新改进没有通过验证的想法。


当然前面所说的这种方法不是一个单链条,而是一个很典型的一个闭环,这其中有很重要的三点:实施(build)、测量(measure)、分析(learn)。你通过分析得到的一些想法可以通过代码的形式去实施,一套好的AB测试工具可以帮助你较低风险、较快速地上线,得到一个准确科学的结论,进而帮助你进行数据分析。


下面从决策层面来看,当我们有一个比较完善的AB测试工具之前,决策大都依赖一些比较简单的形式,比如说由意见领袖拍脑袋决策、民主投票,或者是传统科学决策比如咨询、逻辑推理等。很明显这里存在很大的不确定性,并不是说它不好,而是我们没有办法预知决策大面积实施后的效果如何。


我特别喜欢举的一个例子是苹果公司在2000年做的一个重大决策,当时乔布斯刚回到苹果没多久,苹果公司压力非常大,各个业务线都显露颓势。而乔布斯把很多的资源放到了一个叫mp3播放器的项目上。这个播放器很大、很重,功能单一,而且价格大概是市面上其他播放器的10倍。当时没有办法抽取一定流量做科学的AB测试,所以这个决策是拍脑袋决定的。比较有意思的是,当时很多人都在奚落苹果,说这个播放器肯定会是一个糟糕的产品,但是没想决策产生的结果却非常好。过了几年,mp3这个词几乎已经消失,但iPod却依然存在。


拍脑袋决策有时会出人意料的好,但有时候也会出人意料的坏。以黑莓公司在大概2009年所做的一个决策为例,黑莓的老板非常认可苹果的思想——未来会是移动App的天下,但是他认为将来最重要的App肯定是email。于是,他让黑莓手机完全以email为核心来服务自己的用户,可以看到这个决策的结果非常糟糕,黑莓手机的用户已经慢慢从市面上消失。


于是,有很多与传统业务决策方式不同的思想诞生了,像Google完全依赖数据方法来做决策,尤其是AB测试。我在Google的时候参与过一个图片广告的项目,当时图片类营销网站特别盛行,于是Google内部的销售和业务人员有一个判断:如果给广告主提供一个商品图片露出的机会,尤其是汽车行业、航旅行业等,广告主肯定会很有兴趣,可能会给他们带来更多的点击与营收。这个判断听起来有一定道理,那么结果到底是像黑莓一样还是像苹果一样呢?


Google做法比较直接,选取一定流量进行AB测试,让10%的用户可以看到图片广告,与其他看不到图片广告的用户版进行对比,看前者是否会有更好的收效。大家可以看到,与传统决策不同,我们既可以输出自己的判断,也会通过做实验的方法进行测试,并且是部分流量测试,所以不会影响到大多数流量。最后的结果是:如果上线图片广告,数据显示广告营收会下降,虽然只有百分之零点几,但Google依然放弃了这个项目。


这种依赖大数据或AB测试的决策方法已经被越来越多的新一代企业所采用,像Uber、Stripe、Airbnb,还有像国内的滴滴等。比如滴滴曾经公布过一个非常有意思的试验:关于滴滴的地图缩放大小,地图上到底展示几辆车才是最好的。滴滴通过试验,几个版本的地图分别能展示几辆到几十辆车,然后通过AB测试来收集、对比用户行为数据,最后来决定地图缩放的合适大小。这个试验有点像Google的第一个试验,关于一次应该给用户展示多少条搜索结果,当时这个试验失败了,后来Google花了三年时间构建了一套比较完善的AB测试试验系统,可以支持大规模、高并发地去实施,最后提高了效率和产出。


通过上面的例子我们可以看到,要把AB测试驱动决策这件事情落地,就需要在原来的工作模型上加一个质疑的环节,也就是在发现和确定问题之后并不是立刻提出解决方案,而是提出假设,用试验来验证假设,采集的数据更加针对于具体的问题与策略。有时候这个策略可以简单到一个文案的变化,也可以复杂到改变算法逻辑,不断地总结和改进我们的思路。


下面来说一些更加落地的案例,AB测试在在哪些场景被广泛地使用呢?典型的例子集中在数字化、信息化程度已经比较高的行业,内部的ERP管理、资源管理等都可以用到AB测试。比如金融行业,关于风控的决策,到底是电话审核还是短信审核能够更好地提高贷款审批流程的效果;或者物流行业,应该如何去调配资源从而使成本最低;还有一些人力资源比较密集的行业比如教育行业,该如何做资源匹配;甚至比如O2O行业如何派单等,都可以通过AB测试进行优化。


另外一个应用最为密集的场景是灰度发布或批量发布,尤其当服务的客户量很大、运营压力很大时,不会希望新版本直接面对所有用户。一般会先发布给小量用户,然后通过数据的方法去判断业务压力和业务数据如何,如果情况比较好,再把它推给更多的用户,比如20%,接着再到50%、80%,直到全量发布。这个场景最大的好处是,本来就需要逐渐向用户推出产品来保证平滑稳定、不容易出故障,或者出了故障也很容易控制等,那么在满足这个需求的同时做AB测试,更能帮助企业做决策。


还有一个很典型的场景是定价,比如一个旅馆的八折价格为75美元一晚,那么怎样的展示方式会更容易抓住消费者的心,营销学专家可能会说,男性消费者会倾向于展示价格为75美元,而女性客户会被打八折所吸引,这样的说法可能来源于经验,看似很有道理。但是实践之中,只有做具体试验才能够知道哪种方式对企业的用户群体是最具吸引力的,最终找到一个转化率最高或用户最喜爱的方式,就可以不断提升具体的KPI。


接下来我举一些吆喝科技的实际客户案例,大家可以从中了解AB测试在实践之中到底能带来什么样的业务增长。首先是微软中国的例子,微软商城有一个很典型的业务指标——希望用户更多地浏览商品并下单,那么到底可以做些什么事情来提升这个频率呢?其实可以做很多假并用AB测试来检验。其中一个假设很有意思,原来在商城里有一个热门商品的推荐位,可能发现,其实来这个微软商城采购的人对热门商品并不敏感,他对微软产品本来就很熟悉,希望更快地找到自己想要的东西。针对这样一个洞察来做试验,把热门推荐换成具体的商品目录,结果是商品点击量提升了五倍以上,也带来更多的订单。如果不去做AB测试的话,并不能确定这个假设是否成立,而AB测试能让你更清晰地看到用户特征,然后就可以围绕新得的知识再去做新的假设与优化。


吆喝科技的另一个客户是参考消息,这个实验场景其实借鉴了很多互联网公司、技术公司的思想,很多互联网媒体在给用户提供内容时,会推荐相关内容或用户可能感兴趣的内容,让读者停留的时间更长。我们都知道媒体的营收和广告的浏览点击息息相关,互联网公司会利用一些很牛的算法来了解用户的喜好,以此来推荐相关文章。那么推荐算法的效果到底如何呢?参考消息编辑部主导了一个AB测试试验,给A组用户推荐编辑选的文章,给B组用户的是算法推荐的文章。最后的实验结果很有意思,在其中一个渠道里面,原始版本也就是编辑所推荐的文章是非常好的,比算法推荐还高21%,这样的结论比较出乎意料,也表明在实践中,通过做试验可以避免盲目地采用算法,至少在某个渠道上减少不必要的损失。


对于大数据理解比较深刻的互联网公司来说,AB测试的方法就比较熟练了。比如像追书神器这类用来看书的App,对调“开通包月”与“购买章节”的按钮,对比“开通包月”按钮的转化率,最后发现试验版本提升了1.5倍以上。可以看到,AB测试实验所带来的增长,是确定性的增长。


新一代的航旅企业对AB测试也有很多心得,比如携程内部每年都会有AB测试文化周,鼓励大家多想一些创意,多根据实验来理解用户,针对此做一些分享与交流。携程每年的业绩也都不错,股价节节上升。除了携程之外,比如我们的客户iGola也做了一个试验,它通过自己的数据发现用户希望能非常方便地查看自己的行程单,当把行程单在界面上时刻显示出来时,用户前往订购页面的转化率提升了5%以上,下单率也提升了2%以上。


前面所举的例子都是流量或流水比较大的这种业务,其实即便是在一些很小的场景,比如有些业务量没有那么大的公司,它的网站入口端也是很值得去优化的,因为在漏斗的最初肯定是有很多用户的,如果能够在这个阶段做优化,最后的沉淀是可以直接反映到最后的销售业绩中去的。比如北森,他们针对官网做AB测试时,专注于官网注册表单的转化率。有些尝试并不成功,但是也有非常成功的案例,比如简化注册页面,让访客能够更加专注于填写信息,最后转化率大概提升了50%。


总而言之,AB测试是大家都知道的一种科学的试验方法,它也有很多可以在业务实践中落地的应用,我的分享更多是在后者。吆喝科技专注于AB测试的产品和服务,已经帮助了几百家企业客户,让它们能Google、Uber一样通过AB测试来促进业务决策,避免盲目自信或过于怠惰,应该用实验的方法找到最优的业务改进路径,并不断优化,最终得到KPI的增长。


END


推荐阅读

拓·灼见

拓·海外