专栏名称: AI数据派
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
目录
相关文章推荐
51好读  ›  专栏  ›  AI数据派

从“马蜂窝事件”看,投资人如何避免数据尽职调查背后的交易风险?

AI数据派  · 公众号  ·  · 2018-10-29 07:30

正文

来源:Career In 投行PEVC

本文约 4400 字, 建议阅读 10 分钟。

本文列举三个互联网行业典型场景,帮助投资人对相关问题有一个更为感性的理解。


10月21日,一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》在社交网络广为流传,该篇文章作者乎睿数据团队直指在线旅游网站马蜂窝存在点评大量造假的情况,包括从其他网站如大众点评、携程等抓取相关点评,及自建团队撰写虚拟点评。


根据马蜂窝官网提供的数据,目前,马蜂窝全站拥有超过2100万条点评,是马蜂窝对外展示的核心竞争力之一。如果乎睿数据团队的指控被坐实,马蜂窝一直以来强调的用户PGC神话将被打破,或将严重影响这只旅游独角兽的估值。


马蜂窝官网提供的数据


马蜂窝成立于2006年,创办初期,马蜂窝是一家让旅行者分享游记感受的旅游攻略社区;2012年开始,马蜂窝对积累下的旅游数据进行结构化处理;2015年初,马蜂窝发布自由行战略,开始尝试“内容+交易”的商业闭环。


回顾马蜂窝的发展历程,无论是最初的旅游攻略社区定位,还是如今正在打造的商业闭环,内容都是马蜂窝区别于其他在线旅游网站最大的竞争优势之一。 而马蜂窝背后集聚了市场上最牛逼的一线PE和VC基金们。


2006年01月:蚂蜂窝网站上线;

2010年03月:正式成立公司投入运营,注册用户数15万;

2011年04月:上线首款APP客户端旅行翻译官;

2011年10月: 获得 今日资本500万美元A轮融资和200万美元无息贷款;

2012年06月:开始商业化,半年收入超千万,主要来自广告及佣金分成;

2012年10月:注册用户数超过400万,PC端用户数在3年内增长40倍;攻略累计下载量6000万次;

2013年04月: 获得启明创投领投的1500万美元B轮融资;

2014年06月:注册会员数突破5000万;

2015年02月: 获得高瓴资本、Coatue、CoBuilder、启明创投的C轮融资,累计融资逾亿美金。

2015年09月:蚂蜂窝用户数1亿,其中80%的用户来自移动端(蚂蜂窝自由行APP);月活跃用户数达8000万。

2017年12月: 获得鸥翎投资、美国泛大西洋资本集团、淡马锡、元钛长青基金、厚朴基金共同投资1.33亿美元。

2018年8月17日:外媒报道称,两位知情人士透露,蚂蜂窝希望在新一轮融资中筹集至多 3亿美元 ,此轮融资对该公司的估值定为 20亿至25亿美元



马蜂窝丑闻事件不禁让我们想起了前不久的红芯浏览器事件。


在今年上半年的博鳌亚洲论坛期间,马蜂窝联合创始人、COO吕刚在接受腾讯《一线》专访时便曾表态,在从内容切入交易的过程中, 马蜂窝的最大优势在于之前几年对社区的运营积累了大量数据,数据的积累非常重要,因为“内容是决策的依据”。


对数据结构化的处理帮助马蜂窝推出交易平台奠定了基础,让马蜂窝拥有了更大的商业想象空间。


以旅游攻略起家的马蜂窝站内用户PGC内容可以分为如下几大类:


  • 旅游攻略(多为长图文形式);

  • 用户对旅游目的地(包括景点、酒店、饭店、商场等旅行常见POI)的点评及问答;

  • 交易类点评(对马蜂窝商城内具体商品的评价)等。


此次乎睿数据团队指控的对象主要指马蜂窝用户对旅游目的地点评的真实性。


在马蜂窝现行的商业逻辑下,经过前几年对站内数据的结构化处理,目前,马蜂窝能够将旅行相关产品与内容进行较为细颗粒度的关联,而内容在用户做交易决策的过程中拥有很大影响力。


正因如此,高质量的内容生产者及内容是马蜂窝的核心资产之一,马蜂窝也在官网上列出了其拥有超过一亿的旅行者及超2100万的真实点评等数据。


但根据乎睿数据团队提供的信息,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等竞争对手那里抄袭过来的;其在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评,占到马蜂窝官网声称总点评数的85%。


另外,乎睿数据团队表示,其在马蜂窝的所有账号中,刨除了7554个账号后,选择了1万5千个最活跃账号,发现这些账号的活跃时间一致,与点评及携程等网站相比, 存在严重的不合理


乎睿数据团队总结称,马蜂窝的主流用户是一群每天朝九晚五、在午晚饭以及周末干正事、能够同时出现在地球的不同地点,且可随意切换身份的人。暗指马蜂窝账号造假。



近两年,马蜂窝由单纯的旅游攻略社区,转变为一家集数据处理及交易服务于一体的在线旅游公司,成功从内容环节切入交易。这一商业模式的建立,让马蜂窝获得了资本青睐,去年年底,马蜂窝完成了1.33亿美元的D轮融资。随后在春节假期及今年世界杯期间,马蜂窝投放了大量广告。吕刚曾对《一线》表示,马蜂窝今年的主要任务是做大规模,年内暂不考虑上市问题。


然而此次乎睿数据团队的公开指控直击马蜂窝要害,对此有旅游行业资深人士认为,点评数据造假的真实状况,关系着马蜂窝这家公司到底是靠传统商业模式——卖广告活得好,还是因为交易做得好,抑或是因为点评数量引来的融资花不完活得好,这才是重点。


目前乎睿数据团队对马蜂窝点评造假的指控已经引发行业的广泛关注,对于相关指控,马蜂窝一位市场经理称,“我们现在正在核实相关情况。我们正在等结果,然后将对媒体反馈。”


根据普华永道的数据尽职调查经验显示:在不断演进的网络和数据技术背景下,应运而生的 互联网企业以其理念引领优势、有别于传统商业运作模式的业务整合能力以及市场覆盖潜力, 成为投资界的热门标的。


不断变化的市场环境与水涨船高的业绩压力,往往导致部分公司出现各种数据质量问题、甚至是数据造假或业绩虚增的行为。传统的数据尽职调查手段已不足以支持投资人在业绩评估和投资风险揭示方面的需求。


投资人头顶的达摩克利斯之剑


2018年,互联网行业继续成为投资者所关注的焦点,其中,互联网及移动互联网行业的投资金额依旧位居首位。



不幸的是,纵观国内外各大新闻网站,因为企业数据问题被曝光而对企业形象带来巨大影响的新闻不绝于耳;而互联网行业由于其本身的业务特点,成为了数据质量问题的“重灾区”。 基于 普华永道对过去3年相关行业尽职调查项目情况所做的统计,有65%以上的目标公司在业绩统计指标方面存在问题。



互联网企业估值及投资人 踩过的“坑”


由于互联网行业尚未形成通用的业绩比较标准与完善的指标分析体系。且又处于未盈利的初创阶段(有些甚至可能还没有形成稳定的业务收入),投资人往往需要基于管理层提供的注册用户数、活跃用户数(DAU/MAU)、转化率或交易额(GMV)、业务增长预测数据对标的公司的商业价值和估值进行研究。因此,业务数据的准确性、合理性以及尽职调查过程中揭示的潜在风险因素和业务影响,将会对投资人的价值判断和公司估值产生直接影响。


在一轮又一轮的互联网狂潮下, “刷单”、“羊毛党”、“养号”、“自冲”等新名词也随之出现,并且俨然成为了一个数据造假的“新产业”。根据我们的过往经验,在短短几年间,这个“新产业”已经经历了四次重大的“产业”升级。







新时代数据造假特征 及应对方法


随着一次又一次的“升级完善”,如今在互联网世界已经产生了一个 “堪称完美”的造假体系。通过以下的比较可以看出这套造假体系如何“完美”:



由此可见,数据造假的传统特征被逐个突破,刷单与实际业务产生的数据特征界限正在变得模糊。 想通过传统的数据尽职调查手段在运营数据中发现真相已经变得越来越难。


本篇我们将列举互联网行业的三个典型场景,以及针对行业新的变化趋势,如何有效通过数据挖掘、机器学习算法看清数据背后所隐藏的交易风险。


场景一:

聚类算法定位新型“羊毛党”


在传统B2C的商业模式中,交易信息的流动是单向的,平台上的用户被清晰的分成买家和卖家。但在C2C或社交电商模式中,平台用户可以同时以买家或卖家的身份出现,从而产生了“循环交易”的可能性。


而这些循环交易中,可能存在着以获取平台交易补贴、优惠等“薅羊毛”为目的的异常循环交易。从投资人角度而言,这些异常的循环交易会拉高平台真实GMV、交易量、用户活跃等运营指标,从而对交易估值产生重大影响。



如上图所示,我们可以通过引入机器学习聚类算法方式,无需借助已做出标记的训练数据集 (x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)) 来学习目标函数,用以对交易数据做出决策分界,而是直接针对未进行标记的交易数据集来进行优化迭代,形成聚类。


适用于海量交易数据的Clarans+算法原理:



这种无监督学习方式基于PAM算法增加样本集抽取步骤,优化了模型性能,尤其适用于海量交易数据环境下,运用多种弱规则识别在单个规则下难以发现的可疑交易,提高识别准确度及效率,来有效区分正常或异常交易行为。


场景二:







请到「今天看啥」查看全文