Airbnb 是目前发展最快的公司之一,它的发展之快甚至被认为破坏了当前的整体创业环境。Glassdoor在“最佳工作场所”报告中给予了Airbnb极高的评价。同时,随着对数据科学技能的不断增长的需求,从组织的各个方面,从产品到财务到运营,Airbnb在数据科学技术领域的地位不容小觑。
Airbnb业务迅猛增长的秘诀在于培养信任。数据科学技术是用来确定信任驱动力的核心,吸引更多的用户,并找出如何减轻信任的新方法的技术。数据科学技术是Airbnb能够得以快速发展的关键因素,同时也为“如何能够通过匹配合适的人才”提出了更好的建议。 Airbnb的数据科学家一直致力于开发独特数据产品和修改现有开放源码技术,从而完美匹配公司需求的前沿。
Airbnb将正在一个特定的城市中寻找住宿(客人)的人与那些愿意出租自己房屋的人匹配。客人可以根据他们的住宿喜好来选择房东。在Airbnb平台上,只有房东愿意容纳客人,这种匹配才算做成功。
截至2015年6月,Airbnb提供超过1000万人次的住宿,来自192个国家和34,000个城市的超过2500个人提供了服务 ,Airbnb的收入也急速上涨,使公司达到了225亿美元的估值。
Airbnb 的生命之泉 -- 大数据
Airbnb每天创建20 TB的数据和1.4 PB的存档数据,如此大体量的数据已经成为Airbnb业务的命脉。Airbnb每天应对大约1000万个请求,并处理一百万次搜索查询。 数据是Airbnb客户的声音,用于通过创建客人和房东之间完美匹配来提供个性化服务,以达到最高的客户体验。 Airbnb使用房东与客户交互,当前活动和当地市场历史信息来提供旅行者可以接受或拒绝的实时建议。
对于像Airbnb这样的完全在线的组织,数据分析在为客户提供一流的定制服务方面发挥着至关重要的作用。 Airbnb使用正确的可扩展的,灵活的大数据工具和数据科学技术来保持可持续发展。 Airbnb的数据科学团队坚持使用数据驱动的见解影响决策,并确保决策对客户有预期的影响。
Airbnb的数据科学
Airbnb使用数据科学优先考虑产品决策,这是该创业公司巨大增长的秘诀。 Airbnb数据科学家是放大客户声音的扬声器,通过客户的交互日志来预测他们的需求,并将这些需求解释,应用于客户支持和营销团队采取可操作的决策。
接下来,让我们走进Airbnb的大数据世界,看看他们的成功秘诀
A / B测试
这是一种常见的数据科学方法,用于找出最佳产品拟合或市场契合度。使用A / B测试方法,数据科学团队测试网站或产品的各种设计或配置,以了解用户如何回应。 Airbnb的数据科学团队通过将其网站的用户暴露给各种推荐和排名,然后进行A / B测试。之后,用户的行为与他们留下的的实际评级或评论相关,这有助于数据团队测试算法的有效性。 Airbnb的A / B测试的主要目标是通过匹配合适的客户和房东来了解他们是否做得更好。
图像识别与分析
照片是Airbnb及其用户之间的初步联系。客人很有可能在一个特定的列表里,选择那些吸引他们眼球的商品。 Airbnb对照片进行分析,找出哪些照片最适合他们的用户,照片中的哪些功能让他们最受追捧,什么样的照片在网站上获得更多的点击次数。 Airbnb还处于使用照片分析的机器学习技术的初级阶段。在Airbnb上实现这一目标的动机是创建一个反馈回路,可以在网站上帮助房屋主人,以便他们展示最好的房屋照片。该算法有望自动推荐Airbnb免费专业摄影服务,将Airbnb上的房屋主人与附近的专业摄影师连接起来。
自然语言处理
在Airbnb,房屋主人和客人可以体验到一个现实生活的互动,这种互动有时促使他们留下更好的评论,即使这次的住宿体验只是令人满意。这些评论错误地描绘了主人和客人的正面形象,星级评分也通常被夸大。为了解释用户的真实感受,Airbnb使用自然语言处理技术,通过情绪分析分析评价板或留言板。这有助于Airbnb了解评论背后的真实感受。
预测建模
预测模型技术是Airbnb数据科学中很有趣的一个方面,可以用于分析各个市场的表现,从而优先考虑资源的分配。使用预测模型,Airbnb可以产生具体的具有多个自变量的市场预测。 Airbnb有一个专门的团队,预测和报告现有的预测模型的优化。同时,Airbnb的数据挖掘有助于房屋主人预测最佳租金。
回归分析
Airbnb使用回归分析技术来确定特定列表的哪些特征对预订产生重大影响。回归分析帮助Airbnb了解到,视觉效果在客户对预订的选择中起着至关重要的作用。为了提高视觉效果,Airbnb开始免费为房屋主人进行专业摄影,结果令人惊叹。这导致Airbnb的收入明显上升。
协同过滤
Airbnb数据科学团队使用协作过滤技术来模拟房屋主人的偏好。使用协同过滤,将用户(房屋主人)和项目(旅行)数据,结合通过机器学习计算出相关的房屋主人的历史评分,来了解项目的偏好。然而,协作过滤模型的框架本身并不完全适用于房屋主人偏好的模型。数据科学家将客人和主人交互的多重响应用于同一行程,以减少潜在因素产生的噪音。
Airbnb的Hadoop工作流程系统–Airflow
Airbnb是Hadoop技术的大用户,因为所有关于房间,房主,房间位置的非结构化信息都使用开源框架Hadoop进行排序和分析。 Apache Hive数据仓库拥有1.5 PB的数据,在Hadoop上使用。为了在Airbnb定期处理更多的Hadoop工作,营销团队和所有其他员工也使用这种分析工具。
Airbnb每天大约处理6000个hadoop任务。仅使用Hadoop,在维护任务顺序和协调结果方面造成了一些困难,导致了自己的hadoop工作流程的开发被称为Airflow。 Airflow是开源的,已经在五家公司使用。Airflow是由数据工程师为数据人员构建的工具,主要关注创新和监控新的数据管道。
Airflow易于安装并且可以使用python语言界面,可帮助用户定义新类别的数据,命令如何管理这些类并写入“for loop”或任何其他需要重复的python语句。
当有多个作业要执行时,Airflow用于Hadoop的批次处理端。 Airbnb上的这个hadoop工作流系统确保所有的资源被正确分配,执行并以正确的顺序运行,同时完成后不会自动重复执行。Airflow也监督工作进度,并将结果更新为各种业务流程。 Airflow可以显示有几个hadoop作业正在运行,这些作业使用的资源是多少,完成了多少个作业,有多少作业有错误从而影响了多作业工作流程。
Airbnb如何使用大数据推动其发展?
增强型搜索功能
AirBnB平台上房屋主人和客人之间的匹配算法由有效的搜索驱动。因此,搜索引擎的有效调整对于推动增长和客户的满意度是非常重要的。此前,AirBnB没有足够的数据可以进行分析,为他们的客户提供指导,所以它只是根据用户搜索得出在附近的地点最高质量的列表。
随着时间的推移和用户数量的增加,AirBnB获得了更多的数据,并用用户数据驱动的搜索模型代替了他们的初始搜索模型。AirBnB使用房屋主人和客户的交互的巨大数据集构建了一个模型。该模型基于客户的搜索,建立在估计有特定位置的条件概率的基础上。
一个在旧金山寻找住宿的搜索,通过模型也会指向通常人们有可能进行预订邻近地区的其它住宿选择,例如Lower Haight或Mission District。
用户数据驱动搜索模式导致订单数量增加和较高的客户满意度。AirBnB通过利用大数据技术,成功地为客户提供了更好的产品。
指导主机达到完美的价格
AirBnB价格提示功能,是一个不断更新的价格向导,告诉房屋主人以他们选择的价格获得预订的概率是多少。主持人可以查看日历,并查看可能以当前价格出租(以绿色突出显示)的日期,以及哪些日期不易被出租(以红色突出显示)。如果房屋主人按照价格提示功能给出的建议价格5%内对其想要出租的房屋进行价格评估,他们获得预订的概率增加了4倍。
AirBnB的价格推荐引擎提取了大约50亿个训练数据点。该模型旨在将AirBnB的巨大数据集中所有内容汇总到搜素结果的最佳价格上,价格具体取决于各种因素,如列表的规模,附近房屋的价格等。Aerosolve是AirBnB数据科学团队建立的开源机器学习包,是AirBnB主机价格提示的秘诀。这个机器学习包帮助AirBnB找到价格和主机列表之间的更多关系。
推动公司发展
AirBnB正在根据不同人口统计量的客户要求来推动增长。 2014年,AirBnB发现来自特定亚洲国家的客户在访问主页时的跳出率较高,其中绝大部分人未经预约而离开网站。在数据分析之后,AirBnB发现用户被“邻居”链接和照片转移,并且在浏览过这些照片之后永远不会返回预订。
AirBnB的数据科学团队重新设计了算法,并且为亚洲国家的游客网页中去除了“邻里”链接。他们宁愿在新加坡,中国,日本和韩国列出热门旅游目的地。最终结果惊人,亚洲访客的转换率提高了10%。
AirBnB在考虑将大数据视为客户的声音时,已经教授了一些有价值的课程。 AirBnB对于任何公司的成功,值得学习的地方是:
1. 考虑数据作为业务的灵魂。
2. 聘请数据科学家,可以通过查看数据来破译客户需要
3. 制定能够推动成功数据驱动的产品决策。
往期文章内容
“阅读原文”在这里点👇