专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
CDA数据分析师  ·  【测一测】解锁数据分析潜力!量身定制的测试挑 ... ·  19 小时前  
人工智能与大数据技术  ·  罗永浩AI初创项目上线;科技巨头大战数据中心 ... ·  2 天前  
数据派THU  ·  使用PyTorch实现GPT-2直接偏好优化 ... ·  3 天前  
人工智能与大数据技术  ·  “警告:依赖 AI ... ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

Science | 分析20亿行北京出租车数据 寻找你被拒载的原因

大数据文摘  · 公众号  · 大数据  · 2016-12-13 06:33

正文


大数据文摘作品,转载具体要求见文末

作者 | 行者 任杰 吴蕾

论文作者 | 张四海 王芷阳


我们都有过这样的经历:在得知你的目的地后,你的uber/滴滴接单被司机师傅取消了。师傅的理由很可能是“我现在下班了”或“我的车没油了”,但愤怒的同时你一定也会怀疑:我的目的地是不是不对师傅口味?刚拒绝我的司机是在寻找赚取更高车费的机会吗?

近日关于北京出租车司机的研究结果支持了这一观点:依据乘客的目的地进行拒载,确实能赚到更多钱。由于像Uber和Lyft这样的公司正在各地形成公共交通体系,这种利益驱动的偏见可能会让部分人很难打到出租车。

上个月,美国science杂志报道了两位来自中国的学者基于北京出租车数据的这一相关研究:他们通过北京出租车行业2012年间的两个月的GPS跟踪数据,分析了对出租车司机是否接受乘客要求的行为选择造成影响的客观因素:起始地点、距离远近、司机收入偏差等。然后基于大数据算法,得出了出租车司机拒载乘客这一现象背后的行为决策模式,并估计出,在北京,你会面对的出租车拒载概率是8.15%

研究这个数据集的研究者是来自于中国科学技术大学的两位计算机科学家,张四海和王芷阳,他们也都有许多不悦的打车经历,于是,他们想知道:从司机的角度来看,拒载乘客怎么会赚更多钱的呢?该团队报告发表在本周的《PLOS one》杂志上。

请在大数据文摘后台回复“出租车”获取论文全文。


研究方法

乍看之下, 20亿行的数据中没有什么有价值的信息:他们只揭示了出租车行程的启止位置,但某个司机是否为了一个乘客而拒绝另一个则从未被记录。但研究人员发现,他们可以通过把司机看作一个整体的方法去推测出他们“回避乘客”的情况。

理想情况是这样的:如果在北京每个司机都只是按随机线路行车,搭载他们第一个看到的乘客,那么所有乘客将有均等的机会打到车,平均下来所有司机都会赚取相同的钱。当然,实际情况并非如此。这点很容易理解,也无可厚非:出租车在停靠点聚集,所以行程起点位置并非随机分布,而是集中在火车站和体育场等地,那里有更多的乘客需要搭载。

然而,当他们了解到目的地信息后,就会出现了另一种倾斜与偏差:有些司机明显偏好选择那些热门目的地,即容易拉客的地方,而不是去偏远地带。产生这种偏差的原因,Zhang和Wang推断,这部分司机一定拒载某些乘客了。否则,所有司机会有相似的日常行程分布。但拒绝乘客真的能赚钱吗?毕竟,空驶时是不赚钱的。

为检验这个推断,团队采用北京的标准出租车票价率,估计了每个司机将从百万次的行程中赚多少钱。果然,一些司机较之其他会赚更多的钱。前25%的司机平均每天赚大约80美元,远高于北京居民的平均水平;,末尾25%的司机只能赚到这个数字的十分之一,即每天8美元。然后,科学家们就高收入者的行程与低收入者的进行了比较。

根据两位学者的分析,通常我们所认为的“聪明”的出租车司机总能找的更合适的业务起始点,以获得高于平均水平的收入,这一论断背后还有着更深层的行为动力学原因。研究者通过将行为激励的因素分解为距离、时间、油耗、收入(利润),然后分别从大数据的角度找出影响司机决策的模式——数学方程,经过算法分析,得出结论,从中可以清楚的看到,不同收入档次的司机,所面临的搭载情况(起点情况和终点情况)、乘客数量、工作时间等有着不同的组合(如下图所示)。


 

研究结果

这不得不说是大数据技术应用于生活的又一项接地气的成果。作为市场经济社会中的一员,理性是我们作为社会人的重要属性,也是我们的基本能力。当这样的不愉快或者不方便的情形在许多消费者身上都出现的时候,这已经足以引起有关部门和研究领域人员的关注,并促使相关人员寻找这一现象普遍存在的原因,为更进一步找到应对之策做好准备,这才是我们的最优策略。幸运的是,大数据有望为我们实现这一点,或者说,最起码,已经找到了通往“无拒绝坦途”的路径,提供了可能。

然而,从人口角度来看,出租车司机的数量对于一个地区的人口来说可以看作是均匀分布的,也就是说无论是司机还是乘客,都面对着同样等概率进入市场的机会,那么不同收入的差异就是有意识的行为选择导致的结果。从研究图形来看,就是这些不同影响因素之间,由于司机有意识选择后,形成的不同组合,导致的结果就是,出租车司机的最终收入出现偏差。而经济利益的诱惑,又促使出租车司机更倾向于寻找高收入组合的可能。由此,拒载事件屡见不鲜。明白这一点,可以让我们更心平气和的看待日常生活中的这一不方便事件,也让我们离问题的解决,更近了一步。

结果揭示了为什么北京的出租车司机可能会比较挑剔乘客:那些坚持在主流易搭载区域之间行车的司机确实赚到了更多的钱。事实证明,不管开多长时间车,只要是去偏远的郊区,一天所获的报酬总是比较少的,因为司机浪费了回到市区的时间。北京赚钱最多的出租车司机大约每12名乘客就拒载1次。

最后,需要说明的一点是,致力于研究人类行为的比利时那慕尔大学计算机科学家Vsevolod Salnikov,已经对此项研究成果所揭示的原理给予肯定,并认为网络约车平台上同样存在类似的情况,这一发现将有助于进一步约束出租车司机的拒载行为,或许,不久的将来,我们乘坐出租车时担心拒载的心情将由此改变,不再方便与阻碍“两难”,而是顺利与便利“两利”。

所以说,任何一项科学研究都具有改变世界的潜在能力,只是发挥出作用并为人所知需要时间而已。这一次的出租车拒载事件的行为动力学研究,不仅让我们看到大数据时代的有一种进步,更让我们对所生活的世界有了新的认识,一切问题都有解决的办法,我们只是需要不断寻找它们。当我们对世事有了新的了解,生活也会因此不同。

两位学者更进一步地对上述影响因素进行了更深入细致的配对研究,寻找他们彼此之间的作用关系,以及最后导致行为决策偏差的作用机理。看似复杂,想来头痛的问题,就在两位研究者的精妙技术里,抽丝剥茧,一一呈现。这一过程对研究者来说,是一项艰巨而繁重的任务,但对于我们读者来说,则是一次酣畅淋漓的阅读体验,其中的思维火花,算法应用的精妙之处,在此不能一一尽述,想要一睹为快的朋友,请在大数据文摘后台回复“出租车”获取论文全文。

Science相关报道链接:http://www.sciencemag.org/news/2016/11/having-trouble-hailing-taxi-could-be-why?winzoom=1


致谢:

本文研究工作得到数据堂(北京)科技股份有限公司的数据支持,研究者在此表示深切谢意!

论文作者简介


·

张四海

·

2006年获得中国科学技术大学计算机科学博士学位,而后留校任教至今。已发表高水平研究论文70余篇,内容涉及人工智能、无线通信、无线网络等,先后主持/参与国家自然科学基金、国际合作课题、863课题、国家科技重大专项等24项,项目内容涉及无线通信、无线网络和无线大数据领域。长期担任IEEE多项刊物的审稿工作,组织多项大数据相关学术会议,研究组已建成小型Spark实验分析软硬件环境。目前从事无线大数据的理论和应用研究,重点研究无线网络和无线用户的行为分析和时空业务建模,经济/金融时空序列的推断分析和异常检测。


◆ ◆ 

志愿者介绍

回复“志愿者”了解如何加入我们

 

  

关于转载
如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 |bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:[email protected]

◆ ◆ 

往期精彩文章推荐,点击图片可阅读

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)