专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
智在点滴  ·  震惊!我的Excel里居然有DeepSeek函数! ·  昨天  
智在点滴  ·  震惊!我的Excel里居然有DeepSeek函数! ·  昨天  
黄建同学  ·  FlashMLA 是适用于 Hopper ... ·  2 天前  
爱可可-爱生活  ·  【[666星]GitBase:一个基于Git ... ·  3 天前  
爱可可-爱生活  ·  【[150星]Zotero-arxiv-wo ... ·  3 天前  
爱可可-爱生活  ·  【[229星]GPT-Vis:为GPT、生成 ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究会

【图文实录】第九讲 滴滴出行研究院副院长 叶杰平 :深度学习在交通领域潜力巨大(附回放链接和ppt)

机器学习研究会  · 公众号  · AI  · 2017-04-26 20:45

正文

在北大 AI 公开课第9讲上,滴滴出行副总裁、滴滴出行研究院院长叶杰平老师,和北大人工智能创新中心主任、曾经的“百度七剑客”之一雷鸣老师一道,为同学们全面讲解了大数据和人工智能在滴滴出行场景中的应用,智能派单、最优匹配、供需预测等背后的核心技术,以及人工智能如何推动交通行业升级和未来的发展趋势与展望。


叶杰平老师指出,深度学习在交通领域的应用探索才刚刚起步,前景广阔。 主要内容涵盖大数据和人工智能在滴滴出行场景中的应用,智能派单、最优匹配、供需预测等背后的核心技术,以及人工智能如何推动交通行业升级和未来的发展趋势与展望。




叶杰平老师的个人宣讲


我们先看一下目前交通状况。这里我列出了世界范围内车的密度前10的城市,密度是指每1000m²车的数量,可以看到前8都是中国的城市。也就是说中国国内车的密度已经很高,车已经很多,那么如果继续增加车辆,不能有效解决出行的问题。

那么一种有效的方式是让现有的车实现共享职能,司机和乘客两边的信息能够互通,然后有一个平台能够掌握所有的实时的信息,做出比较智能的决策来提高出行的效率,缓解拥堵。


滴滴是12年成立的,先是有出租车,后来到14年有专车,然后15年之后有了快车顺风车公交等等。现在每天订单超过2000万单。所以你要是做人工智能做机器学习,那这个样本量就一天是2000万,这是特别大的数据。现在这个平台上有4亿用户。


作为一站式、多元的出行平台,滴滴能够提供多元化的出行工具,连接司机和乘客。


提一下滴滴的社会价值。根据调研,我们拥有的私家汽车的使用率其实是非常低的,大部分时候私家车是停在家里的,或者停在公共停车场,所以使用率是非常低的。有了滴滴之后,北京的小汽车的使用率提高了12%,另外滴滴填补了很多空点,能够在更多地方解决出行的问题。然后也增加了很多就业机会,然后我们也通过顺风车实现拼车出行,减少了环境污染。

下面说一下我们的大数据。我们每天超过2000万单,平台的每一辆在开着的车,每几秒钟就会给我们传递GPS信息。现在滴滴每天新增的数据量是70TB,这个数据应该是几个月之前的,现在应该更大了。然后我们平台在做很多的预测,模型,等等,每天处理的数据是2000TB。

每天的路径规划是90亿,这个数据量特别大。然后是定位数据,我们必须要知道乘客在哪,司机在哪,所以定位是非常重要的,这个数据不光要精确,而且要快速。定位数据每天是130亿,特别大。下面我会介绍一下滴滴如何有效利用数据,即从海量的交通数据里面找出有用的信息来改变大家的出行,比如说提高出行效率,改善出行体验和安全性,这是比较核心的一个挑战。这也是滴滴大数据的核心价值。


我们希望实时地把整个城市的交通数据整合到一块,然后我们背后有算法,有计算平台,能够实时地做智能的决策,这是滴滴大脑的核心。


下面我会举几个例子,介绍一下滴滴过去一年半左右在大数据、人工智能方面的探索。这里列了一些核心的项目,第一个是ETA,就是预估出从A到B大概需要多少时间,这其实是滴滴的一个非常核心的功能。因为预估时间是非常重要的,比如你想6:40从家里来这个教室,你得大概预估一下多久能打到车,然后司机过来接你大概需要几分钟,然后你从你家到这里大概需要几分钟,如果能有个预估的话,你就能更精准地做决策。预估时间应该根据历史和实时的一些特征来预测,这是一个机器学习问题。

另外一个是智能分单,就是一个乘客发单,然后做智能搜索,搜索最近的一个司机来接你。所以分单简单来说就是乘客搜索司机,这个问题挑战性非常大,我们需要做实时的匹配。


你如果打开滴滴APP,这里会有一个预估价,比如说你大概需要69块钱。那么这个68块9是怎么来的呢?其实本质上价格是由两个因素决定的,一个是距离,一个是时间。那么距离就要做路径规划,就是从你的起点到终点应该怎么走。这其实是一个非常复杂的问题,而且你可能每秒钟需要做成千上万个计算。算出距离之后,再预估A到B的时间。结合时间、距离,然后有一个公式,加到一块就是预估价钱。预估需要越精确越好,预估价比实际过高或过低对乘客来说都是不好的体验。

下面介绍一下用户地点预测,这个极大地提高了用户出行体验。你可以想象打开APP,它会猜你去哪,不需要输入目的地,点一下发单就可以了。其实滴滴APP的首页已经用了非常多的大数据和人工智能,除了预估目的地,还有路径规划,预估时间,预估价钱等等,你可能没有感知,这个首屏其实已经有非常多的算法,这里面至少有好几十个算法。


完成了前面的搜索之后,如果你愿意发单的话,那下一步就是派单。我们每两秒钟会接到大量需求,我们也知道这两秒之内有多少运力,有多少空车是可以接单的,有些载人车也是可以接的,如果它是拼车单的话。派单是滴滴最核心的一个模块。

刚才讲到,每两秒钟我们就积累了一大批乘客,以及一大批司机,然后做最优的匹配,每个乘客我们会匹配最优的一个司机。那怎么做匹配?我这里讲的大部分是快车,会稍微讲一下顺风车,因为它们的匹配场景不一样。

我们分单有一个历史过程,最早期是抢单,就是我们把每个司机周围的订单都拨给他,所以司机会看到十几个订单,然后司机要选。后来发现这个效率不高。所以从15年我们开始做智能派单。

大部分情况下我们希望找的是最理想的一个乘客,所以就指派了,那这样的话就是一对一的匹配,之前是一对多的。那这样我们matching的精度就更重要了。

这里面就有一个匹配度的问题,就是这个乘客和这个司机匹配度高还是低。最早期的时候滴滴用的是直线距离,因为当时的很多基础功能还不完善。后来我们应该用路面距离,司机实际开过来的距离应该作为一个匹配度。所以从15年开始,路径规划比较完善了,我们就开始用路面距离。我们会先预估出来哪一条路径是最合理的,然后让司机去接乘客。但这个其实还不是最合理的,最合理的应该是时间,比如同样的两公里有情况一和情况二两种选择,比如情况二需要十分钟,情况一的距离可能是类似的,但是时间可能只需要五分钟,因为它的路况更好。最合理的应该是用时间来衡量。

派单里面我们讲到怎么去评估两个匹配的好坏,需要两个核心的算法,一个是路径规划,另外一个是ETA。


说一下分单的挑战。我刚才讲了,我们跟传统的搜索不一样,我们是实时的搜索,每两秒钟做预测,这里牵涉到非常多的地图的应用,比如说路径规划,ETA。因为其实我们不知道哪个司机离你最近,所以我们一般是找到你周围的所有的司机来做匹配,然后做路径规划和ETA。而且这是非拼车的方式,如果你是拼车单,那你们俩还要做匹配,复杂度就成了N的平方。所以这个复杂度特别高,而且要保证实时实施。

刚才我讲到,ETA是滴滴非常重要的一个功能,在预估价、分单等方面都有应用。比如说你从A到B,假设已经知道路径了,应该怎么算时间?我们把它看成一个机器学习问题,label很简单,就是时间。那这里最核心的特征怎么挖掘?这里有一大堆的路网特征,实时路况特征,历史特征,等等。我们从最早期的七八十个特征到最后有几千万的特征,这个特征量越来越大,效果的话是越来越好。误差的话,从15年开始,到我们去年完成大规模的稀疏的模型,误差明显降低。

这里面有几点,一个是数据量越来越大,同样的模型数据量越来越大,自然精度会提高。第二,我们的模型也是越来越智能了。比如最近我们用了深度学习模型来预估时间。

大家都知道深度学习在很多领域已经有非常成功的应用了,比如说在图像、文本、speech等方向。在交通方面其实还很少,所以大家如果对在深度学习探索新的应用感兴趣的话,我觉得交通是比较有潜力的,因为现在工作还非常少。但是深度学习在交通的数据还是非常有前景的。


深度学习我们现在刚刚上线不久,效果还是不错的,一上去模型的精度就完全比之前好了。它的好处是它还有很大的提高空间,数据越大,它的威力越大。我认为这肯定是一个大的趋势。


有了时间和距离之后,这里每一列是一个用户,每一行是一个司机,分别是不同类型的订单,有快车,专车,等等。每个车跟每个订单都有一个匹配度,比如说时间和距离,比如说时间越短的话,匹配度应该越好。这样得到一个大的矩阵,然后做订单的分配,得到最佳匹配。这个已经有很多年的研究,有最优解。

但是更有效的分单还需要考虑未来,找到未来一段时间收益最大化的最优解。最近我们上线了一套算法,用了增强学习。这个就涉及到供需预测,你需要知道比如说在未来半个小时,北京所有的区域大概有多少订单,哪个区域订单比较多,等等。这个就需要供需预测,这个对我们来说是非常重要的事情。去年滴滴举办了第一届算法大赛,主题就是供需预测,预测每一个区域大概会有多少个需求,多少个司机。我们现在的预测精度达到85%。

下面讲一下供需的不平衡。很多情况下打不到车的问题是供需不平衡。图中绿色表示这些区域车的空闲运力比较多,红色区域表示车比较少。怎么解决这个问题?我们第一个方法是做预测,刚才讲过了,我们如果能提前预测,比如说未来半个小时各个地方供需的情况,如果能预测到这个区域缺10辆车,我们提前把它调过去,这是最理想的。



这里面核心的问题是如何保证乘客的体验。

这里我们建立一个机器学习模型,根据历史上发生的大量的拼车单,分析哪一些是乘客投诉说体验很差的,哪一些是大家说好的,然后我们找出特征来。我们需要找出一些重要的特征,能够刻画这个体验。比如说这两单拼成了,我们大概能预测一下这个体验好还是坏,如果预估体验不好的话,我们就不让他们拼车成功。这背后其实是路径规划,相似性,以及体验的预测。


类似的是顺风车。这里比较重要的也是匹配度,相当于是拼车,时间要匹配,路线要匹配,所以这里有一个匹配的模型。

匹配成功了其实只是第一步,后面还有一系列的问题,比如说服务,我们得保证的司机服务是好的。我们发现也可以通过大数据来极大地提高司机的服务质量。怎么做的呢?每个司机我们会给他一个服务分,0到100之间,这个服务分也是通过模型算出来的。

最后我们讲一下司乘判责。就是当司机乘客发生不愉快的时候,比如乘客取消,应该判谁的责任。乘客取消其实不一定是乘客的责任,有时候是司机的,有时候确实是乘客取消。这种场景下这种订单取消行为,比如说乘客取消的,我们要判断一下司机有没有责任,乘客有没有责任,做一个自动的判责。我们做了一套判责系统,去年12月上线,这一系统会自动判断司机和乘客有没有责任。

最后提一下滴滴大数据潜在的价值。最近滴滴智慧交通组在济南做了一个项目,用滴滴的数据来控制红绿灯。大家知道红绿灯控制的目的是提高效率但其实大部分情况下红绿灯控制是不合理的,稍微优化一下可能潜力是巨大的。现有红绿灯控制系统不实时,也不精准。但滴滴的数据是非常实时,非常精准,就是说我们大概知道东南西北当时的流量大概多少,通过滴滴数据能够比较精准地预测出来当时的流量,然后用来控制红绿灯。这个在济南的经十路已经上线一个多月,数据显示,经十路早晚高峰期的交通延误时间均下降了超过10%。所以可以看出滴滴的数据潜力还是巨大的,在红绿灯控制方面,在客户体验方面,在分单效率方面,等等等等,都有非常大的发挥的空间。

那我今天就讲到这里,谢谢大家。




叶杰平 VS 雷鸣 对话部分




雷鸣:非常感谢叶教授的精彩演讲。叶教授比起以前的演讲嘉宾更有教授范儿,板书写了很多公式。我觉得今天讲得特别落地,把我们在交通出行领域的各个场景,以及这些场景下所用的一些模型,考虑到的因素,产生的效果都做了简单的说明。我们常说的学术研究和产业之间的差异就体现出来了,进入产业之后面对的都是实际问题,怎么最有效地解决实际问题是最重要的事情。

基于今天聊的东西,我想提问几个问题。第一个就是,我看到您讲了很多算法,应该叫做经典算法。同时您刚才说在ETA中,在一些预测上,从去年年中开始尝试使用一些深度学习的算法。那么中间的探索过程您能简单讲一下吗?因为深度学习有很多,比如CNN、RNN 等各种网络结构。那对于出行来讲,最后您是怎么从经典算法迁移到深度学习算法,中间走过哪些弯路,怎么考虑这些问题,怎么选模型,可以跟大家讲一下吗?

叶杰平:我们2015年10月就开始用大数据,用机器学习做ETA,因为我们想到规则也不是很合理,因为路况会变化,数据会增加,也没有合理利用我们的资源。2015年10月开始,我们说OK,我们应该利用机器学习。第一步,我们用最简单的方法先验证一下到底有没有效,觉得至少要比规则好一点。我们花了几周时间迅速找到一些特征,建立了初步的模型。

后来我们不断实验,之后,效果就显著提高。主要是对问题理解更加深刻,特征挖得更好更加完善了。

雷鸣:是说特征的选择更准确了?还是放的特征更多了?

叶杰平:特征更多了越来越丰富。在工业界解决一个实际问题,第一步模型不是最重要的,肯定是数据特征。先上最简单的模型,看看效果怎么样。后来发觉已经比规则提高了很多。那说明机器学习肯定在未来会颠覆传统的规则。

后续数据量的增加让这个模型变得更好。再往后我们想,这个数据量还会越来越大,那我们应该开始利用深度学习了。因为当数据量越来越大的时候,深度学习的威力可能会显示出来。

所以我们从2016年5月份开始探索不同的深度学习模型,CNN、RNN等,也试过一些最新的方法。因为这个深度学习在图像等很多领域非常成功,在交通领域没有太多人试过。

雷鸣:所以我觉得你们是吃螃蟹的人,想感觉一下这个过程。

叶杰平:我们的 team 在摸索不同的算法,因为每一种算法在这个新的数据上面怎么用都是新的,都需要去探索,因为场景不一样。后来我们就发现有两三种效果还不错。最后我们就选定了一种。当然如何有效落地用在滴滴的数据,还不是那么简单。我们摸索了好几个月,到今年年初的时候已经达到了比较好的效果。

深度学习,线下的training还好,建一个GPU集群,但是线上做实时的毫秒级的运算还是一个问题。我们搭建了一套线上的系统,实时线上做预测。把很多模型合起来放在线上可能不一定合适,因为太复杂了。所以我们先挑一个最好的模型。大致是这么一个摸索过程:简单出发,先focus在特征,然后是模型的探索,然后线上化,里面工程量还是比较大的。

雷鸣:这点讲得特别好。回顾百度也差不多,做搜素引擎排序是最重要的,你希望你搜到的第一条就是你想要的。最早我在带着做前几版的时候,排序时涉及到的参数大概有十个左右的量级,不是特别多,比如字体、pagerank、大小、位置这些因素。随着时间推移,运算能力,包括要求越来越高,大概几年前,参与排序的属性已经大概到万的量级了,很多属性就是学出来的。参与排序的那个公式我们也无法理解了。

把一个东西真正做到非常实用的时候,它的特征选取、公式复杂程度已经远超我们一开始想象的可理解性规则。

另外您刚才已经讲到的一部分我也特别感兴趣。训练的时候,时间很长,代价很大。一般深度学习模型的运算复杂度还蛮高的。比如说,一个传统的深度学习模型,要不要上GPU集群?上了GPU之后,模型本身为了追求效率的话,对模型的复杂度有一些要求,进而到运算速度。当年我们对于模型的优化有时候甚至要高于对质量的追求。我们先用一个我们叫做“最佳模型”找到最好的位置,然后我们开始简化模型,看看比如把复杂度降一维,降一个量级,但是这个损失跟best相比,是它的95%,我觉得这个就非常好了,因为它对应的是成本。

刚才说通过大量的深度学习之后可能有一个模型非常好,但最终我们上线的时候,刚才您也讲到比如说,每两秒钟算一次,很多单。那最终模型计算速度和运算质量之间怎么trade off?

叶杰平:一般来说,行业里Training的话,我们还是希望用一个最好的模型。但到线上就不一样了,因为线上实时性要求比较高。我觉得比较promising的一个方向是这个模型已经确定好了,怎么去压缩,压缩之后比如说计算量会减少很多倍,但是精度可能只减少一点点,我们在探索,很多人也在做。

雷鸣:所以我们又讲到学术和产业之间的一个很大的差异。其实我们学术上一般只做第一步,训练了最好的模型,我要比国际最好的提升了500%,就可以去发best paper。但是第二点我们往往忽略了,就是这个东西是挺好,拿一千台服务器算了十天,放在线上之后发现完全没用。为了一个人打车,放了一千台服务器算一秒钟,这个成本是完全无法支撑的。落地的时候,第二点比第一点有时候还要重要,就是效率,单位时间付出的成本非常重要。

刚才我们聊了一下关于深度学习的使用,以及从传统的机器学习算法走向深度学习。第三个我们回到讲座的整体,希望对产业未来五年、十年有一个预测。对于出行产业,或者说大交通这个产业,未来五年深度学习会怎么样去影响这个产业,会有什么技术不断地出来能够对这个产业有一个巨大的贡献,或者说中间有什么挑战,有什么机遇?

叶杰平:这是非常大的一个问题啊。我简单讲几点。第一点,我觉得出行是需要各方面合作的。滴滴在整个出行行业的渗透率还很低,大部分数据还是在滴滴之外的。我们也希望各方面把数据打通,整合起来才能够发挥更大的价值,帮助更加精准地做出决策。

第二点就是智慧交通,就是把数据整合起来后,如何能够用来解决实际的交通问题,比如红绿灯,比如城市的规划建设等。滴滴的数据在济南的红绿灯实验已经能看到巨大的潜力了。但如果要达到更佳的效果,应该是更多方面配合合作,能够更精准地反映当时的交通情况。

第三点应该是智能的交通,比如现在国外研究比较多的叫做网联车。车跟车是相连的,车跟路上的一些设备也是相连的。这样的话就能做出更加精准的一些决策。如果所有车相连的话,那么就能够更精准地预测车跟车之间是不是离得很近,这样的话能提高安全。其次网联车也能做更精准的定位。当然在未来还有可能会包括无人驾驶。

雷鸣:好,再问一个问题。叶教授以前在密歇根大学任教多年。请您讲一下产业和学校的区别。以前当教授,做研究,现在到了产业里面,带这么大的团队,解决实际问题。从您自己的感觉来说,从学术到产业的跳跃中,有些什么样的挑战?很多在座的同学都是硕士生博士生,大家平时做科研,如果未来想要进入产业,那么应该做一些什么样的准备?

叶杰平:这是非常好的一个问题。在学校里,我们经常强调的是方法。经常是有了方法,再去看能不能找到应用。因为在学术界你还要重视发论文,尤其是顶级会议上。看重的是方法论。工业界则是刚好倒过来,我们最主要看结果。学校是有了方法,去找应用;在工业界,则是我有这么一个实际的问题,你怎么去解决它?至于这个方法是不是非常的前沿,还是非常简单,大家其实不是特别关心。我们希望找到一个最最简单的、简洁的方法,去最有效的解决一个问题。所以工业上是以解决问题为主,要落地,要解决问题。当然,从长远看,创新性也是必要的,这样才能够超前发展。因为如果需要有大的改进,大的提高,还是需要有创新的。但这个创新不一定是需要你自己做,可能是在学术界,或者是在其他领域,前几年甚至十年前的一些工作可能能用来解决你当下的问题。所以在工业界也是经常需要去读文章的,需要去了解最前沿的技术。所以我觉得,出发点应该是先解决问题,但是也需要去看前沿的东西,跟上学术界探索的脚步,希望能够有所创新。

雷鸣:我特别赞同叶教授的说法。其实我在产业里面也做了很久,我感觉原生的创新研究其实以前是不多的,但现在我们看到像谷歌、百度等巨头,它们真的自己或者跟大学一块承担了一些特别前沿的科研项目。但是更多来说,其实第一,在产业里面我们比较关注技术的进步;但更多有点像拿来主义,我觉得有些东西相关,就赶快拿过来试一试。在产业里面,我们经常说做最好的匹配,往往比你原创来得更重要。因为只有八种算法,哪种最适合我的情况?看效果。第二,每一个问题都有特殊性,面对一个问题,并不见得一个单独的算法到最后就是最好的。

我们写论文往往就描述一个算法,描述它比以前怎么怎么好了,但是我们在工业界,像叶老师刚才讲的,经常几个算法用在一起,融合一下效果是比较好的。单个模型都是不能达到性能的best 的。

我们刚才讲的话就是说,一是要跟踪前沿技术,要不断的去做;第二,要去解决实际问题,我们解决实际问题的过程,往往不是一个简单的东西就搞定了,而是在探索过程中不断深化的一个过程。

叶杰平:对,我再加一点,刚才讲的模型,很多时候问题是比较清楚的。第一步先要把它抽象出来,变成一个数学问题,然后再考虑用什么算法。其实很多时候最重要的是第一步,problem formulation,把场景变成一个我们所熟悉的数学问题。这一步在工业里非常重要。怎么非常巧妙把一个一个实际的应用场景变成一个个机器学习问题?因为在很多场景,其实这个问题的产生不是唯一的,它有不同的方法去做。算法可能不是最重要的。如果把问题描述对了,可能就完成一大半。

雷鸣:对,特别深刻。叶教授讲的是给你一个真实问题,你要把它抽象成一个数学问题,然后再去匹配自由模型。我觉得这个行业里面面临着许多问题。比如说我从A点到B点,要求时间最短,这到底是个什么问题?这是一个线性规划的问题,还是别的什么问题?这需要好好思考,也许它能套很多模型在里边,你要不断地去做一些选择。

我们现在转到学生在微信交流群的提问上来。有个同学提出了一个问题:叶教授刚才讲到预测路况,甚至说去跟地方政府合作,去改变一些东西,比如交通信号灯,进而影响大交通大出行。你们在数据上只用了自有的业务数据,还是说还用了一些别的数据,比如政府提供的数据?未来的趋势,就是交通数据一定程度上的共享,您对这种共享或者说这方面的发展会有什么看法?

叶杰平:未来肯定是希望共享,然后把不同的数据整合起来,应该能够更加精确地反映当时完整的一个状态,这肯定是未来的。

目前济南经十路的红绿灯用了滴滴的数据,然后已经发觉效果提高了 10%。潜力是巨大的。大家可以想象,滴滴的数据量在增加,也在持续和出租车公司、公交公司、政府合作,那效果肯定会更好,未来甚至可以跟传统的路上检测的一些数据整合起来,这些数据虽然不准,但还是有一定精度的。我刚才讲过,整合不同的数据,然后做更精准的预测,这在未来肯定会越来越重要。滴滴是非常open 的。现在我们和一些城市已经开始合作,我们最近也向各地交通管理部门开放“滴滴交通信息平台”,各地交通管理部门通过授权之后就可以登录,数据当然不会涉及单个订单和用户信息,但能为政府决策提供支撑和参考。

雷鸣:我记得我跟一个朋友聊过关于智慧城市的问题,以前我们认为在 A 处产生的数据就对 A 有帮助,但今天看并不是这样。在一个海外做的项目“智慧城市”里面,它们用到了基站里面采集的人的手机定位对应的数据,通过基站的定位其实能准确到几十米之内。基本上是够用来测一个人的移动,然后用这个数据的话其实就基本上把出行完全都了解清楚了对吧,你看这个人移动的速度,你就知道他是开车的还是走路的。然后,经过统计之后,我们还能知道呢比如说多少人早上会从什么地方迁移到什么地方,多少人重合了,多少人是交叉的,然后什么时候是堵车的。除了交通之外,我们刚才说的比如道路的规划,住宅规划,甚至说它把热力图往地图上一比对,就会发现一些很有意思的事情,比如什么地方排队排得比较久。经常有人在这个医院呆的时间比别的医院长多了。这就可预测这家医院排队比较长。所以我们有时候说在做一些实际的东西的时候,数据其实是有交叉的价值的。我跟阿里蚂蚁金服的漆远聊过,最早是阿里有大量的交易数据,最后分裂成一个巨大无比的金融服务。蚂蚁金服现在应该是全球独角兽最值钱的,我记得排名第一。我们到智能社会之后也要思考这个问题,就是说数据并非只有这种用途,它可能释放出其他的力量,这还是蛮有意思的事儿。

这个同学问到另外一个关于数据的问题,就是关于满意度是如何而来的。您刚才说到满意度提升了,是指真的做了调研,比如用户和司机的调研,显示满意度提升了,还是说技术人员在后台制订了一个标准,显示出满意度提升了呢?

叶杰平:这个问题非常好,这叫NPS。满意度首先是用户调研,比如说我们调研司机,我们会问他你愿意推荐滴滴给你的朋友吗?假设100个人中有60个人推荐,40个人不推荐,那你就可以把它的推荐分数算出来,显然是越高越好。在滴滴我们每天都会做用户调研,来看这个城市的这些用户的满意度怎么样,因为我们特别关注用户的满意度和体验。我们会不断地做一些满意度调研,然后看一下,如果满意度下降了,到底是什么原因?我们应该在哪些方面做改进?

通过 今年上半年一系列改进,我们的体验有了很大的提高。我们始终把用户的体验作为最重要的一点。大家以前可能认为滴滴是营销驱动运营驱动,现在滴滴绝对是体验驱动。

雷鸣:我觉得刚才叶教授讲得特别重要,关于用户体验我听了之后特别有同感,到底是我们工程师定了一个指标,还是从用户获取的指标?这个特别特别重要,为什么呢?很多人做事情的时候,最后都是从计算机专业的角度弄了一个东西。我举一个例子,比如说我知道一个团队做肺癌的检测。我们平时看到的论文,各方面都讲了敏感性特异性,我们翻译成计算机语言叫召回率和准确率。这两个指标很多人天天在算,我们其实直觉觉得是有点问题的。比如说漏掉——假如说肺部肿瘤或者癌症——漏掉一个这么大的恶性肿瘤,和漏掉一个芝麻大小的良性肿瘤——这能是一个事情吗?这绝对不是一个事情。后来我们就找到医生去沟通这个事情,医生就说你这个跟我们医疗上不一样对吧,我觉得你这个衡量指标根本就是错的啊。不能这么看这个事儿。你晓得,那个结节,比如说大概五毫米以下,甚至两三毫米——这次的话你漏掉其实无所谓。一年之后再查它。一年之间,即便是恶性的,它涨的速度也不会导致说对你生命有很大威胁。但你漏掉一个恶性的肿瘤很有可能说明这个人半年之内就会死亡。这两个权重不同。所以我们刚才说了,如果说你搞不清楚,你就会片面的追求一些所谓的指标,因为你提到99% 了。我刚才说了,对,你是 99% 不会漏掉,不过你漏掉了一个人,这个人也就死了。这边是95%,准确率稍低,但是人能活下来,没人死去。







请到「今天看啥」查看全文