原作者 CDA 数据分析师
本期精编版嘉宾演讲为北京市政交通一卡通公司数据运营总监张翔带来的分享,看了他讲的内容才知道,我们每天都在用的公交卡真是一种神奇的东西,以它为媒介积累了海量数据,从中能进行各种有趣而使用的挖掘实践。
(北京市政交通一卡通公司数据运营总监张翔分享视频,温馨提示,请在WiFi状态下观看,土豪随意~)
北京市政交通一卡通公司数据运营总监张翔
各位嘉宾、各位朋友,大家上午好。我今天带来的题目是北京市政交通IC卡数据在城市治理中的应用。
我主要讲三个方面,首先是北京市政交通一卡通业务介绍。第二是数据现状平台功能,第三是城市治理中的应用实践。
北京市政交通一卡通有限公司成立于2000年,在历年的发展过程当中,我们渐渐扩展到四个领域,28个应用,典型的是城市交通。北京的公共交通基本上是全覆盖的,市政服务方面我们覆盖了像燃气、公园景点、公共电话、环保系统、学生卡、养老助残卡、残疾人一卡通。
这四大领域,28类的应用在一年发展过程中积累了海量的数据。现在我们在公交和市政领域累计的可用数据是460亿笔,每天还有3000万笔左右的增量。
在上述数据基础上,我们建立了和数据相关的三套体系,为政府提供服务。
第一套是具有鲜明一卡通特色的数据治理体系。第二套是我们数据挖掘分析和计算体系。第三套是我们应用和展示体系。
这是我们的数据治理体系的标签画像,中间是一张基本的IC卡,这是最基本的卡,我们还有很多扩展功能的卡。我们在做的时候有30多个纬度,比如说这张卡发卡的标签、持有时长的标签,我们以某种方式先画出来。
在卡片当中应用比较多的像通勤的OD、充值的次数、票价敏感度等等都是标签。还有学生卡、老年人卡,我们单独会有专项的标签。目前我们发了1亿张,保有量8000万。但是正常活跃在用的大概是3000万张,我们经过一年的努力把3000万市民的画像基本上做全了,这也是为政府各项数据分析服务提供了基础。
我们的标签基本上分成三类,一类是公共交通类,一类是市政服务类,还有一类是外源融合类,包括天气数据、商业化的数据等等。
这一页是我们典型可视化的的应用,这是路网全天监控的站点。通过全天24小时监控界面,可以跟踪整个公共交通路网在特定时段的动态变化,我后面会有一段动画演示。
这一页是我们的线路客流的监控界面,包括线路站点流量变动,右上角大家可以看到。还有换乘的状况,来源地和目的地,它和所有线路之间的换乘状况。一条线路上人从哪里来,可以从这张表客观的体现。
再往后一张是特定区域的分析,一种纬度按照网格化管理,一种纬度是物理的管理,或者是按照商务区、居住区和学习区。现在我体现的这张是中关村的昊海楼,因为昊海楼前一段在做功能转换,应市里面的要求我们做了详细的特定分析。
从这张图可以看出来,昊海楼中的工作人群(当然我们要限定了,它只限于公交方式的人群,私家车我没有加进去),他的出行距离、上班的时间分布、使用的交通工具,以及换乘的方式和各个区域之间的方式,可以很典型的通过这张图来实现。我们和国家发改委规划院和北京规划院有深入的合作,为他们的规划提供了支持,用他们的术语叫数据驱动规划。
这张是厦门的支柱平衡分析,因为我们这个平台是垂直的通用分析平台,IC卡数据只要接进去,各种功能都可以体现出来。国家发改委觉得我们整个平台具有推广价值,所以当时建议把厦门的数据接进来。厦门是岛状结构,这个是厦门岛外各个重点站点之间的往来关系。
前面我简单介绍了企业情况,以及我们的数据和数据平台的情况。下面我分四个方面介绍一下北京一卡通的数据,我把一年来做的各种案例梳理了一下,主要分为四类,一是政策效果评估,二是城市规划支撑,三是特定人群的分析以及服务,四是公共交通的优化。
第一个案例是北京的重大政策的评估。评估分为事前、事中和事后,北京在2014年做了一次票改,减少非刚需的地铁客流,引导客流的合理出行。我们取了票改前后各一个月的10亿条数据,我们在国内外交流的时候,很多专家告诉我们,至少这是国内第一份基于全口径的分析。票改后第一个月地铁刷卡次数减少了10%,从结果上来看,基本上达到了市政府票改的目的。
从结构上来看,右边这张表有两个纬度,一个是地铁减少,一个是公交增加,是指这一个人在这一个月里面乘坐公交和地铁的方式和次数的变化。
从这个图可以看出来,整个票改对北京人群出行影响有149万,同时一个月超过十次的我们称他改变了出行结构,我们把地铁转化为公交的定为票价敏感人群。这20万人群是下一步票改需要重点考虑的人群。
第二个案例选择的是2015年北京的大阅兵,阅兵的过程当中采取了交通限行措施,我们研究了单双号限行对整个北京区域内公交的影响。我们从右边可以看出来结果,限行期间和限行前,整个公共交通的出行增量增长了7%,其中公交增加了10%,并且早高峰提前了十分钟,地铁略降了2%。
我们选了北京三条典型的公交线路,分别是长安街的1路和二环的44路和三环的300快。站点的颜色代表前后变动的比率大小,通过右边这张表可以看出来,我们看到前面这张图整体的公交增量是10%。但是典型线路增量会高于普通线路,同时,从右边可以看出来非工作日它的增量反而更大,那么下一步我们做相关政策安排的时候可能要多做一些典型线路的车辆频次和密度。
因为这次是限行,主要是想让私家车出行转成公交方式出行。所以我们重点研究了一下有车族转至公交的情况。从上面的图可以看出来,前两周一次都没有坐过公交系统的,在限行期间内坐了两次或者两次以上的有329万人。在限行期间乘坐公共交通八次以上的有94万人,从效果来看达到了政策设计的目的。
现在政府非常推崇绿色出行,就是自行车。当然这个里面是直观的体现,从总人群上看增加了10%,每一个使用的频次都有相应的增加。
刚才是关于城市重大政策的事前、事中、事后的案例。因为北京区域非常大,各个区之间跨区的工作现象非常多,这里面我们和国家发改委一起合作,做了北京区域内的跨区工作的分布。
我们从右边的图可以看出来,颜色越深代表跨区之间人的流量越大。在北京居住和工作跨区工作中,昌平居住在海淀工作,朝阳居住在海淀工作,丰台居住在海淀工作的比例最高。这个说明在海淀它能提供的工作岗位相对是比较多的。
我们再从具体某一个区域职住平衡分析来看,大家从我画的绿色圈可以看到,在金融街上班人群中,以金融街为中心十公里为半径的居住人群占69%。大型的居住区我选的是天通苑,半径十公里范围内的工作人群只占39%,它呈现偏态的失衡分布。这两张图我们和北京相关的规划部门和发改委相关的规划部门都已经有过交流,说明在早前我们设计的时候可能对功能区和居住区的分布考虑的不是很充分。
关于城市规划支撑,第二个案例是通州,通州现在被定义成北京的副中心。而且它的高度现在也被提到了已经不是北京的通州了,它是京津冀的通州。包括国家发改委、市发改委都委托我们研究通州它的公共交通影响的静态和动态的人群。
这里面我们做了三个纬度,一个是在通州居住在外区工作,以及在通州工作在外区居住,一个在通州居住,也在通州工作。通州居住在外区工作的人群中,在朝阳区个海淀、石景山的最高,占比依次为31%、19%和14%。
我们再看右边这张图通州工作外区居住,从这个图可以典型看出来朝阳、丰台和大兴区居住人群到通州上班的比例是比较高的。
这两张图反映的也是刚才的,是通州和各区之间的关系。下面是以热力图的方式来反映,左边是它的工作地分布,右边是通州的居住地分布。
这是第三个纬度的图,在通州工作通州居住,我们可以从左边看,左边体现的是居住地分布,右边体现的是工作地分布。如果仅仅从职住平衡的角度来看,我们认为通州内部职住分布是相对平衡的。但是从分布来看合理性是有待调整的。
北京的工作人群不仅仅受北京的影响,还受河北的影响,典型是河北的北三县,公共交通出行的工作人口中,超过40%是在北京的区域里工作,其中又以朝阳和通州的比例较高。
前一段时间很多媒体在热炒,很多在三河的居住人每天非常拥挤,坐直达公交到国贸上班,变成典型的社会现象了,这个可能是下一步通州设计的时候需要考虑的。
第三个案例是对特定人群的分析,原来我的PPT没有这个,但是这段时间有一个现象,英国的学者提出来用IC卡数据来抓小偷,好像在数据分析师圈子里面流传很广。实际上这件事情,我们五年前就在做和北京公交总队合作在做,为什么没有说呢?因为你说出来有负面影响,但是为了增加趣味性我今天就把这个题拿出来说一下。
我们有一套系统称为北京一卡通特定人群分析系统,它有三个层次。第一个层次我们可以分为大学生、中小学生、老年人、小偷、乞讨,它有一个宏观的北京市的整体的考虑,相关的政府部门必须考虑,我们按照他们的要求做的这套系统。其中灰色人群的体系里面,有一块专门是小偷、乞讨和其他的灰色人群,包括有些快递我们也归为灰色人群。
它是怎么做呢?首先我们给特定人群做定义,定义完以后在整个画像里面抓人群时空的出行特征,最后我们对这个人群识别完以后,要用其他的线索和数据来验证,包括很多外联数据,包括公安部门的数据。做完之后,验证完之后我们把这部分人群挑出来,交给相关部门做管理或者是服务。
中间的红色标签前四行就是我们如何识别小偷的,我们通过它的轨迹可以看到,一般这种人群是偏离正常的出行规律,他偏好短途或者是频繁换乘。同时他随机停留,没有明确的目的地。同时,这部分IC卡更多会聚集在商业区域、旅游精典,把这个量交给警方,由警方和各个案发地的效果进行匹配,从效果来看是很好的。虽然识别的百分比非常低,但是总量是很大的。
我们更多做的是一些普通人群,包括老年人、中小学生,特别是中小学生在北京是IC卡应用起到了相当大的作用。这四张图体现的是北京的中小学生每天通学的距离。
第一张图绿色的它的距离是0到10公里,第二张是10到20公里,第三张红色的是大于20公里。所以北京有很多孩子很辛苦,因为我们的界定前提是坐公共交通工具的,这个孩子每天在路上可能要一个多小时。
我们来看这张图,右边的是中小学生,0到6公里基本上在北京的整个学生体系里面占了55%,6到12公里占21%,12到20公里占了11%,剩下的13%人群,我们对这批进行了深度的分析,这一批是拿了学生卡,但是不是学生。从出行的时间、轨迹和目的地来看,那个地方没有学校,而且不是上学时间出行,因为学生卡比较便宜,可能有人冒用学生卡,打的折扣比较大。
右边是通勤人群,我们可以看到北京人民还是很辛苦的。特别是出行公里数在25%左右是12到20公里,还有剩下16%是20公里以上,像我每天单程是20公里。
第四部分是我们公共交通优化的分析体系
我们是四个层次,第一层次是对整个路网的监控。第二层次是某一条路网的某一条。第三个层次是线路里面的站点。第四个层次从线路里面出来的人,以及人的轨迹的分析。
这是全天路网24小时动态分布图,颜色越深代表这个站点出行的人群密度越大。大家可以看到北京最北边和右下方这个位置有几个站,从早上开始一直要红到晚上十点钟。
刚才讲的是路网动态的监控,这是线路,我选择的是地铁1号线,它反映的是1号线客流的来源和去向。右边可以看到1号线、2号线、10号线是强相关的。
第三个层次是站点,我选择典型站点是天安门,我们对天安门的人群特征可以做一个细分和描述。从左边可以看到,天安门上班族、旅行者和购物群体的分布。如果跟西单一比就非常典型了,西单的购物人群非常多,包括进出站人群的性别比例、年龄比例,更往下的是其他部门的一些特征。最下面那张表反映的是天安门全天进站和出站人流量的比例。
第四个层次是个人轨迹,我们通过对个人通勤轨迹的分析,我们可以找出它的通勤方式的偏好,通勤的距离、时长、换乘的方式、居住的区域,以及它的工作的区域,居住区的车站分布等等特征都可以通过他的刷卡行为体现出来。当然如果再融合其他的外源数据可能有更深的发现。
比如说右边这张图,上面白色九个纬度是用IC卡的数据做描述的,下面这四个是我们和中国移动合作,用移动信令做的轨迹描述。因为它从公交站出来之后,我们就监控不到了。但是我们可以和移动数据进行拟合之后一直跟踪他进入小区。
整个这一块我们对标签画像轨迹的描述,对很多设计部门、政府管理部门,甚至是一些商业单位是很有价值的做法。我们四层结构的包括路网、线路、站点和个人分析,在工作当中对交通优化起到了很强的数据支撑作用。比如说对通勤班车线路的设计、公交、地铁站点之间换乘接驳,有很强的指导意义。
从刚才我们描述的诸多案例可以看出来,IC卡数据确实在城市治理当中起到了一些典型的效果。它提升了城市政策制定的效果和效率,提升了政府对特定人群服务的质量和水平。同时,它更可以优化公共交通资源的配置,我们北京一卡通公司做这种数据分析工作,已经有三四年时间了。在这三四年的过程当中,我们也应用了很多计算基础和国内国外的计算工具和方法。在做的过程当中,我们感觉到我们打开了一扇门,这个门里面目前做的是为政府提供服务。但事实上我理解就我们现在的数据基础和经验完全可以为社会提供更深的数据服务,可以为公众提供服务,甚至为个人提供服务或者是对商业企业做很多具体的应用。
后面几项是更广阔的空间,我们公司下一步确实在探索和研究,看是不是可以往商业化的方向考虑。我觉得在座的都是同行,如果大家有兴趣的话我们是不是可以从这几个层面。包括数据研究的层面和数据互换的层面,我们可以直接从商业层面合作,希望大家会后有机会可以交流。
从我们这几年为政府服务的过程当中来看,大数据提法慢慢开始越来越热。我们从中碰到了很多困难,方方面面都有。但是我相信随着政府相关政策的明晰化,大家观念的转变,技术的提升,城市IC卡数据肯定会发挥越来越广泛、越来越深入,以及越来越精彩的应用。
峰会在线:
「CDAS 在线」央企财会到数据分析师的华丽转变
「CDAS 2016 峰会精彩回顾」详解分布式数据库
CDAS 2017中国数据分析师行业峰会,来了你才知道什么是大咖云集
CDAS 2017 中国数据分析师行业峰会火力全开
CDAS 2017 峰会必备手册(可收藏)
峰会报名
扫码回复“峰会”进群了解活动详情
扫描下方二维码或点击阅读原文报名
联系我们
嘉宾及商务合作
王海龙
电话: 13488782942
邮箱: [email protected]
微信: w25092205
票务及渠道合作
王仲谋
电话:18311031693
邮箱:[email protected]
微信:18311031693
媒体合作
高萌
电话:13611274210
邮箱:[email protected]
微信:13611274210