专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
玉树芝兰  ·  提示词里的大模型「人设」,有用吗? ·  5 天前  
数据派THU  ·  “全国数标委”正式成立! ·  1 周前  
数据派THU  ·  独家 | 花8小时学习Parquet的发现 ·  6 天前  
软件定义世界(SDX)  ·  31省288万份调查支撑,中央网信办公布『全 ... ·  6 天前  
51好读  ›  专栏  ›  大数据文摘

谷歌街景照片的另一种用途:预测总统大选结果

大数据文摘  · 公众号  · 大数据  · 2017-03-22 07:12

正文

授权转载自政见CNPolitics  作者:陶郁 

------------------

【福利】2017云栖大会深圳峰会

3月27-29日,37场分论坛,100余嘉宾

阿里云总裁、CTO及首席科学家到场分享

涵盖全球技术热点

点击文末阅读原文

免费限时报名


报名详情见文末

------------------

摘要下次你沿着一座美国城市的道路开行 15 分钟,如果看到的三厢轿车数量多于皮卡,那么民主党候选人就有很有可能在总统大选中拿下此地。

俗话说:“人靠衣装马靠鞍”。可见,穿戴装束和出行座驾等显而易见的外在特征,常会提供判断他人社会地位和风格品味的信息。最近,来自斯坦福大学等美国高校的一组研究人员,把这种 “以貌取人” 的技术玩到了一个新高度,只不过他们的分析单位是社区而非个人。按照这些研究者通过分析谷歌街景照片得出的结论,下次你在正常时间段沿着一座美国城市的道路开行 15 分钟,如果看到的三厢轿车数量多于皮卡,那么民主党候选人有近九成概率在总统大选中拿下此地。

美国是一个生活在汽车轮子上的国家。统计数据显示,超过九成美国家庭拥有至少一辆汽车。而美国人对汽车的选择,往往是综合考虑家庭需要、个人偏好和经济能力的结果,这其中蕴含着丰富的经济社会信息。利用 “深度学习” (deep learning)技术,研究者们为计算机练就出了一副从谷歌街景照片中抓取和识别汽车信息的火眼金睛。他们指出,通过让学会了识别技术的计算机分析谷歌街景照片上汽车的品牌、型号和出厂年份等信息,不用前往现场打听,就能判断出某个美国社区的收入、种族、教育和投票偏好等重要特征。

为了展开分析,研究者们收集了谷歌街景项目在 200 个美国城市中所拍摄的五千万幅照片,其中包含约两千二百万辆汽车的图像,覆盖了这些城市中近三分之一的汽车。利用 “深度学习” 技术,研究者们训练计算机对这些汽车的品牌、型号、出厂年份、外形门类和排量等特征做出判断,并将谷歌街景照片上的每辆汽车归置到 2657 个互不重叠的组别当中。这些组别几乎覆盖了 1990 年以来所有在美国街道上行驶过的汽车。

基于上述信息,研究者们系统分析了车辆情况与美国社区人口、经济与政治特征之间的联系。统计结果显示,“车如其人” 这种说法,的确颇有实证根基。例如,与许多人的印象一致,亚裔居民比例较高的美国社区,本田和丰田等亚洲品牌的汽车比例也较高。克莱斯勒、别克和通用旗下的奥兹莫尔比等品牌的汽车,更多地出现在非裔美国人社区中。而皮卡和大众、阿斯顿马丁等品牌汽车云集的社区,其居民则往往以白人为主。

不仅如此,车辆特征还可以帮助我们识别美国社区的其他许多情况。例如,在坚定的民主党选区,三厢轿车是无可撼动的主流车型;而在坚定的共和党选区,街上的主流车型则往往是各类皮卡。通过与美国人口调查局旗下 “美国社区调查”(American Community Survey)项目所收集的数据进行比对,研究者们发现,利用各种汽车特征识别某个社区平均水平和教育程度,准确程度也相当令人满意。

与在大规模抽样基础上通过问卷或访谈收集数据的传统调研方式相比,使用汽车特征来判断社区基本情况,至少具有四个显著优势。首先,这种新的调查方法主要依赖电脑进行计算、分析和判断,可以大大节省人工、提高效率。通过 “深度学习”,研究者们开发的电脑程序只需 0.2 秒时间就能在 2657 个组别中为谷歌街景照片上的汽车找到最合适的归宿,项目组仅用两周就完成了对全部五千万张照片的识别工作。即便某位超常聪慧的专家能在 10 秒钟内将一辆汽车准确归入 2657 个组别中的某一组,他不吃不喝地连续工作,也无法在 15 年内完成这项任务。

由此带来的另外两个好处,在于节约经费和提高数据的时效性。上文提到的 “美国社区调查” 是美国联邦政府的一个国家级项目,采用入户询问的方式采集关于美国社区的各类人口结构信息,每年需要花费十亿美元,而实际情况发生的变化可能需要长达五年时间才能在数据中显示出来。采用基于汽车信息的新研究方法,一个研究团队依靠自己的力量就能获得质量比较可靠的类似数据;而随着无人驾驶技术的普及,包含汽车信息的街景照片将会越来越频繁地更新——目前,特拉斯汽车每天所拍摄的照片数量,就可高达五千万张。

更为重要的是,人们在回答问题时,可能对自己的收入状况、教育水平和政治偏好进行有意无意的伪装,而对汽车的选择是难以伪装的。因此,采用汽车特征这类稳定的外在信息对社区基本情况进行判断,受到干扰的可能性往往更低。

需要指出,“户均一车” 是美国的特征,而汽车对于其他国家民众的意义或许与对美国人的意义并不相同;因此,这套通过车辆特征识别社区情况的方法,未必可以直接推广到美国之外。然而,这套方法背后那种利用大数据中结构化信息识别区域特征的思路,却能够为学术研究者和政策制定者提供许多启发。

当然,如果你不想活得这么较真儿,下次和小伙伴们在电脑前科学浏览美国城市的谷歌街景照片时,能够在默默数完皮卡后以老司机般的淡定娴熟悠悠说出此地是否曾被特朗普拿下,想必也是极好的。


【线上活动免费限时报名】

2017云栖大会深圳峰会

主论坛各类重磅发布,云产业“奥斯卡”即将揭晓

37场分论坛,100余分享嘉宾,涵盖全球技术热点

时间:3月27-29日

报名通道将于3月24日关闭

请确保尽早报名获取峰会入场券。


点击文末阅读原文获得免费报名名额,微信会提示你浏览器打开该链接,只要按提示步骤操作即可报名成功啦!全过程大概耗时30秒。


扫码加入“大数据文摘-阿里云栖社区”,有专人指导报名和进行相关交流。

 

或加微信bigdataGJJ,备注"云栖"


参考文献Gebru, Timnit, et al. "Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US." arXiv:1702.06683 (2017).

来源:http://mp.weixin.qq.com/s/6Nrn3-A1mlR9-ErSSNv4_Q


往期精彩文章


点击图片阅读文章

玩转地球: 如何利用SAS绘制现代化地图(附代码)