“试想一下,如果未来的人类学家能够轻易地访问来自各个时代、不同地域的照片,并且拥有分析这些照片的强大工具,那时我们可以解决什么新问题?”这一疑问启发了纽约康奈尔大学的Kevin Matzen、 Kavita Bala 和Noah Snavely。
图丨算法揭示了服装款式随时间如何变化
他们的想法是:每天都有数百万张的照片上传到社交媒体上,这为了解世界各地的文化、社会、经济因素打开了一扇大门。强大的机器智能可能会挖掘出这些数据(照片)背后的价值,以便于我们深入了解人类文明的发展。
幸运的是,机器智能技术正在飞速发展,Matzen及其同事也加入了这一行列,他们已经开始使用机器学习来研究发布在Instagram上的上亿张照片。
以服饰为例,这种涉及的范围广、规模大的文化现象很难被详细地研究。所以他们往往会选择一些比较具有针对性的问题:在美国,围巾的使用频率如何随时间发生变化?特定区域或城市最鲜明的服饰是什么?哪种服饰风格在全世界都很受欢迎?
为了找出这些问题的答案,Matzen及其同事将研究重心转向了社交媒体Instagram,Instagram允许他们在某些特定的范围(某地点方圆5千米内)、特定的日期(前后5天)下载Instagram的照片。
图丨社交网站Instagram
然后,该团队将照片选取时间定为2013年6月至2016年6月,确定了44个要研究的城市,并从Instagram下载了1亿张图片。
他们使用了标准的人脸识别程序过滤掉所有不含人脸的照片,最后留下了1500万张仅显示上半身的图片,这些图片包括了拍摄的地点和时间。
接下来,他们训练机器学习算法来识别图片中的各种类型的服装和配件。例如,算法学会了识别人们是否穿着夹克、戴着围巾、领带、眼镜和帽子等。该算法还能够识别颜色、领口风格、袖长;T恤、连衣裙或背心等服装类别;条纹、格子等服装图案。
最后,他们使用聚类算法将数据集中的照片聚类成簇,然后利用算法将具有相似视觉主题的图像归类,并追踪了这些簇在不同时间、地点的变化趋势。
结果很有趣。聚类算法找到了约400种不同的视觉主题,如穿着白色T恤和戴着眼镜的人,或穿着红色的V领上衣或黑色连衣裙,或者不穿上衣的人!
然后,Matzen及其同事研究了这些视觉主题是如何随着时间和地点的变化而变化的。例如,他们发现,某些颜色呈周期性的变化——黑色和棕色在冬天更常见,白色和蓝色在夏天更常见。
图丨Instagram上的服饰照片
其他颜色显示了不同的特色。例如,红色的流行性正在下降。尽管相比于黑色和白色,红色的周期性需求更小,但是它也会时不时地受到欢迎。Matzen及其同事指出,在10月和12月底,红色通常较流行。他们解释道,这种现象可能与圣诞有关,在圣诞期间,红色的圣诞老人帽、红色的万圣节服装,以及红帽子的需求都非常大。
他们还发现,在2014年6月~7月的足球世界杯期间,黄色T恤突然在哥伦比亚和巴西流行起来——这两个国家的足球队都穿着黄色T恤。
他们还注意到服饰随地理位置的变化趋势:北方的国家通常喜欢夹克,越往北这种趋势越明显,这种现象大概是由北方较冷的天气所造成的。
在寒冷地区的国家,帽子也非常受欢迎。但奇怪的是,位于中东的阿曼却是世界上喜欢戴帽子的国家之一。“另外,kuma 和 massar 在阿曼也很受欢迎,它们是阿曼男士民族服饰的重要元素”,Matzen及其同事说道。
某些服饰是某些地区特有的。例如,尼日利亚的头戴领带“盖里(gele)”就是拉各斯(尼日利亚旧都)的独特装饰,而其他服饰,像蓝色领衬衫、格子衬衫和黑色T恤随处可见。
这些有趣的工作表明,机器学习在梳理我们的社会文化结构方面极具潜力。
当然,这种研究方法还有缺陷。例如,该算法还不能区分具有不同作用的太阳镜和验光眼镜;研究使用的图像也不能代表整个社会,Instagram的用户大多数是年轻人;研究中使用的图片都是经过剪切的,只能看上半身;确定人是站着的还是坐着的,或者他们在做什么,这些任务都是机器视觉面临的挑战。
但是,在未来的工作中要克服这些不足并非没有可能。未来,将该数据集与其他多种数据集(如天气、温度数据集)联合分析,也是可能的。
正如Matzen及其同事得出的结论:大数据、机器学习、计算机视觉和自动化的分析算法会广泛用于时尚界和其他领域,它们是非常强大的数据分析工具。
-End-
编辑:Steven
参考:https://www.technologyreview.com/s/608116/data-mining-100-million-instagram-photos-reveals-global-clothing-patterns/?set=608109
2017年度《麻省理工科技评论》“50大最聪明的公司”榜单【预告及参会福利】,详情点击下图↓↓↓