「我越来越明确自己的兴趣点——把技术研究与现实世界里的问题结合起来,去解决真正的问题、创造价值。」阿里云视觉计算团队负责人华先胜说。华先胜是视觉识别和搜索领域的国际级权威学者,曾被评为 IEEE Fellow、ACM2015 年度杰出科学家、MIT TR 全球 35 位 35 岁以下的杰出青年创新人物,曾担任 ACM Multimedia 等大会程序委员会主席。
2015 年,华先胜离开职业的起点微软研究院,选择加入阿里巴巴。这在很多人眼里是一个不容易理解的选择,但在华先胜看来,理论研究有价值,但把这些技术放在一个切实的应用场景中让更多人使用同样有意义。
在阿里巴巴的第一年,华先胜负责电商图片搜索技术的优化,推动了手机淘宝、天猫中的「拍立淘」的技术开发,让用户通过手机拍摄物品照片搜索相同或者相似的商品,这正在成为一种更为高效的商品搜索方式。有数据显示,2015 年双 11 当天,千万消费者使用「拍立淘」功能,达成了超过数千万元的销售额。
随着云上的视觉计算需求量越来越大,2016 年初,华先胜转入阿里云并创立视觉计算团队,目前该团队隶属于人工智能研究机构 iDST 团队。2 月 27 日,机器之心对华先胜进行了独家访谈,他介绍了视觉计算团队所推动的研究进展与突破,以及他对AI行业发展的看法。
视觉计算团队实现了哪些突破
机器之心:能否和我们分享一下,您带领的阿里云视觉计算团队的工作有哪些突破性进展?
华先胜
:视觉计算团队成立以后就针对几个大的场景,包括监控、交通、安防、人脸、个人图片、医疗等,其中最重要的一部分实际上是城市大脑里面的视频分析,这里面的突破,我觉得可以分为几个方面:
第一是大规模视频分析,我们处理的城市数据量非常大,甚至远远超过电商的数据,这里面涉及到我们要去实时处理分析大规模的视频,所以要依靠阿里云高效力计算平台,构建一套大规模视频数据分析平台;
第二是把电商的图像搜索技术,延伸到城市场景里面来,叫做城市图搜或者叫城市搜索,专业一点的语言甚至可以叫索引整个城市,城市视频数据图像数据那么多,当然会有查找的问题,比如一辆车、一个人、一个物等,这跟电商有相似之处也有不同,从视觉角度来做的,这其实也是非常困难的事;
第三是我们可以对城市里面发生的,交通事故、违章停车、横穿马路等特殊交通事件进行检测和识别。
机器之心:视觉计算团队在研究方向上会有明确的侧重点吗?
华先胜
:一方面,要确保在云计算上进行大规模的视频分析必须充分可行,必须不断进行算法的优化。另一点就是继续深入行业,在各行各业去挖掘金矿,让算法在里面能够得到优化,把一个个行业吃透,为客户带来真正的价值。当然还有像深度学习本身算法的研究还是有很大的空间,这也是我们接下来要做的事情。
机器之心:城市大脑是您所在团队的一个重要项目,除了城市道路的管理、路况预测、交通调度的优化,它还有其他方面的应用方向吗?
华先胜
:目前城市大脑以交通方面的应用为主,包括路况检测识别和交通优化等。城市大脑既然是「大脑」,当然应该有更多的功用,包括安防,城市规划,环保,旅游等等。安全防护方面,如上所述,对人、机动车、非机动车等的实时索引,可以提升城市的安全防控能力;还有对一些异常事件,例如塌方、水淹、漏水、交通事故等等,能够快速警报,这个时候,能争取 1 分钟提前警报都会有很大的价值,例如,可能因此而挽救一个人的生命。
当然,很多技术还在研究迭代当中。另一方面,除了城市摄像头的数据,还有卫星数据、无人机数据等等,对城市的规划、环保等等也能起到检测作用。总体来说,就像是整个城市的一个眼睛,其实不是一个眼睛,像是复眼一样,而且不仅仅是看,还要理解识别,要看全、看清、看透,并作出相应决策。
机器之心:高效准确地对路况进行仿真预测是破解交通问题的难点,可否具体介绍一下这里应用了怎样的算法去进行实时交通预测?
华先胜:
我们首先要对整个城市及其交通状况有一个全面、清晰、透彻的了解。要看全,因为城市的摄像头非常多,看全就涉及到刚才讲的大规模视频处理,也包括以前在交通领域里还无法获取的信息,比如行人的信息,过去的交通模型里面其实是没有办法使用的,因为没有办法获取信息,车辆的信息还可以通过其他手段得到一部分,比如说通过地面上的感应线圈也可以得到,当然这个是比较粗一点,车的类型是没办法知道的。第二是通过 GPS 采样信息,但是也不够完整,视频的信息是可以看得非常完整,看到整个车流和人流。
看得清晰,在技术上来讲,是要看到到底有多少车经过,车的类型是什么,车牌是什么,走到哪里去,左转右转还是直行,速度是多少等,也包括到底多少行人在占用人行横道等,这些对交通的优化都是非常重要的信息,也是过去无法获取的。
从看得透彻的角度来讲,实际上是挖掘大量数据之间的关系,从而发现这个规律,或者说发现他们之间的相互制约性,从而得出决策。举个例子,比如说在交通的优化当中,我要优化红绿灯,我不能只看这一个路口的信息,要看很多的路口,因为你如果把这一个路口解决了,有可能反而造成别的路口更加拥堵。
有了这样三个层次的了解之后,才是交通模型。作为我们云计算公司来说,是要在更大规模、更准确的数据状况下,尤其是视觉数据,再加上交通专家的研究成果、交管部门实际经验,我们一起来解决交通的建模和优化问题。
机器之心:在遇到交通事故或是拥堵问题时,利用什么评价指标体系来推演获取最佳的解决策略?
华先胜:
通常来说,我们看到车流情况以后,其实就可以对红绿灯进行优化了。做离线的优化,是根据每天的规律,或者每周长时间的规律,对红绿灯做一次性离线的优化,以及配时方案,星期一早上几点到几点是什么样子,中午、晚上是什么样子,星期二是什么样子,每天不一样的方案。
对交通事故的应对需要实时调控,这里也分两类,一种是已经堵起来,还没有堵死的时候已经看到这个趋势,可以对红绿灯进行管控,一个方向时间延长,另外一个方向减少时间等,这是对红绿灯的调控。更聪明的一点做法,我们如果观察到一些事故发生,就对它的规模、可能带来的交通问题做一个大概的估计,提前做出疏导预案,这是可以做到的。
机器之心:能否为我们详细介绍一下,城市大脑项目中的实时和离线这两个视觉计算平台中的关键技术点和数据规模?
华先胜
:这是很好的问题。阿里云的计算平台,叫做飞天系统,你可以把它看作是一个超级的计算机。飞天的离线计算和实时计算,这一套系统有 100 万个 CPU 的核,这个是相当大的数量了。有 60 万块硬盘,有一个 EB 的能力,这个 EB 是 1024 个 PB,一个 PB 是 1024 个 TB,一个 TB 是 1024 个 GB,这个量是非常得大的。视频分析背后依靠的就是这样一个大规模的这样一个计算的能力,必须有这样的能力在里面,才能够完得成这些复杂的大量的计算。
对于视频而言,当然我们在这里面也会有一点特殊的地方,因为视频处理有它的特点,比如说数据量大、吞吐量大、计算消耗也非常大。我们在这个基础上,跟计算平台一起,让计算平台能够处理这些视频数据。用比喻来说,就是它能吃得进去,消化得了,并把这个营养吸收得了,最终产生结果。
但这里面的视频处理有特殊性:视频处理有时间上的相关性。比如说我们对某一当前时刻图像进行处理的时候,是依赖于前面的若干时刻图像的,所以在视频里面要很方便地处理这种逻辑。再比如说像交通的场景下,甚至是我当前的视频需要跟别的好几路视频合在一起才能形成一个决策,比如说像红绿灯的管控,我光看一个路口的一路肯定是不行的,甚至光看一个路口的四路也不行的,我要看好几个路口一起来决策,这就是在物理的空间上也是有相关性,我经常把这叫做「时空的相关性」。在这种情况下能够顺利完成计算,从而实时得出决策,这都是通过平台才能达到的。对于算法专家来说,更多的精力是放在算法的研发上,提升算法准确性和本身的计算效率。
机器之心:在离线和实时处理过程中,如果要达到理想的识别精度,比如道路车辆信息、路况信息等,需要多大规模的训练样本库?
华先胜
:这个是 case by case 的,对于简单一些的问题,要识别的目标特异性明显,和其他目标和背景的差异性大,就不需要太多的样本。当然,实际应用环境中的情况往往比较复杂,识别模型往往需要到实际应用中迭代优化。离线和实时处理是模型训练好之后的生产环境,不是训练环境。当然,模型的在线更新是和离线、实时处理系统在一起的。
机器之心:深度学习落地产业应用是近年来的发展趋势,计算速度也是衡量算法能否落地的一个重要性能。我们注意到,这个项目中计算速度的提升效果是非常惊人,单核 CPU 对单帧图片处理速度可以从 998ms 提升至 135ms,可否为我们介绍一下基于 Intel 的 MKL 加速以及在优化深度学习模型方面做了哪些努力吗?
华先胜:
其实我们最初的模型在 CPU 上的处理需花费 2600 毫秒,这个其实是相当慢的。后来我们跟英特尔合作,利用英特尔的 CPU 上的优化,在单核上压缩到 900 多毫秒。后来我们再通过算法本身的优化,包括模型的结构优化,参数的优化等等,就降低到 130 多毫秒,这又提升了很多倍,整个提升了十几倍。这十几倍的提升,听起来可能没什么感觉,但对于大量的计算资源来讲是非常重要的。如果你只要一台、两台机器做事情,还不是太大的问题,假如你要 1 万台、2 万台机器同时运行,那就是一个很大的事情了。这个量的相差是非常非常多的。所以大规模计算的效率也是非常重要的方向。
机器之心:深度学习计算加速技术的实际应用中,您认为哪一种是更符合工业界需求:GPU (M4) 加速,CPU (Intel MKL) 加速 或者 FPGA 加速?
华先胜
:各有千秋吧,当然仅结合 CPU 的特性来优化还是很有挑战的。技术上,FPGA 当然要复杂一些,但成本上应该更优一些。
机器之心:人脸技术作为计算机视觉中较为重要的课题,阿里云的人脸识别技术在服务端和手机端分别达到了 99.53%、98.93% 的准确率,能否分享一下这背后的人脸识别技术及算法革新?
华先胜
:识别技术上和其他公司并没有关键的区别,但有一些其他方面的创新应用可以讲(例如 3D 试戴、试衣、试妆等),准确率可以说和主流公司提供 comparable,方法上除了流行的方法外,借鉴了拍立淘中电商图像特征学习的经验。
机器之心:人脸识别和图像识别技术的应用范围广泛,比如安全金融、智能审核以及图像编辑等,除了支撑阿里巴巴集团内部产品,是否也在推进与其他平台厂商的合作?
华先胜
:阿里云的视觉计算技术以对 B 端应用为主,当然也有to C 的。我们更多立足于用视觉智能解决各行各业的问题,过去不能解决或者必须人眼去看才能解决的问题,耗时耗力,变成简单高效。我们还着力打造生态,让第三方算法能够跑在阿里云的视觉计算平台上,为更多的客户、用户带来实在的价值。
机器之心:现在的人脸识别系统仍然主要依赖有标签数据的训练,但在特定的任务中特定群体(如刑侦或治安监控任务的小孩或青少年)的训练数据量不足导致了应用效果较差,以及图像质量不稳定或者目标有意的伪装都会影响识别。在未来的人脸识别中解决这些问题的方向是什么?