本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第十回。在这一回中,陈宗周先生将为我们带来计算机视觉在近半个世纪的发展历程。这个从MIT实验室走出的全新领域,正逐步走进普通人的生活,成为我们认识这个世界的第二双眼睛。
陈宗周是《环球科学》杂志社社长,《电脑报》创始人。
2017年央视的315晚会上,出现了一段颇有技术含量的精彩插曲。这段对高科技“打假”的节目,立刻引起了热议。
为避免有人通过视频或动态图蒙混过关,人脸识别系统除了人脸比对,还包含了活体检测程序。而在晚会中,主持人现场演示了攻破检测程序的手段。通过技术处理,一张现场观众的静态照片转变成立体的人脸模型。随后,主持人对准手机镜头,将观众的3D脸模套在自己的脸上。随着主持人根据人脸识别系统的要求,做出眨眼、侧头、转头、微笑等规定动作,屏幕上的脸模也同步做出这些动作。完成这些动作后,识别系统居然没有察觉,随着系统显示识别成功,全场哗然,主持人就这样骗过了号称黑科技的人脸识别系统。
场内一片哗然,场外更是如此。AI专家,尤其是计算机视觉与人脸识别专家们群体行动,对央视的表演进行反打假,证明人脸识别系统没有那么弱智,要攻破现在已广泛应用、安全系数极高的“刷脸”验证技术,也没有那么容易。百度在节目播出后5分钟内迅速作出回应,邀请百度深度学习实验室主任林元庆,在百度科技园的人脸识别闸机做一次亲身验证,模仿央视315晚会的场景,看自己公司的人脸识别系统能否被一段视频、一张照片骗过,结论当然是否定的。阿里巴巴的支付宝也很快作出回应:“你们都觉得我躺枪了吗?”阿里很有信心,支付宝的人脸识别准确率超过99.6%,结合眼纹等多因子验证,准确率能达到99.99%,超过人眼识别97%的准确率。而且,在实际应用中,支付宝还有其他辅助手段保证安全。否则,马云敢在2015年的汉诺威CeBIT大展中,为德国总理默克尔演示支付宝的刷脸消费?
上海中科计算研究所所长人孔华威反应更为激烈,他甚至认为,央视315晚会的报道是片面的,实际上构成了对AI新技术的打压。
央视打假与被专家反打假,余波还会持续下去。但不争的事实是,央视这段节目,使人脸识别这样的AI新技术,得到前所未有的关注与普及。
人脸识别,是计算机图像识别的重要应用。而图像识别,又是计算机视觉领域中的重要技术。
计算机视觉(Computer Vision,CV)是AI中的一门交叉学科,主要解决让机器看的问题。人类认识世界,有耳朵和眼睛这两个重要感觉器官。计算机语音技术让人耳聪,计算机视觉技术使人眼明。计算机视觉研究如何用摄像机等视觉传感装置代替人眼对物体进行识别、跟踪和测量,并由计算机处理这些视觉信息,从而达到像人眼一样对事物进行感知和认知。简单说来,计算机视觉是看的科学。计算机视觉可以看成人类的第二双眼睛。
人类获取的外界信息,80%来自视觉,我们得到的所有信息中,视觉信息最丰富且复杂。经过长久进化的生理构造,使我们很容易能够看清楚并理解身边的场景,但是要让计算机处理这些视觉信息,却非常困难。所以,与AI中一些学科相比,计算机视觉是起步比较晚的新兴学科。
20世纪50年代,计算机开始用来进行一些二维图像的分析和识别,如光学字符、显微图片、航空图片等,这类工作,被划入模式识别。而模式识别本身也很年轻,到60年代才成为独立学科。至今,计算机视觉和模式识别仍然是联系得很紧密的学科。
也是在60年代,MIT的罗伯茨(Roberts)才开始用计算机程序分析三角体、立方体等简单物体,虽然只是研究辨识度很高的简单白色积木玩具,但却使计算机视觉进入了三维空间,有人把计算机视觉的这一时期称为积木时代。
到了20世纪70年代中期,MIT大名鼎鼎的AI实验室,第一次开设了“机器视觉”这门课程,由颇有名气的伯特霍尔德·霍恩(Berthold Horn)教授授课。定名为机器视觉非常自然,因为计算机视觉发展一直受到机器人学科推动,机器视觉始终是机器人的关键技术之一。
当时,MIT的AI实验室主任是明斯基,由于他的声望,吸引了国际上许多知名学者参与计算机视觉的研究工作,戴维·马尔(David Marr)就是其中一位,他在这里建立了计算视觉的理论框架。
马尔1972年在剑桥大学脑科学专业博士毕业后,1973年受明斯基邀请来MIT的AI实验室做访问学者。1980年,他在这里成为正教授,不久因白血病不幸去世,年仅35岁。他的生命,在这短暂时间内完成升华——他奠定了今天红遍全球的计算机视觉学科的基础。
1977年,马尔第一次系统描述了计算视觉(Computational Vision)这个领域,其中包含了计算机视觉(Computer Vision)和计算神经学(Computational Neuroscience)两个分支学科,他的工作对认知科学(Cognitive Science)也产生了深远影响。
马尔思想的精华,都汇聚进一本书里。得知来日无多,他争分夺秒整理,想完成这部著作。但令人遗憾的是,他仍然没能亲眼看见自己的开创性著作出版。这本名为《视觉:从计算的视角研究人的视觉信息表达与处理》(Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information),在他去世后两年,1982年由学生和同事修订出版。
尽管生前未能目睹,马尔却因这一名著而不朽。他对计算机视觉的贡献,加州大学洛杉矶分校的著名学者、统计和计算机教授朱松纯教授这样评价:基本上,他定义了这个学科的格局。
左图:学生时代的马尔;右图:马尔(图中左一)与同事
马尔对计算机视觉的贡献是开创性的。他提出了解决视觉问题的三个层次——计算(表达)、算法、实现;理清了视觉到底要计算(表达)什么,并给出了包括纹理、立体视觉、运动分析、表面形状、光照、深度等一系列表达。他还把计算机视觉处理描述为三阶段,第一阶段将输入原始图像抽取出角点、边缘、纹理、线条、边界等基本特征,特征的集合称为基元图;第二阶段由输入图像和基元图恢复场景可见部分的深度、轮廓等,这还不是真正的物体三维表示,称为二维半图;第三阶段由输入图像、基元图、二维半图,恢复和识别三维物体。
这一理论大大推进了计算机视觉科学的发展,为纪念他的贡献,从1987年第一届国际计算机视觉大会(ICCV)开始,连续20年以马尔的名字来命名最佳论文奖,这是计算机视觉学科最高的荣誉。
马尔主导了计算机视觉多年,直到现在,还有学者不断研究马尔的著作,常常会产生新的感悟。他的书于2010年再版,在亚马逊仍然是畅销书。
理论框架建立后,计算机视觉取得了长足的进展。进入20世纪80年代,光电传感器等硬件取得了很大的突破。1969年由贝尔实验室发明的CCD(电荷耦合器件)传感器,在80年代分辨率得到很大提高,高质量的CCD光电传感器应用于摄像机等设备。90年代,CMOS(互补金属氧化物半导体)光电传感器开始登场。CMOS采用大规模集成电路工艺生产,不但体积小、成本低,还能与电路中的其他元器件融合,制成CMOS单芯片光电传感器微系统。这样,高质量、价廉的CMOS传感器得以大量应用于手机、照相机、摄像机、摄像头等设备。曾经昂贵的图像和视频信息采集手段,达到人人拥有、无处不在的空前普及程度。DSP(数字信号处理)芯片的出现,则大大提升了图像处理的质量和速度。同一时期,互联网热潮兴起,随着互联网的普及,尤其是图片和视频网站的发展,人类社会的图像信息以惊人的速度得到积累,达到图像爆炸的程度。这造成了两方面的影响,一是计算机视觉技术必须有所突破,才能满足需求;二是图像大数据的积累,也为计算机视觉发展打下深厚基础。
在应用方面,20世纪90年代之后,计算机视觉技术已经开始广泛应用于工业制造过程监控、机器人、安全防护等广阔领域。
2001年,有两个轰动性的事件促进了计算机视觉的发展。在当年的国际计算机视觉大会(ICCV)上,Paul Viola 和 Michael Jones发表了实时图像识别论文,并把摄像头对准大家,图像中现场所有人的脸都被圈出来。这在当时引发了轰动,人们第一次看到图像识别有了实际应用成果出现。另一个爆炸性事件则是911。911后美国政府为了反恐,要求在各种场合普遍使用摄像头视频监控系统。因此,计算机视觉技术得到大量的经费支持。
20世纪的第二个十年,期待已久的突破出现了,极大影响计算机视觉的明星AI技术终于登场,这就是我们今天已经非常熟悉的深度学习。在2012年的ImageNet图像识别大赛上,欣顿的学生采用深度学习技术,获得了颠覆性的胜利,改变了学术界和企业界。从那以后,深度学习深刻影响了AI的几乎所有领域。计算机视觉,是受到深度学习最大影响的学科之一。
与每个人工作生活密切相关的人脸识别,是计算机视觉的重要应用,越来越广泛地应用在安全监控、医疗健康、银行保险、电子商务等领域。所以,央视315晚会从保护消费者利益出发,选择对人脸识别“打假”,有一定道理。
攻击人脸识别的技术并不新鲜,2016年CVPR前夕,一篇由德国埃尔朗根-纽伦堡大学、马克斯•普朗克计算机科学研究所、斯坦福大学3家学术机构5名科学家撰写的论文《实时人脸捕捉和再扮演—— Face2Face》就曾经引起科技圈的关注。CVPR全称为计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition),是一年一度的视觉领域最高学术会议。这篇引起热议的论文结论是:通过密集光度一致性技术,实现跟踪源和目标视频中脸部表情的实时转换,由于间隔的时间很短,使得复制面部表情成为可能,但现在还没办法将声音也一样模仿出来。
由于论文指出了在特殊条件下,攻击人脸识别系统存在一定可能性,现在对安全要求极高的应用中,人脸识别系统同时采用多重手段进行交叉验证,确保万无一失。AI专家们想让公众知道这一点,他们群体发声,还想让大家了解人脸识别的技术含量。
让机器自主识别
人脸识别属于人体生物特征识别,与其他生物特征如指纹、虹膜等一样,与生俱来。但是,与指纹、虹膜识别相比,由于人脸会随着年龄而变化,人脸识别难度要高很多,必须集成应用众多的AI技术。所以,人脸识别是图像识别技术成熟的标志,甚至被认为是弱人工智能向强人工智能转化的标志之一。
正由于这项工作的挑战性和广阔的市场前景,吸引了全球科学家的研究兴趣。与计算机语音一样,计算机视觉也是华人科学家云集的AI研究领域。在他们的共同努力下,中国与此相关的学术研究和产业发展成就引人注目。
讯飞、百度、阿里等中国AI领头公司正在紧追微软、谷歌、脸书等国外同行,一批新兴的计算机视觉创业公司同时在中国涌现,产生以“一桶筐汤”(依图、格灵深瞳、旷视、商汤)为代表的创业公司群体。对于这些公司的国际竞争力,总部在西南重庆地区的中科云丛科技CEO周曦这样描述: 国产人脸识别在实际应用中已远超德日厂商。像周曦这样有国外留学背景并在全球顶尖AI机构工作过的创业者,已经成为计算机视觉行业和其他AI领域创业公司的主力。
国家也大力支持AI项目,国家发改委公布2017年重点支持AI项目,云丛与百度、腾讯、讯飞等民营高科技企业同时出现在名单中,成为AI“国家队”。中国计算机视觉产业的未来,前景可期。
在计算机视觉技术应用方面,中国也有诸多创新。2017年3月《光明日报》客户端上线了“小明AI两会”功能,首次将图像交互等AI技术应用于两会报道。用户通过手机拍摄或者从《光明日报》刊载过的图片中选取一张全国两会代表委员照片,“小明”就能识别出照片中的人物,并显示这名代表委员在履职期间关注的主要领域,以人物图谱的形式,展示与其关注同样领域的其他代表委员。同时,还可以通过文字的方式介绍以往对这位代表委员的报道。《光明日报》应用计算机视觉技术,是媒体行业的一种尝试,事实上,还有很多行业有待于用这项技术去开拓。如果说语音交互可以使万物互联,图像交互同样可以实现万物识别、万物交互。甚至,计算机视觉和图像视频处理、VR、AR等技术结合,可以实现真实世界和虚拟世界的交互。
计算机视觉有了这些惊人的发展,但仍在方兴未艾之中。2012年,谷歌公司的一篇论文在全球引起轰动,他们的谷歌大脑(Google Brain)通过自己观看视频,认出了一只猫。
谷歌大脑由吴恩达领头创建。2010年,时任斯坦福大学副教授的吴恩达加入谷歌开发团队X实验室(XLab)。2011年,吴恩达建立了谷歌大脑项目,项目为分布式计算的大规模人工神经网络。吴恩达团队用了16000个GPU芯片,构建了有10亿突触的人工大脑,尽管与人类大脑突触数目还差几个数量级,但这已经是一个很庞大的深度学习神经网络系统。项目开创后不久,吴恩达离开谷歌公司去了百度,并在那里创建了百度大脑。
谷歌大脑可以完成很多的工作,图像识别也是其中之一。那么,能不能在没有帮助的情况下实现自主识别呢?谷歌的研究小组开始了最初的尝试,让计算机自己去发现猫。从小在越南乡村长大、父母是普通农民的Quoc Le主持研究工作。他们在视频网站YouTube上找到数百万帧静态视频图片,这些图片都没有经过任何标注。然后,他们让谷歌大脑自己去看这些视频图片。谷歌大脑神经网络的感觉中枢开始运转计算,从众多图片得来的信息中分离出了一个稳定的模型。最后,这一模型毫不犹豫地识别出猫的脸。就像小孩辨认出猫那样喜悦——那是一只猫。
识别猫脸前,谷歌大脑对猫的定义和知识一无所知。神经网络自己直接与现实世界交互并且抓住了“猫”这一概念。研究者发现,猫的脸部阴影会激活谷歌大脑的人工神经元。
谷歌大脑能通过视频图片自主学习到猫这样的高级概念并能自动识别,是计算机视觉和AI历史上了不起的成就,这只特殊的猫,就成为著名的谷歌猫(Google Cat)。
谷歌猫这样的故事,打开憧憬计算机视觉未来的一扇窗口。随着AI技术突飞猛进的发展,计算机视觉这人类的第二双眼睛,正在被我们擦亮。
AI传奇专栏回顾:
第九回 | 机器神医创造的精准医学奇迹
第八回 | AI掀起教育史上一场数字海啸
第七回 | 机器翻译为人类重建巴别塔
第六回 | 语音合成,在校生书写讯飞传奇
第五回 | 深度学习登台语音识别
第四回 | 助飞的双翼
第三回 | “深度学习之父”杰夫·欣顿
第二回 | AI的酷暑与寒冬
第一回 | 2016,AI春暖花开
转载请联系:[email protected]
阅读更多
内容合作请联系
[email protected]