近日,江苏卫视《最强大脑》第四季人机大战第三场已经结束。从未失算的“水哥”王昱珩,在图像识别方面与搭载百度大脑的小度机器人进行实力交锋。最终,“小度”以2:0的战绩战胜对手,并以3:1的总战绩,斩获2017年度脑王巅峰对决的晋级资格。
本场竞赛题目为 “核桃计划”:通过三段在夜幕下分别从行车记录仪、高位摄像头和女生手机中拍到的模糊动态影像中,让“小度“和水哥识别三位“嫌疑人”的特征后,从30位性别相同、身高体重年龄均相似的候选人现场拍照中,准确找出三位“嫌疑人”。
比赛虽已结束,但对于相关人工智能识别技术的讨论仍在继续,本文仅从技术角度阐释本场的难点及背后的技术解析。
一、
比赛难点:动态识别
相较于第一期的跨年龄人脸识别,本次识别的动态性为是识别技术需要突破的主要难点。
光照问题
面临各种环境光源的考验,可能出现侧光、顶光、背光和高光等现象,而且有可能出现各个时段的光照不同,甚至在监控区域内各个位置的光照都不同。
人脸姿态和饰物问题
因为监控是非配合型的,监控人员通过监控区域时以自然的姿态通过,因此可能出现侧脸、低头、抬头等的各种非正脸的姿态和佩戴帽子、黑框眼镜、口罩等饰物现象。
摄像机的图像问题
摄像机很多技术参数影响视频图像的质量,比赛中的视频场景较暗,使采集的图像质量也受到影响,有效信息被弱化。
丢帧和丢脸问题
动态监测中,人脸在某一帧可能是模糊不清的,出现丢帧或者丢脸的现象,为识别带来挑战。
二、
动态人脸识别技术解析
动态人脸识别主要通过三步实现:在视频中进行人脸跟踪和监测、进行通用人脸识别模型的训练、实现不同场景下的人脸识别。
Step1:人脸跟踪检测
用深度学习的方法对视频中出现的人脸进行跟踪和检测,在跟踪过程中提取质量较好的照片。
Step2:通用人脸识别模型训练
人脸检测:
根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸,即在在一副图像或一序列图像(比如视频)中判断是否有人脸,若有则返回人脸的大小、位置等信息。