7月15日,由GDG上海谷歌开发者社区与UXPA中国行业观察站共同联合举办主题为“人工智能如何改变用户体验”的线下分享沙龙,邀请了人工智能不同领域专家分享交流、当天实际到场观众接近200人,嘉宾与观众进行了活跃互动。本篇为Face++产品负责人乔梁的分享实录。
什么是机器视觉?
我们先讨论一下什么机器视觉。关于AI其实有很多种行业的划分方法,比如根据行业来看,是面向哪个行业的AI,或者说基于在一个企业的运转流程中,帮助企业解决哪部分的问题比如解决财务问题、解决法务问题等。在这我介绍一种划分方法,这种划分认为机器视觉是一种感知能力。
简单来说机器视觉就是机器的眼睛,我们希望能帮机器看懂这世界上的所有万物。我列举了一些机器视觉案例,有最主要的手机摄像头、车载后视镜、肉眼不可见的结构光等,这些都是机器视觉的方向。
对于我们人类而言,眼睛、耳朵、鼻子是输入设备。我们用嘴巴说话、眉毛表达情绪,这是输出设备。对机器而言,摄像头是机器的输入设备。输入设备是交互的一些方向,最早可追溯到可穿戴设备、智能手机、键鼠、手写。相较于其他设备,摄像头是不需要人工参与的无感知输入。
人机交互 以人为本
经由摄像头做交互,依然是以人为本。我们根据摄像头在接触对象时的交互划分为人脸、人体、人群三个方向。
首先是人脸,以下基本是人脸的核心技术,也是目前各大公司所在使用的技术。这些技术包括:
人脸检测:检测并跟踪视频或画面中的人脸,并返回人脸框。如果要分析一张脸,前提是先检测到有脸,所以人脸检测是其他人脸计算的基础。而人脸检测的好坏,有两个角度判断评判,检出物和误检物。检出物,只要这里就张脸,不论大小、角度机器就应该检测出来。误检物,如果那里没有脸,不能把它认为一张脸。
关键点检测:检测面部的 106 个关键点,并精准定位。它的用处比如美图应用里大眼、瘦脸功能,短视频里的贴纸等,需要关键点去定位,对人脸进行上层渲染。好的关键点算法应该在稳定性、贴合度上表现优异。
人类属性分析:分析一张人脸中所有的潜在信息。包括年龄、性别、微笑程度、胖瘦、颜值、眼睛睁闭、是否带眼镜、情绪、人种、脸型、肤质、肤色等。在商业地产、广告行业等能利用大数据识别正在看广告的人,来精准营销。
人脸比对:抽取人脸中的特征,并与另外一张人脸特征进行比对,以判断这两张人脸是否为同一个人。目前该技术主要基于2D,广泛应用于身份核验场景,包括金融、安防、共享经济等。但会出现无法判断当前对比是否为活体的问题,所以一方面我们要提高比对的精度,另一方面结合活体检测技术。
活体检测:判断当前“刷脸“对象是否为真人的一种技术。活体检测的方法一直在迭代,比如目前支付宝里有眨眼做动作等配合式活体检测,而我们希望能实现更好的无感知检测。
视线检测:视线的起点是瞳孔,终点是目标物,两点成一线。视线检测就是告诉我们这条线的终点聚焦在哪里。视线检测可用于分析专注程度、专注时间和专注内容,比如一些汽车的驾驶场景判断司机的眼神,以及学习应用判断学生的专注度。
头部姿态:头部姿态用以分析面部偏离摄像头的角度。通常用 Roll, Yaw, Pitch 来表示3个维度上的角度。基于头部姿态,可对用户的头部动作进行分析。直播中常用的贴纸可借此实现旋转变形,自拍无人机可据此决策飞行角度。
其次是人体相关算法。
人体检测:检测并跟踪画面中的人体,无论这个人是正面、侧面或是背对镜头。主要用于安防场景
骨骼检测:通过骨骼检测,可解读一个人的肢体语言。站、坐、卧、蹲、举手,均可通过骨骼检测分析出来。
手势识别:与人脸识别一样,首先要检测有没有手,再跟踪画面中的手,并识别特定的手势动作。
最后是人群相关算法。
人脸聚类:利用人脸比对技术,将属于同一个人的照片聚类到一起。
人数统计:对公共场所中的人数进行统计,从而分析出人流情况、客流情况、热力区域、热点时段等信息。可用于广告效果监测、安防监测等常见。
人流密度分析:分析一个区域的人流密度,并给出区域热力图。从微观角度,这项技术可用于商超的货架归类优化;从宏观角度,这项技术可用于一个城市的安防布控。
无感知交互的应用领域
无感知交互相较于传统交互,有非接触、非配合和无意识的特征,具有能根据当前交互对象的行为、表情自动进行调节的优势。以Amazon Go为例,它利用人脸识别、骨骼检测、活体检测等技术,进行客户VIP识别、购物过程的行动轨迹分析、商品识别等。今年淘宝造物节的无人购物体验店的整套系统就是用我们公司提供的技术。
未来无感知交互技术能广泛应用于更多的领域。