专栏名称: VALSE
VALSE(Vision and Learning Seminar) 年度研讨会的主要目的是为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。
51好读  ›  专栏  ›  VALSE

VALSE2017系列之三:人体姿态识别领域年度进展报告

VALSE  · 公众号  ·  · 2017-05-16 18:38

正文


本文经深度学习大讲堂授权转载。


编者按: 基于RGB图像的人体姿态识别,在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。来自香港中文大学的欧阳万里教授将带着大家回顾过去一年中,人体姿态识别领域在学术界的研究进展。 大讲堂特别在文末提供人体姿态识别领域最新文章的下载地址、以及欧阳教授组内工作的开源代码。



欧阳万里教授研究组的主页为:

http://www.ee.cuhk.edu.hk/~wlouyang/



什么是人体姿态识别?


给定一幅图像或一段视频,人体姿态识别就是去恢复其中人体关节点位置的过程。根据输入图像的类型,人体姿态识别算法可以分为两类:基于深度图的算法、以及直接基于RGB图像的算法。相较于深度图对图像采集设备要求过高而带来的应用易受限的问题,基于RGB图像的人体姿态估计算法具有更广的应用前景,并且在学术上也取得了很好的成果。目前,即便是针对比较复杂的场景下,基于RGB图像的人体姿态估计算法也能达到很好的识别效果。



人体姿态识别有很多应用:比如行为识别、人机交互、游戏、动画以及衣服的识别等等。



人体姿态识别回归or检测?


对于人体姿态识别问题,我们既可将其看作回归问题,亦可以将其看作检测问题。这两者的区别在于,对于前者而言,我们期望得到的是精确的坐标值(x, y);而对于后者而言,我们期望得到对应的热点图谱,用这个热点图谱的响应值来反映人体的不同部位,也就是说,不同部位获得的响应应该是不同的,对于感兴趣的区域(例如头部),需要返回一个较高的响应,而其它部位则响应相对较低。



采用回归的方式来解决人体姿态识别问题,效果并不理想。其主要原因有两方面:一方面是人体运动比较灵活,另一方面,回归模型的可扩展性较差,比较难于扩展到不定量的人体姿态识别问题中。因此,目前大家普遍使用的过渡处理方法是将其看作检测问题,从而获得一张热点图谱。



人体姿态识别挑战


在实际应用中,人体姿态识别也面临着几大问题,主要表现在三方面:1. 人体的肢体运动比较灵活 2. 视角的变化 3. 衣着的变化。这三方面导致人体各个部位的视觉信息变化较大,从而为人体姿态识别技术带来了极大的挑战。



人体姿态识别局部视觉信息


以上图标出的两个区域为例,如果不看全图的效果,仅根据局部的视觉信息,人眼是几乎无法识别出它们分别属于身体哪些部位的;而加上全图上下文信息之后,识别起来就容易得多。从这个例子我们可以看出,仅局部信息在人体姿态识别中是不够的,我们需要利用全局信息来为人体姿态识别提供辅助。



出于这种考虑,同时在深度学习与大数据引爆学术界的大背景下,如何针对人体姿态估计问题设计出专用网络结构成为了一个新兴研究方向。例如,来自密歇根大学的研究团队设计的Stacked hourglass network就是一种专门用于人体识别问题的网络结构。如图所示,这是一种沙漏型的网络结构,首先进行卷积处理,并进行下采样操作,获得一些分辨率较低的特征,从而使计算复杂度降低。为了使图像特征的分辨率上升,紧接着进行上采样。上采样操作使得图像的分辨率增高,同时更有能力预测物体的准确位置。通过这样一种处理,相较于其他网络,该网络结构能够使同一个神经元感知更多的上下文信息。



这种沙漏结构还具备可堆叠性,通过多个沙漏结构的堆叠,来组成新的更具表示能力的沙漏型结构。



注意力机制


基于已有的网络结构,输入一张图片,获得一张热点图谱。通过热点图谱,我们得到一个预测结果。但是,在这个预测结果中,相对于这张图片,对人体膝盖或者脚踝的预测是错误的。这个时候我们可以引入注意力机制--注意力机制,是通过网络隐式学到的模型,会把我们的注意力集中在人体相关的红色区域。通过对这些相关区域进行人体姿态运动的预测识别,可以获得膝盖、腿和脚踝部位相对更准确的预测结果。同时,注意力机制不仅可以应用于整张图像或整个人体,也可以应用到人体的各个部位。通过对人体的各个部位设计不同的注意力机制特性,来得到更好的人体姿态预测结果。比如示例中,通过引入部位注意力机制,我们得到了更准确的人体脚踝位置的预测结果。



人体结构化信息


同时在人体姿态估计过程中,还可以结合人体的结构化信息,这些结构化信息来自于我们的骨骼。比如人的头、手不能离身体太远,不然的话,真不知道会发生什么样的事情。



利用这种结构化信息,我们可以在深度学习的学习过程中,既学习特征,也学习结构化信息。








请到「今天看啥」查看全文