专栏名称: 36大数据

关注大数据和互联网趋势，最大，最权威，最干货的大数据微信号（dashuju36)。大数据第一科技媒体。不发软文，只做知识分享。

视频大数据的相关技术和分析流程

36大数据 · 公众号 · 大数据 · 2017-05-24 10:05

正文

视频大数据分析又称智能视频分析，指的是通过算法，高效处理海量非结构化的视频图像数据，实现对数据的快速检索、智能识别和理解。近年来，视频数据的价值逐渐得到大家重视，通过计算机替代人力来挖掘视频数据价值正成为数据所有者非常关心的问题。目前，视频大数据分析技术逐渐在政府、金融、商业等领域得到应用，甚至成为了无人机、无人驾驶汽车、 VR、机器人等新兴领域的关键技术。

接上篇：视频大数据的商业价值和应用领域：零售/广告/无人机/VR/AR http://www.36dsj.com/archives/52968

但是，技术的难度显而易见。视频数据除了具备一般大数据的典型特征，还具有数据维度更多、数据量更大、非结构化等问题。尽管计算机具有比人类大脑更好的记忆力（机器不会体力不支或者遗忘），但是分析能力远远落后于人类。一个二三岁的小孩，我们只需要一个场景或者一张照片就可以教会他“小狗是长啥样的”，他下次碰到另一条狗（正常的狗），一般就能识别出来。但是，我们要让计算机学习“什么是狗”却是一件非常难的事情。在视频数据分析时，计算机需要区分视频图像里面的目标、识别出其行为特征甚至对其未来的行为进行预判，本质上是让计算机具有人类“眼睛”和“大脑”的功能，技术难度非常大。

互联网和科技巨头云集，布局视频分析核心技术，特别是以深度学习为基础的计算机视觉技术。近年来，以深度学习算法为基础的计算机视觉技术的进步为视频大数据分析提供了强有力的武器，反过来，视频大数据也为机器训练提供了丰富的资源（大数据是人工智能的燃料）。该领域正处于萌发期，大公司和初创团队都有机会。由于先进的算法技术主要发端于学院，所以目前国内外专注于计算机视觉技术的团队主要来自于科研院所。

视频分析技术和云计算技术相结合，创新盈利模式。预计仍然会以项目制为主，但云计算的引入提供了更好选择。例如，视频监控即服务（ VideoSurveillance as a Service， VSaaS）模式、旷视科技的智能云平台、极视角的计算机视觉 PaaS 平台等都是按服务来收费。未来，计算机公司如果能实现基于视频数据的运营，切入到应用领域，将是商业模式的革命性进步。

2、数据的采集、压缩和存储是视频大数据分析的前提

2 .1 、数据采集

视频数据往往是通过摄像机采集的。这一领域目前处于较为成熟的阶段，趋势是向高清化、网络化、真实化的方向发展。清晰度的高低往往决定了视频数据的价值大小，较高的清晰度可以降低视频处理和分析的难度。下图介绍了目前主流厂家的高清摄像机，其中不仅包括了常见的监控摄像头，还包括家用摄像机。

2 .2、数据压缩

视频压缩的目的是为了保证在维持一定质量的前提下最大化视频压缩比。目前，全球视频数据总量每两年翻一番，但视频压缩效率每隔十年才提高一倍，所以迫切需要更有效的视频压缩方法以解决视频传输与存储等问题。目前，主要通过编码技术减少数据冗余的方式，最大化压缩比。现有高效视频编码主要研究可以归结为两类优化：一是如何进一步提高编码效率。二是如何有效降低编码复杂度。

2 .3、数据存储

在视频监控领域，常见的视频存储设备有硬盘录像机(DVR)、网络视频录像机(NVR)以及存储区域网络(SAN)。其中， DVR 适用于小型监控系统； NVR 适用于远距离监控； SAN 具有很强的存储扩展能力和故障隔离能力，适用于大规模监控网络的视频数据集中存储。

视频存储的发展方向是采用云存储系统来保存海量的视频数据。常用的云存储系统有开源的 Hadoop 分布式系统内臵的 HDFS 文件系统，该存储系统会把一个完整的视频文件按固定大小分割为若干块，然后将各个文件块保存在不同主机的硬盘上，且提供数据块多机备份机制，提高了数据安全性。云存储系统能将异构存储设备组建成一个巨大的虚拟存储池，按需动态扩张存储容量，满足海量视频存储需求，提供 TB 级的视频输出带宽，而且由于云存储和云计算的紧密结合，可在视频大数据之上构建各种服务与应用。

3、视频大数据分析的三大层次

视频大数据分析需要解决三个层次的问题，一是目标检测和跟踪。目标检测是从背景中找出我们关心的物体，可以不知道“是什么”。高级的目标检测就是目标识别，因为其不仅把目标检测出来了，还知道了目标“是什么”。同时，检测出目标后，就可以通过其他技术手段实现目标跟踪。二是目标识别，解决的是“是什么” 的问题。我们经常说的人脸识别属于该层次。三是行为识别（又称行为理解），解决的是“干什么”、“将要干什么” 的问题，是一种高层次的识别。设想这样一个情景，在一帧视频内容里，我们首先需要把人从周围环境中分离出来（目标检测），然后分析出这个人是谁（目标识别），最后通过对其肢体动作的分析，得到他在干什么的结论，甚至推理出他将要干什么（行为理解）。这三个层次是依次递进的，目标检测是目标识别的基础，而行为识别是目标识别的高级阶段。

3.1 、目标检测

目标检测指的是从图像中将运动变化区域分割提取出来。比如，图像中有个人在走动，我们关心的是这个人而不是旁边的建筑物、身后的天空等背景，所以需要进行目标检测，识别出图像中哪块区域是人的区域。一般的检测方法有背景减除法、时间差分法、光流法等。目标检测技术关键在于动态复杂场景中背景模型的建立、保持与更新，例如，图像中人在走动，但是旁边的树木因为风吹的原因叶子也在动，同时因为有阳光而出现人的阴影，这就导致了摇动的树叶与运动阴影也可能会被检测为人。

目标跟踪：根据目标的颜色、纹理和形状等信息来确定其在视频不同帧中出现的位臵和区域。近年来有很多跟踪算法出现，如尔曼滤波、动态贝叶斯网络、粒子滤波器、基于光流 Kanade-Lucas-Tomasi(KLT)算法等。影响目标跟踪的主要因素有目标自身阴影、目标之间相互遮挡或目标被背景中物体遮挡、多个目标之间具有较大相似性。目标遮挡仍是目前智能视频监控技术中较难处理的问题，特别是目标长时间被遮挡的情况。当出现遮挡现象时，目标只有部分可见，如何设计一个理想的遮挡模式下的跟踪模型是需要进一步研究的问题。

3.2、目标识别

目标识别（目标分类），主要是判断视频的内容是什么，例如通过人脸识别技术达到判定目的。过程是将待识别的目标与指定的目标库中的特征进行比较，以确定是否与该库中的某一目标相匹配。

目标识别的难度在于光照条件的改变、角度的不同、遮挡，人脸识别技术中还包括人脸表情的变化、年龄增长带来的变化。目标识别的方法主要有：几何特征法、神经网络法、隐马尔可夫模型法、利用人脸侧面像的轮廓进行识别等

3.3、行为理解

目标识别（目标分类），主要是判断视频的内容是什么，例如通过人脸识别技术达到判定目的。过程是将待识别的目标与指定的目标库中的特征进行比较，以确定是否与该库中的某一目标相匹配。目标识别的难度在于光照条件的改变、角度的不同、遮挡，人脸识别技术中还包括人脸表情的变化、年龄增长带来的变化。目标识别的方法主要有：几何特征法、神行为理解解决的是“干什么”、“将要干什么”，实现高层次的识别。例如，下图，在低层次的识别中，计算机会告诉我们这是马，这是人，这是狗（目标识别）。但是，这样的识别远远不够，设想下如果是个人看到这图片，大脑不会刻板地分门别类识别，它的反映是 “一个人骑在一匹马上，他的狗坐在马前面”，特别是，大脑还识别出了人和狗的情绪。所以，高级别的识别需要我们对目标行为进行理解，它需要计算机告诉我们 “在一个阳光明媚的下午，一个穿着牛仔衣服的年轻小伙坐在一匹健壮的马上，他的爱犬坐在马的前面”。

行为理解对数据分析结果的应用极其重要，因为其回答了目标“将要干什么”的问题，是可以基于理解的结果进行预判。例如，在地铁，广场等公共场所，在各种光照变化、人群遮挡等复杂环境下，相关机构可以通过视频数据分析，估计人群数量和密度，同时检测人群过密、异常聚集、滞留、逆行、混乱等多种异常现象。实现重大活动、重要区域的人流统计与控制，并提供实时报警功能。

4、以深度学习为基础的计算机视觉技术

在视频大数据分析的三个层次中，目前研究热点主要集中在目标识别和行为理解两大领域。学术界和产业界最终的目的是让计算机具备人类眼睛和大脑的功能，“看到”并“领会”到图像和视频上的信息。具体技术手段上，往往采用计算机视觉（ Computer Vision）技术，特别是以深度学习为基础的计算机视觉技术近年来在视频分析中得到广泛应用。

计算机视觉技术指的依靠算法，在没有其他辅助信息的前提下，仅根据图片像素信息分析出图像的语义。一般分为图像获取、预处理、特征提取、检测/分区和高级处理。

深度学习本质上是一种算法，通过模拟大脑的神经网络，使得计算机在某种程度上能够像人脑一样思考，它的主要特点是通过多层次的学习而得到对于原始数据的不同抽象程度的表示，进而提高分类和预测等任务的准确性。

深度学习的概念源于人工神经网络的研究，是让计算机模拟大脑皮层神经网络的运作模式，达到计算机自己学习的目的。我们举一个例子大家就可以直观理解深度学习下的识别和一般技术条件下的识别有什么本质区别。例如，在人脸识别领域，之前的技术是通过预设条件，然后去识别目标图像，通过提取出来的特征跟预设条件去做对比来识别出某人。

这种方式本质上是先告诉计算机某人应该是怎么样的（比如眉间距多少，五官的相对位臵等）然后去识别。但是在深度学习条件下，我们不告诉计算机什么样长相的是某人，而是让计算机自己去学习某人有什么样的特征（拿很多关于某人的图像或视频去训练机器），然后总结出规律，最终实现精准识别。即传统的分析方法是人工选择特征，特征选择的好坏直接决定算法准确率。而深度学习减少了人工干预的步骤，让计算机自己去总结规律，通过多层迭代得到更优的特征。深度学习的实现思路与人脑的运作机理更加接近。

深度学习算法的突破大大促进了计算机视觉技术的发展，提高了计算机识别的效率和精确度。

4 .1 、海外巨头公司扎堆布局深度学习技术

在今年的 CES 中， Orbeus（硅谷一家著名的图像识别公司）与 AMD 联手推出新的视频图像管理系统。同时发布了其基于深度学习（ Deep Learning）的物体场景识别系统以及对应的 iphone 手机演示应用程序，该系统能够识别多于 2000类的物体和场景。

近几年来在计算机视觉和深度学习领域涌现出了一大批极具发展前景和投资价值的初创型企业。他们分别在计算机视觉、深度学习、图像识别等领域形成自己差异化的竞争态势。从 2014 年以来， Google、 Facebook 等为代表的互联网公司和 IBM 代表的科技巨头纷纷通过并购进入该领域。

国内涉足视频大数据的上市公司大部分与视频监控相关，本质上是下游客户对视频数据分析的迫切需求倒逼供应商提供相应技术水平的产品和解决方案。目前技术储备主要是靠内部研发和与外部研发团队合作（合资）获得。上市公司有客户资源，并且更好地理解行业客户的需求，如果相关技术能够跟上，会很有竞争力。

节选自兴业证券研究报告《视频大数据：开启计算机的眼和脑》

End

你投稿，我送书

为了让大家能有更多的好文章可以阅读，36大数据联合华章图书共同推出「祈文奖励计划」，该计划将奖励每个月对大数据行业贡献（翻译or投稿）最多的用户中选出最前面的10名小伙伴，统一送出华章图书邮递最新计算机图书一本。投稿邮箱:dashuju36@qq.com

点击查看：你投稿，我送书，「祈文奖励计划」活动详情>>>

阅读排行榜/精华推荐

入门学习

视频大数据的相关技术和分析流程

正文

请到「今天看啥」查看全文