专栏名称: 宏达说

散户朋友们真的不要再关注此公众号了，股票是风险最高的金融资产，如果确实想做投资，可以买公募或私募产品，把钱交给专业的投资人！

【海通计算机】云和端的再平衡系列（二）：计算机视觉的爆发

宏达说 · 公众号 · · 2017-07-18 17:42

正文

我们在今年5月份的深度报告，云和端的再平衡系列（一）【海通计算机】（深度）AI的深刻变革：云和端的再平衡，智能终端的兴起中，市场首次提出了端将具有高速计算和存储能力，未来的计算和存储会解决在网络的边缘，智能终端兴起。

这个观点，引领了市场对海康威视和大华股份的重新定位，也逐渐得到市场的认同。在此，我们继续深入研究，有了云和端的再平衡系列报告（二）。

投资要点

区别于市场的观点。计算机视觉是人工智能的重要分支，计算机视觉和机器视觉的不同在于计算机视觉偏重人工智能和机器学习，而机器视觉偏重信号处理和自动控制。计算机视觉为计算机带来了丰富和复杂信息获取渠道，人工智能和深度学习进入快速迭代和进化，云计算和智能终端的兴起为计算机视觉创造了更多的场景。

深度学习将计算机视觉带入新时代。计算机视觉的发展可以追溯到1966年，深度学习技术的发展，让计算机视觉进入快车道。高难度复杂图像识别任务往往依赖成熟的神经网络深度学习模型，通过深度学习计算机视觉更主动地学习和吸收外界复杂的知识和信息。人脸识别、目标跟踪和目标检测等视觉技术精度将不断提高，视觉技术面临巨大的市场应用，仅视频监控市场预计2018年将达到千亿级市场。

智能终端兴起，计算机视觉加速普及。随着芯片技术和算法的发展，GPU、ASIC等技术广泛应用到终端，智能终端具有了神经网络深度学习能力，为计算机视觉终端应用和普及扫清了最后一道障碍。云和端再平衡，使计算机视觉技术在终端走向“专用”而云平台走向“通用”的路径。计算机视觉API快速发展将衍生一个新的百亿级应用市场。

计算机视觉引爆人工智能应用场景。计算机视觉技术场景上不断渗透，正在不断改进各种应用场景的用户体验。智能驾驶的成熟度和安全性提高、智能安防在时效性和准确性改进、新零售消费通过人脸减少客户的操作负担，智慧医疗促进医疗普惠，这些领域在技术变革和用户体验提升的催化下，都将成为计算机视觉和深度学习的热门领域。

1 计算机视觉的诞生、发展与繁荣

1.1 计算机“睁眼看世界”

计算机视觉（Computer Vision, CV）是一门研究如何让计算机实现人类视觉系统功能的学科。人类的视觉系统主要分为眼球作用区和大脑作用区。其中眼球作用区负责将视频景物转换为大脑中的电信号，而大脑作用区则将电信号进一步转变为感知。通过以成像设备和系统替代视觉器官，并以计算机替代大脑完成视觉输入的理解和处理，CV技术能够完成对人类视觉系统的模拟，从而实现适应、理解外界环境和控制自身运动等复杂的智能功能。

作为人工智能的重要分支之一，计算机视觉与语音识别、语言识别等技术一同构成了人工智能的感知基础。它让计算机能够“睁眼看世界”。斯坦福大学教授李飞飞将这种“看”的能力称作“计算机科学领域最前沿的、具有革命性潜力的科技”。作为人的感官的延伸，计算机视觉将被广泛应用于图像识别、人脸检测、人脸识别等方面，并逐步渗透到无人驾驶、安防、机器人、智能家居等众多领域中。可以预见，在不久的将来，计算机视觉技术将会成为许多行业发展的新动力。

尽管计算机视觉从诞生至今已经历了50余年的发展，该领域依然存在一些有待解决的问题。例如如何高效准确地识别目标、如何有效地构造易于实现的识别算法、如何解决实时性和稳定性问题等。这些问题也将成为计算机视觉企业的发展机遇。现在已有部分优质企业在应用方面对这些问题给出了一些解决方案。展望计算机视觉技术的未来，图像特征选择、动态性能提升等方面将会成为重点的研究方向。

1.2 计算机视觉的前世今生

1.2.1 诞生——来自人工智能之父的CV元年

1966年被称作计算机视觉元年。尽管在此之前的20世纪50年代中，学者们已经将计算机视觉的有关技术作为统计模式识别部分内容进行了研究，但研究的内容主要集中在光学字符、显微图谱、航空图片等二维图像的分析和研究中，并且计算机视觉在此时尚未成成为一门独立的学科。在1966年的夏天，著名的人工智能学者马文•明斯基（Marvin Lee Minsky）要求其学生通过编程让计算机告诉使用者摄像头所拍摄的内容。这一任务触及到了计算机视觉的本质之一，也标志着计算机视觉的诞生。

Larry Roberts发表了计算机视觉领域的第一篇博士论文《Machine Perception of Three-Dimensional Solids》。Roberts将现实世界简化为由简单的三维结构所组成的“积木世界”，并且使用计算机从“积木世界”中提取出了立方体、棱柱等多种三维结构。此外，Roberts还对物体的形状和空间关系做出了描述。对“积木世界”的研究是计算机视觉早期的重要尝试。它使人们相信，对简单的“积木世界”的理解能够推广到更复杂的现实世界中，并最终彻底实现人类视觉系统的完全替代。

1.2.2 繁荣——始于理论框架的建立

随后计算机视觉进入了蓬勃发展的时代。B. K. P. Horn教授于20世纪70年代中期在MIT的人工智能实验室正式开设了“计算机视觉”课程。这成为了计算机视觉史上的标志性事件之一。后来人工智能实验室的David Marr教授提出了著名的计算视觉理论。该理论认为人类视觉的主要功能是复原三维场景的可见几何表面，即三维重建问题，并且这种从二维图像到三维几何结构的复原过程可以通过计算完成。理论强调从不同阶段去研究时间信息处理的问题。这一理论至今仍旧是计算机视觉研究的基本框架。

20世纪80年代后，计算机视觉技术又迈上了一个新的台阶。著名的卷积神经网络的实现在此期间诞生。卷积神经网络的理论基础是生物视觉中的“局部感受野”概念。生物在利用视觉识别物体的过程中并非显式地从图像中提取特征，而是通过一个自组织的深层网络结构逐层地将前一层信息抽象化。每一个视觉神经元都不感知图像的整体而只感受图像的局部信息。各个神经元感知的局部特征在神经网络的更高层级中综合时，生物就能够感知到图像的全局信息。图像局部感知能够保证图像发生平移或形变时图像的关键特征依然可以准确地被提取。

除了实现卷积神经网络外，主动视觉、目的视觉、重建理论、基于学习的视觉等重要的计算机视觉理论体系均在随后诞生。各类新方法和新理论的出现为计算机视觉带来了前所未有的繁荣。90年代起，各类统计学习方法开始逐渐流行。统计学习通过统计方法提取了物体的局部特征。这些局部特征不同于形状、纹理等全局特征，不会犹豫平移或视角的改变而生剧烈的变化，因此具备了一定的特征旋转和平移不变性。基于局部特征，人们可以建立不同物品的局部特征集，从而实现类似物品的检索。图像搜索等技术正是因此得以发展。

1.2.3 突破——深度学习将计算机视觉带入新时代

进入21世纪后，机器学习开始大行其道。“机器学习”一词源自IBM的一篇论文，指利用计算机实现或模仿人类的学习行为。机器学习技术不同于先前使用的方法。它无需人为设计和提取特征，而是通过特定的算法从大量的样本中自动归纳学习。机器学习的应用需要大量的数据样本来支撑，而2000年以来的互联网技术的飞速发展为机器学习技术提供了所需的海量数据。例如，著名的ImageNet数据集包含了2万多个类别供1400万张图片。此数据集是世界上最大的图像识别数据库，计算机视觉研究人员将其作为重要的数据来源之一，开发人员不约而同地将模型在ImageNet上的识别准确率作为比较基准。研究者们在该数据集训练了AlexNet、GoogleNet等著名的模型，并且不断刷新着物体识别的准确率。

在2006年之前，计算机视觉中所使用的模式识别方法主要是机器学习中的浅层学习技术，如支持向量机、决策树等。这些方法存在特征提取能力不足、容易出现过拟合等问题。2006年，Hinton等人提出了深度置信网络模型（DBN）。DBN是深度学习领域的第一个模型。它通过将多个受限波尔茨曼机（RBM）堆叠成为一个深度网络结构，获得了浅层模型难以比拟的高层次抽象特征提取能力，从而具备了更加优越的性能。此模型通过逐层预训练和整体微调的方式使深层次的神经网络的训练成为了可能。在深度学习技术的推动下，计算机视觉由原先精度低、复杂性高、人为干预多的情况进入了发展的新时代。

卷积神经网络（CNN）是最常用于计算机视觉的深度学习技术之一。CNN借鉴了生物视觉的有关概念。网络像生物视觉器官一样逐层从输入中提取局部特征并在高层次进行汇总，最终完成对输入的模式识别。除DBN和CNN外，递归神经网络（RNN）、堆栈自编码器（SAE）等深度学习技术也在计算机视觉等方面得到许多应用。

在之后的时间里，其他深度网络模型如雨后春笋一般涌现。各种深度学习模型被广泛运用在计算机视觉中，为计算机视觉带来了一场革命。以人脸识别为例，在深度学习技术出现之前，人脸识别方法以模板匹配法、基于特征的方法、基于连接的方法等传统技术为主。这些技术存在易受表情影响、所提取特征质量较差等问题。

深度学习出现后，人脸识别研究迎来了新的高潮。在很短的时间内，深度学习技术就将人脸识别的准确率提高到了99%以上。在深度学习的浪潮下，一批优秀的计算机视觉相关的企业相继诞生。

1.3 多因素共振，引爆计算机视觉市场

技术、政策和资本是目前驱动计算机视觉产业发展的三大助推器。在技术方面，由于互联网、移动设备、传感器等技术的进步，全球每天都源源不断地生成大量新数据。根据IDC数据，在2011年后，全球数据量已超过10亿GB，预计至2025年数据总量将超过160ZB。这些大数据成为了孕育深度学习技术的土壤。

另外，英伟达等企业推出的深度学习加速设备消除了制约计算机视觉发展的最大瓶颈之一——设备计算能力。深度学习加速设备大多使用了图像处理器（GPU）作为主要的计算单元。GPU与传统的CPU相比拥有了更多的核心，因此能够更高效地处理并行任务。这种特性在训练神经网络中展现出了显著的优势，因此目前GPU已经被普遍运用于加速深度学习。经过GPU加速后，神经网络的训练时间能够大幅缩减。

在政策方面，世界各国政府都出台了鼓励人工智能技术发展的相关政策。近年来，我国也相继发布了支持人工智能技术领域发展的相关文件。计算视觉作为人工智能技术的最重要应用之一，会高度受益于各类鼓励政策。例如《国务院关于积极推动“互联网+”行动的指导意见》将人工智能作为重点布局领域，智慧城市、智能制造等细分方向均会收到广泛支持，而计算机视觉作为其中的支撑性技术也将迎来良性发展。

在资本方面，计算机视觉广阔的前景吸引了众多机构的投资，从而进一步促进了行业的繁荣。Ventrue Scaner数据显示，截至2015年，全球957家人工智能公司的融资总额约为48亿美元。无论是在公司数量上，还是融资总额上，计算机视觉企业在近千家人工智能公司中均名列前茅。其中2015年计算机视觉公司在全部人工智能公司中占比约为20%，而平均融资额则接近2100万美元。

在技术、政策、资本等多方因素的共同助推下，计算机视觉行业规模预计会在未来持续增长。在全球范围内，计算机视觉行业近年来一直保持高度景气，国内市场同样维持高增长。以人脸识别为例，根据中国市场调查网预测，自2016年起，中国的人脸识别行业市场规模将会一直呈现增长趋势。到2021年，人脸识别市场规模预计将会超过51亿元。在人脸识别的带动下，总过视频监控市场有望突破千亿。除人脸识别外，视屏监控、无人驾驶等计算机视觉细分领域的市场规模也预计会迎来较大增长。

2云和端再平衡，计算机视觉加速普及

随着移动设备数量的增长和传感器技术的进步，大量移动设备产生的用户数据将会成为极其宝贵的资源。厂商们为了占领数据的高地，已经将终端智能化愈演愈烈。智能化终端能够通过在设备上部署处理单元和智能系统，或通过云端处理的方式，利用人工智能算法挖掘出数据的价值。

在智能终端兴起的过程中，计算机视觉将会扮演关键角色。图像、视屏等是最重要的数据，其中包含了大量有价值的信息。在智能终端对这些视觉信息进行分析的过程中，传统的技术手段已经渐渐无法胜任，因此必须借助计算机视觉。目前，移动支付行业即将出现“刷脸支付”；特斯拉、百度等企业的无人驾驶也日趋成熟；智能安防开始渐渐登上舞台。众多行业的智能化进展将会持续加速计算机视觉应用的普及。未来，受益于计算机视觉技术，我们或将身处于一个完全智能化的世界中

2.1 计算机视觉终端化促进实时监控

通常情况下，用于监控交通状况的摄像机等设备获取的是图像、视屏等非结构化数据。虽然结构化的数据具有清晰、简洁、易于分析等特点，但非结构化的数据占据了所有数据的大多数。这些数据没有固定的模式并且数据量大，计算机很难进行直接分析和处理同时在实时回传到后台云平台时带宽资源要求高，网络延时明显，因此导致了交通监管的成本高、效率差、实时性差等问题。

计算机视觉技术的出现使得将监控设备所获得的非结构化数据转换为结构化数据成为了可能。通过深度学习等技术，可以对图像和视频完成跟踪检测、提取特征和识别等任务，从而将它们转化为规整的结构化数据。在此基础上，结合交通监管的法律法规等，即可实现智能化的交通监管。除交通监控设备外，计算机视觉技术在交通工具的内部也有应用。利用计算机视觉可以监控车辆、驾驶员、乘客等主体的状况，并根据需要对车辆做出调整或对人员进行提示。防疲劳驾驶系统是计算机视觉在车内的典型应用之一。

2.1.1 实例：海康威视“神捕”系列产品

海康威视所推出的“神捕”智能交通摄像机系列产品加速了交通监管智能化的进程。智能交通摄像机系列涵盖了从140万像素~600万像素的多种智能交通网络摄像机。以型号为iDS-2CD9152-H(S)的智能交通网络摄像机为例，该款智能终端使用了500万像素1”逐行扫描CCD，最大分辨率可达到2560*1920。产品支持双码流，采用先进的视频压缩技术H.264编码，压缩比高，且处理非常灵活；支持MJPEG编码，抓拍图片采用JPEG编码，图片质量可设；支持闪光灯自动光控功能，支持抓拍同步闪光灯输出，最多可支持3路闪光灯同步输出；支持多种补光方式：独立闪、不闪、关联闪、轮闪和频闪等；支持红绿灯信号状态输入。

在高性能硬件的基础上，iDS-2CD9152-H(S)实现了智能交通监管的各项功能。摄像机能够识别车牌、车型、车身颜色，以及压线、逆行、闯红灯、不按导向行驶等违章检测功能。针对违章行为，摄像机还能够自动连续抓拍，并且能以灵活配置的方式将多张违章图片合成为一张图片。通过计算机视觉技术识别监控设备采集的信息，非结构化数据被有效地转换成了结构化数据，因此交通监管也更加便捷和智能。

除智能交通摄像机外，海康威视智能交通系列产品还包括视频智能分析服务器、智能交通摄像机单元、服务器管理主机、补光灯、辅助产品等。其中智能交通摄像机单元系列包括卡口抓拍单元、电警抓拍单元、智慧监控单元等多款产品。该系列产品均采用了计算机视觉相关技术，实现了高准确率的车牌、车身特征、车型等多目标识别。服务器管理主机属于后端云平台设备，具有通行记录和图片存储功能、混合式硬盘录像及前端设备管理的功能，集成交换机设计，自带上传光口，能同时支持多路高清图片存储、视频实时录像。服务器管理主机与抓拍单元、智能摄像机等设备一同构成了完整的智能交通监控系统，实现了云平台大数据功能和智能终端实时功能的有效结合。

2.1.2 实例：比亚迪车用疲劳驾驶监测系统

疲劳驾驶指驾驶人员经在长时间驾驶车辆，以及睡眠质量差或不足等情况下出现的机能失调和驾驶机能下降。当驾驶人员进入疲劳驾驶状态时，会出现视力减弱、身体疼痛等不良反应，若不及时调整极有可能发生交通事故。因此，疲劳驾驶监测系统显得尤为重要。目前常见的疲劳监测技术有检测方向盘、监控心率多种方式，其中眼镜监测、车道偏离监测等均涉及到了计算机视觉技术。

比亚迪在其疲劳监测系统中采用了基于计算机视觉的生理特征检测。系统使用安装在转向柱外壳上的摄像设备采集驾驶员的面部特征、眼睛活动、头部运动等生理信息，并经过电子控制单元（ECU）运算处理后，判断出驾驶员是否疲劳驾驶，并做出相应的提醒。通过计算机视觉和人工智能等技术，比亚迪的疲劳驾驶监测系统实现了“全天候实时监测；人工智能识别；多媒体语音报警；疲劳等级自动调整”四大功能。

2.2 计算机视觉结构化数据加速智能大数据分析

2.2.1 实例：大华股份行业产品与软件平台

大华股份针对不同行业的特点推出了一些智能监控一体化平台。依托计算机视觉等技术，一体化智能平台可以为用户提供高效、便捷、高度智能化的设备接入、存储及管理平台的一体化解决方案，产品系列包括通用产品、行业产品，以及司法行业、车载行业、轨道交通、能源行业、智能楼宇等各行各业所使用的监控平台和软件。

大华监控平台一体机部署了Linux操作系统，可以实现长时间稳定运行。监控平台还拥有多种智能化功能，可以进行行为分析、人数统计，并以报警或报表的形式展现业务，能够满足安防监控数据融合、数据校验、数据审核和数据安全的功能。

不同的一体化平台均针对应用行业进行了特殊优化。例如，大华平安城市综合监控管理平台针对公安行业的特点增加对卡口和电警接入、图片管理等功能，支持整个监控系统的流媒体转发、图片存储；金融集中监控一体化平台增加了门禁、报警主机、IP对讲设备等多种类型设备的接入，针对自助银行、金库、营业网点、出入口等不同业务场景开发了受库开门音视频认证记录、异常情况智能分析报警、紧急求助音视频远程交流、报警主机控制等功能服务。

2.3 计算机视觉为空间识别提供关键技术

2.3.1 实例：阅面科技空间识别技术

传统的机器人不具备智能化的功能，仅能够完成一般化的编程和操作，因此只能够用于简单场景中。赋予机器人智能的关键点之一在于使机器人能够有效地感知外界的环境，并以此做出自主化的反应。在计算机视觉的帮助下，机器人可以识别周围空间的详细信息，从而对自身的速度、位置、姿态等做出调整，最终完成复杂的工作任务。智能机器人涉及到了6大关键技术，其中导航与定位、路径规划、机器人视觉、智能控制等技术均涉及到了计算机视觉技术。从中可见，计算机视觉对于智能自主化机器人有重要意义。

阅面科技的空间识别技术结合了大数据和深度学习，使用计算机视觉来识别空间特征和障碍物。该项技术使机器人能够自主探测周围环境并完成路径导航，从而实现了在无需认人为控制情况下的自主运动。阅面科技的空间识别涵盖了视觉避障、相机定位和轨迹跟踪、空间增强这三大功能。

通过使用公司提供的SDK或硬件设备，用户可以获得基于计算机视觉的智能机器人交互解决方案。该套方案在消费电子等众多领域中均可得到利用。例如，空间识别技术能够为扫地机器人提供视觉感知能力，也可以为无人机提供人体跟踪和避障等视觉交互。

2.4 计算机视觉API普及生物特征识别服务

2.4.1 实例：旷视科技FaceID反欺诈服务

欺诈问题一直以来都是信息安全和财产安全的重大威胁，因此反欺诈技术也将长期受到重视。反欺诈主要指动态分析用户的请求权限的行为并采用某种验证策略以最小化信息泄露或财产损失的风险。传统的权限控制方法过于单一，容易被破解，而旷世科技的FaceID服务在多方面应用计算机视觉技术，多个维度对用户进行验证，从而实现了更加安全可靠的生物特征识别反欺诈。

通过深度学习技术，旷视科技FaceID将用户照片与身份证或用户自行提供的数据源照片进行精准匹配，从而判断用户身份的一致性。该技术的识别精准度可达到远超人眼识别能力的99.5%，并且能够在复杂的光照条件、不同的用户年龄段和面部妆容、是否佩戴眼镜等多种状况下维持高精度识别。

在准确匹配用户身份的基础上，FaceID使用关键点定位和人脸追踪等计算机视觉技术进行活体检测，确保完成操作的是当事人本人。在端和云的配合下，活体检测的精度高达99.9%，已经成功地组织了上千万次人脸攻击行为。

除了人脸对比、活体检测外，FaceID还提供证件检测服务，包含对身份证、驾驶证的证件的数据采集。此项技术可以实现在对用户拍摄身份证过程中自动完成截图操作并识别输出证件内容。FaceID证件识别使用范围广泛，能够支持少数民族身份证件识别、生僻字识别，能够达到99%的证件识别准确率。

通过人脸对比、活体检测和证件识别，FaceID提供了多维度的反欺诈服务，能够大幅提高业务效率，甄别欺诈行为，保障用户利益。目前已有支付宝、中信银行、神州租车等十余家企业采用了旷视科技的FaceID服务来识别欺诈行为，合作伙伴覆盖了互联网金融、银行业、出行服务、IT等多个领域。

2.4.2 实例：商汤人脸识别技术领先，B轮融资创记录

2017年7月11日，商汤科技宣布完成了4.1亿美元的B轮融资，数额创下了全球人工智能领域单轮融资的记录。此轮融资后商汤科技也成为了人工智能独角兽企业中融资额最高的一家。充足的资金将保证商汤科技继续领跑计算机视觉。

商汤科技利用自有的异构分布式平台、并行训练集群系统、机构基础算法库等核心技术，构建起了涵盖人脸识别、智能监控、图像识别、文字识别多种应用场景的计算机视觉生态体系。其中的人脸识别技术已经在部分细分领域达到了领先地位。

商汤科技提供的人脸识别服务同样拥有完备的功能。从人脸检测跟踪到人脸关键定位以及真人检测和美颜/美妆，商汤科技的人脸识别服务覆盖范围已近遍及金融、安防、娱乐等多个方面。

商汤科技也凭借自身技术与大量企业建立和合作关系。商汤分别在智慧金融、智汇商业、智汇安防、互联网+等多个领域与招商银行、中国移动、新浪等企业开展了业务合作。公司还和英伟达、科大讯飞等企业形成技术互补的关系，从而进一步巩固了自身在计算机视觉方面的优势。

3计算机视觉引爆人工智能应用场景

3.1 智能驾驶生态逐渐成型

3.1.1 实例：百度阿波罗计划

2017年4月19日上海车展上，百度总裁兼COO陆奇宣布了阿波罗（Apollo）计划。该计划借用阿波罗登月计划的内涵，旨在打造一个完备而开放的智能驾驶软件平台，让汽车相关行业的企业能够以高效率、低成本的方式定制属于自己的智能驾驶系统。

随着百度入局智能驾驶，该领域更加呈现出了百家争鸣的态势。根据Navigant数据，目前伏特汽车、奔驰、谷歌、现代等众多车企或互联网企业均已涉足自动驾驶技术。在以计算机视觉为代表的人工智能技术不断成熟的背景下，智能驾驶行业会渐渐明朗，各大企业的智能驾驶生态也会逐渐成型。

百度希望通过阿波罗计划向合作伙伴提供包括车辆、硬件、软件、数据在内的完成服务。此外，百度还会提供环境感知、路径规划等计算机视觉技术，使合作伙伴能够取得从开发到测试的完整解决方案。其中百度HMI汽车互联网解决方案系提供了CarLife、MyCar、CoDriver、MapAuto等多款产品。CarLife能够让用户完成手机汽车互联，从而在驾驶过程中获得更加安全便捷的体验；MyaCar基于车主服和车后服务等为用户提供个性化定制、安全管理的成熟解决方案；CoDriver意图打造一个用户专属的智能语音副驾驶；MapAuto是一套安全可靠的离线和在线地图服务。

百度还推出了高级自动驾驶平台Road Hackers，并且宣布会对外开放基于此平台的自动驾驶训练数据。Road Hackers采用深度学习技术实现了由前端的传感器到后端的控制系统的端到端自动驾驶。

3.2 智能安防带来无忧用户体验

3.2.1 实例：微软AI摄像头

在5月的微软Build 2017大会上，微软展示了一套高度智能化的摄像头监控系统。通常情况下，传统的监控摄像头主要用于实时环境查看，有功能单一、效率低下等问题。而微软借助计算机视觉技术有望改变这一现状。

根据微软官方的展示，该套智能摄像头系统具备强大的目标识别与检测、准确的事件提醒、友好自然的人机交互。在摄像头拍摄范围内的绝大部分物体均能被系统准确地检测、跟踪和标注。在此基础上，AI系统还能够对监控场景中的特定事件做出反馈。例如，当有危险性的工具在车间中出现摆放不当的情况时，摄像头能够准确地进行捕捉，并通过网络和移动设备将信息传达给附近的管理人员。当管理人员收到消息后，无需操作复杂的指令，而只需要以自然语言表达自己的需求，即可下达自己的管理要求。

AI摄像头系统可用于多种工作场景，能够为用户带来安全无忧的体验。在建筑工地等危险性较大的工作场合，系统可以及时发现建筑工人的不当操作并通知临近的工人，从而保证了施工安全；在医院中，系统能够帮助医生迅速赶到需要帮助的病人身边提供救助，防止病人出现突发状况；在企业办公场合，系统可以分辨出企业员工和外来人员，帮助企业维持日常秩序。在上述场景中，计算机视觉始终贯穿其中。随着未来视觉技术的进步，未来的生活与工作的系统中会有更多的计算机视觉集成应用。

3.3 视觉技术活体检测实现安全加密

3.3.1 实例：Biomio活体检测技术

生物特征识别是当前最有前景的身份认证技术之一。生物特征包括人脸、语音、指纹等。与传统的密码认证相比，生物特征识别技术具有安全、便捷、保密等优点。尽管如此，欺诈问题一直伴随着生物特征识别。已经有人尝试使用照片和模型等伪造的生物特征来替代真实却的生物特征，并且成功地欺骗了检测系统。为了确保生物检测的可靠性，必须保证识别对象是真实的生物体而非其他替代物，而活体检测能通过一些细微的动作或者表情变化记录独有的生物信息，从而形成活体的唯一识别标识和密码。

创业公司Biomio采用了与传统活体检测技术完全不同的全新技术。传统的活体检测技术包括温度、排汗、导电性、位移、呼吸、器官生理反应等。在现有的技术水平下，这些手段一直是生物特征识别系统中最薄弱的一环。Biomio另辟蹊径，将牛津大学与Deep Mind等机构共同开发的LipNet深度网络运用在了生物活体检测中，并取得了独家的使用权，计算机视觉用于生物细微特征捕捉进入了新的领域。

LipNet使用了时空卷积、长短期记忆单元等深度学习模型，能够将不同长度的视频序列映射为文本。该模型最初用于自动读唇，在GRID语料库上实现了93.4%的准确率。这一成绩远远超过了人类读唇者。Biomio创造性地将读唇技术用于生物活体检测。通过要求受检测者完成特定的嘴唇动作，Biomio可以使用读唇技术获取唇动的含义并与要求做对比，从而完成可靠的活体检测。由于读唇技术处于发展早期，并且不易受噪声信号影响，在未来较长时间内均会是一种较为安全的活体检测技术。利用以读唇为代表的一些列活体检测技术，Biomio提供了一套完成的认证和权限控制平台，用户可以获得免密码登录、智能锁、邮件加密等多种安全服务。

3.4 智慧医疗大幅提升诊断效率

传统的医疗影像处理方式主要是由医务工作者基于规则和经验对影像做出诊断。因为在现实情况中存在较多不确定性，所以传统方式会存在效率低、准确率差等缺点。另外，中国还存在医疗资源分布不均、病理医生缺口较大等问题。这导致在某些地区医疗诊断问题极为严重。计算机视觉技术的进展一定程度上缓解了上述问题。高度并行化的深度学习技术能够迅速分析医疗影像资料，并给出高准确率的诊断结果。

3.4.1 实例：Airdoc深度学习医疗影像处理

Airdoc是将深度学习用于医疗诊断的代表性企业之一。公司取用大量的糖尿病视网膜病变患者眼底照片来训练了一个深度网络模型。该模型的样本使用量远超人类医生的诊断量，因此可以被看作是一位具有丰富经验的智能医生。模型对有明显症状和无明显症状的分类准确率已经能够与三甲医院的自身医生相媲美，而对糖尿病严重程度的5分类准确率也能达到专业眼科医生的水准。

除了诊断眼部病变外，Airdoc还提供了皮肤、心血管、肺部等其他器官病变的诊断业务。计算机视觉技术在多器官、多病种诊断方面的优势已经逐渐展现。未来智能医疗有望成为医生诊断的重要辅助手段，甚至有望在部分领域取代人类医生。

3.5 增强现实扩展用户交互维度

现实增强技术（AR）通过将虚拟世界嵌套如现实世界中的方式扩展了用户的交互维度。AR不仅能够展示现实世界中的信息，同时也将虚拟世界的信息作为补充。AR技术在很多领域都具有广泛的应用前景。有了增强现实后，用户可以和眼中所见的一切事物发生互动，因此该技术的应用颇具想象的空间。根据智研咨询集团的预测，至2025年AR将会和VR一起覆盖电子游戏、视频直播、音影娱乐等多种场景，而其软件市场规模共计超过300亿美元。

计算机视觉技术是支撑AR发展的关键。在典型的AR流程中，环境理解和3D交互理解是关键步骤，其中会涉及到了三维配准、二维平面物体跟踪、即时定位与地图构建等多种高难度的计算机视觉技术。

3.5.1 实例：微软HoloLens眼镜

微软公司于2015年1月22日发布了HoloLens头戴式增强现实设备。在2017年上半年，此款设备正式向中国市场发售。HoloLens是一套先进的全息影像投影装置，同时也是一台结合了大量计算机视觉技术的可穿戴设备。

HoloLens融合了多种视觉传感器和光学部件，并且搭载了微软自定义的全息处理单元。因此，HoloLens能够实时运算大量来自传感器的数据，做到理解用户的手势和视线，并映射用户所处的周围环境。用户能够使用HoloLens将物理世界和数字世界中的事物融为一体，并轻松地与数字世界发生交互。增强现实的组成形式有基于显示器式、光学透视式和视频透视式。HoloLens以全息投影的方式实现增强现实，属于光学透视式。此种形式的增强现实分辨率高且无视觉偏差，因此用户体验比基于显示器式和视频透视式更好。同时，这种形式的设备也对计算机视觉技术的要求更高，设备制造商需要攻克精确定位、延迟匹配、拓宽视野等技术难题。

HoloLens提供的功能十分广泛，并且随着开发版设备的发售和SDK的开放下载，未来HoloLens的功能覆盖面仍会进一步扩展。HoloLens的无线便携设计和舒适的佩戴体验更让用户可以在多数场景使用HoloLens。根据微软已经公开的信息，HoloLens首批应用程序包括了混合现实游戏RoboRaid、旅游应用HoloTour、建模工具HoloStudio、视频工具Actiongram等。用户利用HoloLens可以实现收看新闻、游戏娱乐、教学、科研等多种功能。

4风险提示

1. 人工智能政策风险；

2. AI技术路线的不确定性；

3. 计算机视觉技术发展不达预期。

海通计算机研究团队：

郑宏达（13918906471）

谢春生（13774410126）

鲁立（13916253156）

黄竞晶（13764440139）

杨林（15221070365）

洪琳（18217472692）

微信扫一扫
关注该公众号