英特尔收购Movidius背后：为什么我们需要一款专门的CV处理芯片？

雷峰网 · 公众号 · 科技媒体硬件 · 2016-09-17 22:10

正文

（Movidius Myriad 2，图片来源：Movidius）

编者按：本文作者为英梅吉CEO朱郁丛，该公司推出了基于手机摄像头的手势交互产品Hand CV。

背景：科技界又迎来了一桩大额收购案，芯片巨头英特尔收购了硅谷计算机视觉领域的初创公司 Movidius，该公司主要产品为低功耗视觉处理器：Myriad 系列 VPU。今年八月，Intel还以 3.5 亿美元收购了主攻深度学习的公司 Nervana，这一笔收购能够让英特尔获得深度学习的 IP 和具体产品，从而满足 AI 开发及数据中心对芯片的强大需求。

要想解释 Intel 为何会在短期内有如此大动作，先来看一下 2016 年的 CVPR。

（CVPR 全称为 International Conference on Computer Vision and Pattern Recognition，计算机视觉及模式识别大会。涵盖的问题包括但不限于：物体识别与检测、图像高级语义理解、人脸、优化方法、Correspondences求解、相机定位及三维地图构建(SLAM)。CVPR 是计算机视觉的最大的年度聚会，2016 年收到投稿 2,145 份,接受论文 643 篇，接收率 29.9%，与会人数达 3,600 人。）

在这场全球顶级的计算机视觉领域大会上，据不完全统计，大概有 70%以上的文章均与深度学习有关，在图像分类、物体检测、语义分割等领域,深度学习取得的效果已经大幅领先传统算法。据微软亚洲研究院所述，即使是在 3D 视觉、底层图像处理等传统方法相对主流的领域也有不少学者给出了自己的基于深度学习的解决方案。

以手势识别为例，传统的识别方案大都基于颜色空间，如 RGB，HSV 及 YCrBr。但这些算法都无法排除类肤色物体及黑色皮肤对识别精度的干扰。也有些算法通过对手型轮廓特征进行提取从而完成识别，如 HoG+SVM 的分类识别方法，但仍然无法提高在暗光、逆光等条件下的识别精度。但借助深度学习，如通过 R-CNN 训练大量标注后的手势图像数据，得到的模型在处理带有复杂背景及暗光环境下的手势识别问题时，比传统方案的效果优秀很多。

一方面深度学习可以给计算机视觉领域带来空前的进步，但另一方面，该方法对硬件及数据的要求也是空前的。通过 R-CNN 网络训练一组手势，大概需要 10 万张预先标注好的图片资源，同时，在学习图像的过程中，它对 GPU 也有非常高的运算要求，训练时间也不容小觑。即使已经在高性能平台得到了一个 R-CNN 或者 Faster R-CNN 的网络模型，在某些低运算能力平台(手机,平板)上运行识别算法时，也无法同时顾及到实时性和高识别率。比如，YOLO物体识别算法可以在高性能平台达到 45 FPS，但其 mAP 只有 63.4 左右。而 mAP 更优的 Faster R-CNN，却只有 7 FPS。

目前，如果想在手机等 GPU 性能很低的设备上运行深度学习算法，挑战还比较大，只有通过对算法的优化，才能使其在目前主流的Android、iOS 平台上运行。比如，在单目手势识别领域,全球范围内可给出商用解决方案的有来自以色列的 eyesight，superbreality 公司及我们的 Hand CV，其中，Superbreality 公司的解决方案更多依赖于对手势轮廓的识别，Hand CV 的解决方案则融合了颜色空间、轮廓及 YOLO 深度学习的方案。所以，通过机器学习来解决计算机视觉问题的思路已经逐渐转到了手机等移动平台上来。

那么，既然深度学习对识别精度的提高如此明显，就像当年 iPhone 5s 加入了 M7 协处理器一样，计算机视觉领域在一些移动设备上也需要有一块专门的低功耗处理芯片。它不但可以分担 CPU 和 GPU 的任务，而且在处理深度学习的问题时更加高效，可以针对卷积神经网络的训练特征从芯片级别进行优化，从而促进基于深度学习的计算机视觉算法在移动设备上的普及。

就像背景描述里提到的，Intel 已经在为这个方向布局：同时，上游芯片供应商 NVIDIA 也在去年年底发布了 Jetson TX1 GPU 模块，主要针对的也是人工智能市场。

（Jetson TX1 GPU 模块包括一颗浮点运算达到 teraflop 级的、基于 Maxwell架构的 256 核心 GPU，64 位 ARM A57 芯片组、4GB LPDDR4 RAM 内存 (每秒带宽速度达 25.6GB)、15GB 本地存储模块、802.11 2×2 ac Wi-fi解决方案以及 1Gb 以太网端口。同时还配备 Jetson Linux 软件开发工具包。Jetson TX1 GPU 模块的面积只有 50*87 毫米，仅一张信用卡大小。虽然外形很迷你，Jetson TX1 GPU 性能却不容小视。）

Jetson TX1 GPU 模块的首批客户包括微软、亚马逊、谷歌以及 IBM 等科技巨头，它们将会在各自的无人机或者机器人设备搭载该模块，从而流畅运行人工智能应用。以下便演示了该芯片与深度学习结合的一款应用产品：Kespry 无人机。

（Kespry 无人机）

计算机视觉领域原来一些看似不可逾越的鸿沟，被深度学习轻松踏过，而深度学习天生对运算性能要求高的弊端也必定会随着硬件的成熟而解决。随着 AI 技术的发展以及人们对之的重视，计算机视觉的应用场景不再局限于工业，已经慢慢走入大众市场，如行车记录仪的路牌、车道分析，基于手机的移动 VR 的手势识别等等，这些功能的高质量实现都需要在 CPU和 GPU 性能有限的情况下运行深度学习的算法，那么，一款专门的 CV 处理芯片对于整个芯片制造业都会是下一个绿洲，这也是为什么 Intel 会在短时期内收购生产视觉处理器的Movidius 公司和深度学习公司 Nervana。同时，由于手机、平板、无人机等设备对功耗的敏感特性，就需要这块专门处理 CV 内容的芯片以低功耗运行。

所以，计算机视觉领域遇到的问题可以更好的被深度学习解决，而深度学习在移动平台上运行的问题，最终将会被低功耗的 CV 处理芯片解决，真正的 AI 离我们越来越近了。