教程 | 如何使用谷歌Mobile Vision API 开发手机应用

机器之心 · 公众号 · AI · 2017-05-19 11:58

正文

机器之心原创

参与：QW、李亚洲

一年一度的谷歌开发者大会 Google I/O 昨日在山景城开幕，在首日的 Keynote 中，谷歌宣布了一系列新的硬件、应用、基础研究等。而在下午面向开发者的 session 中，也有很多有关机器学习的内容值得我们学习。所以这届 Google I/O 并非略显乏味，反而充实了更多机器学习内容。在这篇文章中，机器之心根据视频为大家介绍了一个面向初学者的教程：如何使用谷歌 Mobile Vision API 在手机上开发应用。

在此 Session 中，来自谷歌 Mobile Vision 团队的 Yulong Liu、Hsiu Wang 对 Mobile Vision API 的开发应用进行了讲解。

谷歌 Mobile Vision 团队的工作是提供最新的计算机视觉算法，并在低延迟、无网络访问的情况下在设备上实现。而 Mobile Vision API 既能在安卓手机上部署，也能在 iOS 上部署。

在视频中，Hisu 演示了如何使用 Mobile Vision 的 Face、Barcode 和 Text API。在视频演示中，使用 Barcode API 手机扫描广告页上的二维码，就能自动跳转到产品页；Face API 可让你虚拟试戴产品；最后，使用 Text API 扫描信用卡快速支付。

Mobile Vision API 包含四大组件：共用 API（Common Utility API）以及上面介绍的三种特定应用 API。共用 API 提供构建应用通道的基础设施与模块。

1.Barcode API

支持 1D 条形码和 2D 二维码类型
支持多种条形码格式
应用场景：跟踪并识别任意条形码或二维码

2.Face API

捕捉脸部图像，支持不同的角度以及非常夸张的表情
生成 Facial Landmarks 用于定位等业务
脸部表情分类
应用场景：生成用户趣味头像，识别商品并推荐购买方式，等等等等

3.Text API

支持 20 种以上拉丁语系语言
支持段、句、词分析
应用场景：信用卡信息提取，名片信息提取，实时翻译，等等等等

在详细讲解代码之前，Hisu 先介绍了 Mobile Vision API 的基础概念与使用案例。最简单的使用案例就是图像检测：如果想要建立一个检测器，先要提供一张图像，然后运行算法产生检测结果。

Google Mobile Vision (GMV) 同时支持 iOS 与 Anriod 平台，用户只需根据 API 与业务需求简单地设定以下三个类即可构建完整的图像处理 Pipeline：设定 Detector 类用于捕捉图像内容；设定 Processor 类允许用户灵活地处理单张或多张图像（即 Focus 模式与 Multi 模式）；最后用户只需完整地重构 Tracker，根据图像信息完成业务逻辑。无论是 iOS 还是 Andriod，遵循以上流程即可构建 GMV 应用。

以上是完整的流程。摄像头源内部使用了 Camera API，它将图像帧传递给检测器，检测器运行算法来生成检测结果。然后结果被传递给处理器。处理器是首个后处理（post-processing）步骤，它负责筛除、合并、或传递检测到的 item 到相关 Tracker。

总结来就是两个步骤：

1. 配置追踪管道；

2. 部署 Tracker 实时追踪时间变化。

图中的 Camera Source、Detector、Processor 都由 Mobile Vision API 提供，用户要做的就是基于自己商业逻辑编写代码，实现 Tracker。

Barcode API

如今二维码处处可见，开发手机端的二维码扫描应用也变的非常常见。使用 Barcode API 前，只需在不同的平台中部署相应的 Dependency。Android 平台由 Google Play 提供服务；而在 iOS 平台中可以使用 CocoaPods 包管理工具安装。下面是开发安卓手机二维码应用的代码演示。

首先，开发者需要指定具体的编译工具与运行环境依赖，不同的 GMV API 需要不同的依赖，开发者只需根据业务指定 android:value 为 barcode, face 或 text。在用户第一次使用时，开发者所制定的内容会自动下载到设备中（即需要用户连接至网络环境中）；一旦下载完成后，用户即可在无网络连接的环境下使用相应的 GMV 应用和服务。

完成对 Camera Source 的初始化。

接下来开发者需要根据业务需求和 GMV API 构建自己的应用。在 Detector 部分中，开发者可以指定不同的 barcode 格式用于 detector 检测，例如 QR 二维码或是 UPA 条形码；接着输入某一帧图像或是图片后，Detector 的实例即可自动读取相关的信息；最后用户可以根据需求调用 valueAt 方法获得码值或是使用 cornerPoints 属性获取对应的位置。此外，Barcode 类中还提供了标准的条码类型，开发者可以根据不同的条码类型对应的提取相应的信息。下图的 Demo 展示了整个过程：

下一步就是开始 Processor 步骤：Mobile Vision API 提供两种 Focusing Processor 和 Multi Processor。下图演示了 Focusing Processor 类，它能让你在多二维码的环境中专注分析某一个二维码，用户可以调整设备摄像头拍摄的位置切换至不同的二维码。而 Multi Processor 则提供了同时处理图像中所有二维码的能力，开发者可以使用工厂模式进行不同二维码的处理。

最后则是重载 Tracker 类完成所有的业务逻辑。在 Barcode 模式中，开发者至少需要定义 4 个方法来处理不同的情况：分别是处理新扫描到的码、在未探测到新码时如何更新当前的码、如何处理未探测到任何码的情况，以及完成所有任务后如何存储文件或是关闭服务等清理操作。

教程 | 如何使用谷歌Mobile Vision API 开发手机应用

正文

请到「今天看啥」查看全文