专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  三维空间里的yolo↓ SpatialLM ... ·  15 小时前  
宝玉xp  ·  现在不少人都焦虑,担心 AI ... ·  2 天前  
爱可可-爱生活  ·  本文创新性地提出了Tapered ... ·  2 天前  
爱可可-爱生活  ·  [LG] RWKV-7 Goose ... ·  2 天前  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  2 天前  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

教程 | 如何使用谷歌Mobile Vision API 开发手机应用

机器之心  · 公众号  · AI  · 2017-05-19 11:58

正文

机器之心原创

参与:QW、李亚洲


一年一度的谷歌开发者大会 Google I/O 昨日在山景城开幕, 在首日的 Keynote 中 ,谷歌宣布了一系列新的硬件、应用、基础研究等。而在下午面向开发者的 session 中,也有很多有关机器学习的内容值得我们学习。所以这届 Google I/O 并非略显乏味,反而充实了更多机器学习内容。在这篇文章中,机器之心根据视频为大家介绍了一个面向初学者的教程:如何使用谷歌 Mobile Vision API 在手机上开发应用。



在此 Session 中,来自谷歌 Mobile Vision 团队的 Yulong Liu、Hsiu Wang 对 Mobile Vision API 的开发应用进行了讲解。


谷歌 Mobile Vision 团队的工作是提供最新的计算机视觉算法,并在低延迟、无网络访问的情况下在设备上实现。而 Mobile Vision API 既能在安卓手机上部署,也能在 iOS 上部署。


在视频中,Hisu 演示了如何使用 Mobile Vision 的 Face、Barcode 和 Text API。在视频演示中,使用 Barcode API 手机扫描广告页上的二维码,就能自动跳转到产品页;Face API 可让你虚拟试戴产品;最后,使用 Text API 扫描信用卡快速支付。



Mobile Vision API 包含四大组件:共用 API(Common Utility API)以及上面介绍的三种特定应用 API。共用 API 提供构建应用通道的基础设施与模块。


1.Barcode API


  • 支持 1D 条形码和 2D 二维码类型

  • 支持多种条形码格式

  • 应用场景:跟踪并识别任意条形码或二维码


2.Face API


  • 捕捉脸部图像,支持不同的角度以及非常夸张的表情

  • 生成 Facial Landmarks 用于定位等业务

  • 脸部表情分类

  • 应用场景:生成用户趣味头像,识别商品并推荐购买方式,等等等等


3.Text API


  • 支持 20 种以上拉丁语系语言

  • 支持段、句、词分析

  • 应用场景:信用卡信息提取,名片信息提取,实时翻译,等等等等


在详细讲解代码之前,Hisu 先介绍了 Mobile Vision API 的基础概念与使用案例。最简单的使用案例就是图像检测:如果想要建立一个检测器,先要提供一张图像,然后运行算法产生检测结果。


Google Mobile Vision (GMV) 同时支持 iOS 与 Anriod 平台,用户只需根据 API 与业务需求简单地设定以下三个类即可构建完整的图像处理 Pipeline:设定 Detector 类用于捕捉图像内容;设定 Processor 类允许用户灵活地处理单张或多张图像(即 Focus 模式与 Multi 模式);最后用户只需完整地重构 Tracker,根据图像信息完成业务逻辑。无论是 iOS 还是 Andriod,遵循以上流程即可构建 GMV 应用。



以上是完整的流程。摄像头源内部使用了 Camera API,它将图像帧传递给检测器,检测器运行算法来生成检测结果。然后结果被传递给处理器。处理器是首个后处理(post-processing)步骤,它负责筛除、合并、或传递检测到的 item 到相关 Tracker。


总结来就是两个步骤:


1. 配置追踪管道;

2. 部署 Tracker 实时追踪时间变化。


图中的 Camera Source、Detector、Processor 都由 Mobile Vision API 提供,用户要做的就是基于自己商业逻辑编写代码,实现 Tracker。


Barcode API


如今二维码处处可见,开发手机端的二维码扫描应用也变的非常常见。使用 Barcode API 前,只需在不同的平台中部署相应的 Dependency。Android 平台由 Google Play 提供服务;而在 iOS 平台中可以使用 CocoaPods 包管理工具安装。下面是开发安卓手机二维码应用的代码演示。


首先,开发者需要指定具体的编译工具与运行环境依赖,不同的 GMV API 需要不同的依赖,开发者只需根据业务指定 android:value 为 barcode, face 或 text。在用户第一次使用时,开发者所制定的内容会自动下载到设备中(即需要用户连接至网络环境中);一旦下载完成后,用户即可在无网络连接的环境下使用相应的 GMV 应用和服务。



完成对 Camera Source 的初始化。



接下来开发者需要根据业务需求和 GMV API 构建自己的应用。在 Detector 部分中,开发者可以指定不同的 barcode 格式用于 detector 检测,例如 QR 二维码或是 UPA 条形码;接着输入某一帧图像或是图片后,Detector 的实例即可自动读取相关的信息;最后用户可以根据需求调用 valueAt 方法获得码值或是使用 cornerPoints 属性获取对应的位置。此外,Barcode 类中还提供了标准的条码类型,开发者可以根据不同的条码类型对应的提取相应的信息。下图的 Demo 展示了整个过程:



下一步就是开始 Processor 步骤:Mobile Vision API 提供两种 Focusing Processor 和 Multi Processor。下图演示了 Focusing Processor 类,它能让你在多二维码的环境中专注分析某一个二维码,用户可以调整设备摄像头拍摄的位置切换至不同的二维码。而 Multi Processor 则提供了同时处理图像中所有二维码的能力,开发者可以使用工厂模式进行不同二维码的处理。



最后则是重载 Tracker 类完成所有的业务逻辑。在 Barcode 模式中,开发者至少需要定义 4 个方法来处理不同的情况:分别是处理新扫描到的码、在未探测到新码时如何更新当前的码、如何处理未探测到任何码的情况,以及完成所有任务后如何存储文件或是关闭服务等清理操作。







请到「今天看啥」查看全文