嵌入式AI双周简报第3期

PerfXLab卧谈会 · 公众号 · AI · 2017-08-22 20:00

正文

嵌入式AI 双周简报 (2017-08-22)

点击文末阅读原文跳转到我们的双周简报主页，可以阅读带条目超链接的版本。

业界新闻

MXNet 0.11.0 RC1提供Apple Core ML模型转换并对Keras v1.2.2提供支持 | DMLC
CUED-RNNLM -- An Open-Source Toolkit for Efficient Training and Evaluation of Recurrent Neural Network Language Models
简评：剑桥大学开源CUED-RNNLM工具箱－实现递归神经网络语言模型的高效GPU训练和CPU预测。
TVM: An End to End IR Stack for Deploying the Deep Learning Workloads to Hardwares | DMLC
简评：TVM可以把模型部署到不同硬件（移动端CPU、AMD GPU、FPGA等物联网设备），TVM提供中间层解决端到端解决方案把深度学习模型分发到各种硬件设备。
A list of chips and IPs for Deep Learning and Machine Learning, mostly industry and commercial products or projects | Shan Tang
简评：深度学习/机器学习处理器大列表，从工业使用到商用芯片。
NVIDIA Deep Learning SDK Update for Volta Now Available | NVIDIA Developer News Center
简评：Volta架构深度学习SDK，cuDNN7比TeslaP100在ResNet50快2.5倍等新特性。
从GPU、TPU到FPGA及其它：一文读懂神经网络硬件平台战局 | 机器之心
简评：简述了从NVIDIA、AMD等大公司的GPU到各家创业公司的神经芯片的情况。

论文

DeepRebirth: Accelerating Deep Neural Network Execution on Mobile Devices | D Li, X Wang, D Kong Samsung Research America (2017)
简评：三星评估了网络inference的时间花费主要在非张量层，通过横纵向地压缩网络（对竖直方向上连续非张量层的合并以及水平方向上多通道的合并和某些层的舍弃）来对网络减肥，达到有限准确率损失下加速网络的目的。
[1708.03888] Scaling SGD Batch Size to 32K for ImageNet Training
简评：作者提出（基于网络权重和权重更新量）逐层定制不同的学习率（LARS）来训练网络，用AlexNet网络，试验了bsize从128到8192这些不同情况下，训练达到相似的准确率。作者使用比较老的AlexNet发现加了BN效果喜人，毕竟AlexNet等大网络没BN的话loss难收敛。
[1704.08063] SphereFace: Deep Hypersphere Embedding for Face Recognition [code] [Demo]
简评：SphereFace自去年提交MegaFace Challenge后，在小数据集（少于50W的训练数据）上一直保持verification performance第一。相比传统softmax在MegaFace上的Verification TAR提高了24.1%（从65.9%到90%），在LFW上single model达到99.42%的Accuracy，论文发表在今年的CVPR 2017。除了face recognition，还提供了一整套从detection到alignment再到recognition的demo。
Efficient Use of Limited-Memory Resources to Accelerate Linear Learning | C Dünner, T Parnell, M Jaggi, IBM Research - Zurich & EPFL (2017)
简评：作者提出一种在异构计算平台加速机器学习训练的通用方法，当训练数据超过内存时，可以自适应地根据现有内存的大小和处理速度做调整。该方法基于对偶坐标方法（primal-dual coordinate methods），并使用对偶间隙信息（duality gap information）动态地选择数据做更快的处理。作者以线性模型为例展示了该方法比现有方法的优越性。
FaceBoxes: A CPU Real-time Face Detector with High Accuracy | S Zhang, X Zhu, Z Lei, H Shi, X Wang, S Z. Li, Chinese Academy of Sciences (2017)
简评：为解决CPU上实时检测人脸的难题，作者提出一种新的人脸检测架构FacesBoxes，保证速度的同时兼顾准确率。该架构基于两种层：快速抽象卷积层（RDCL）和多尺度卷积层（MSCL），前者使FacesBoxes在CPU上达到实时，后者在不同层上解决人脸尺度不同的带来的感受野大小等问题。

开源项目

ncnn-mobile: use ncnn in Android(Android Studio) and iOS
简评：在安卓和iOS平台使用ncnn跑SqueezeNet来构建你的AI APP（包含安卓和iOS项目代码）！
efanna: fast library for ANN search and KNN graph construction [paper]
简评：C++超快近似最近邻（ANN）搜索算法库。
Hungarian algorithm + Kalman filter multitarget tracker implementation
简评：用OpenCV实现多目标追踪。
Dockerface: an easy to install and use Faster R-CNN face detector in a Docker container | N Ruiz, J M. Rehg, Georgia Institute of Technology (2017) [paper]
简评：用Docker来构建你的人脸检测器吧！
chainer-pspnet: PSPNet in Chainer
简评：用金字塔场景解析网络（PSPNet）来做场景分割。
NVCaffe(NVIDIA Caffe): NVIDIA-maintained fork of BVLC Caffe tuned for NVIDIA GPUs, particularly in multi-GPU configurations
简评：对GPU多卡做了调整优化的NVIDIA Caffe。

博文

为模型减减肥：谈谈移动/嵌入式端的深度学习 | 机器之心专栏李飞
简评：简述了下为什么需要模型简化到方法，写的比较简单，适合新手看或当做一篇了解的引文。
Cross-compiling TensorFlow for the Raspberry Pi | Pete Warden
简评：在树莓派上交叉编译你的TensorFlow吧（教程）！
Dealing with Reality: Low-Quality Visual Data Processing and Analytics | CVPR 2017 Tutorial
简评：雾霾！低清！有噪声的图像、视频怎么搞？！教你对低分辨率图像/视频数据做分析。
Vertex.AI - Bringing Deep Learning to OpenCL | Choong Ng
简评：用OpenCL来搞深度学习！
Hyperdash：在手机上监督机器学习训练过程的App
简评：深度学习工程师必备！（需要事先在服务器上安装提供的python包并登录，借助该APP查看当前服务器上模型训练的状态）
LearnJS Imagenet Demo
简评：用deeplearn.js的SqueezeNet模型实时图像识别。

Editor: 张先轶、袁帅

点击文末阅读原文跳转到我们的双周简报主页，可以阅读带条目超链接的版本。

嵌入式AI双周简报 第3期

正文

嵌入式AI 双周简报 (2017-08-22)

业界新闻

论文

开源项目

博文

嵌入式AI双周简报第3期