嵌入式AI双周简报第6期

PerfXLab卧谈会 · 公众号 · AI · 2017-10-03 13:00

正文

请到「今天看啥」查看全文

点击文末阅读原文跳转到我们的双周简报主页，可以阅读带条目超链接的版本。

业界新闻

黄教主的开源NVDLA，“核”爆还是“核”平？ | 矽说 [项目主页]
简评：risc-v的开源，dla的开源，硬件开源化也成为一大趋势。此次推出的开源DLA计划，彻底推翻GPU架构，重新定义了加速器架构，还能展现NV家优势么？
黄仁勋北京演讲：GPU帝国启幕，发布可编程AI 推理加速器TensorRT 3 | 新智元
简评：NVIDIA发布TensorRT 3（支持众多深度学习框架），基于Tesla V100的HGX-1加速器，Volta架构的新一代终端芯片Xavier。
neon v2.1.0: Leveraging Intel® Advanced Vector Extensions 512 (Intel® AVX-512) | Intel Nervana
简评：neon 2.1版发布：加入对高级向量扩展（Intel AVX-512）的支持。同时，neon 2.1使用新版MKL-DNN，对Xeon处理器和即将发布的Xeon Phi协处理器做了特别优化。新版neon自动使用AVX-512指令来加速卷积，内积等深度学习kernel。
英特尔推出神经形态测试芯片Loihi：可自学习 | 机器之心 [video]
简评：芯片巨头英特尔的研究实验室开发出一种新型芯片，即Intel Loihi测试芯片。该芯片由128个计算核心组成，每个核心有1024个人工神经元，整个芯片共有超过13万个神经元和1.3亿个突触连接。
Why the PowerVR 2NX NNA is the future of neural net acceleration | Imagination Technologies
简评：上个星期PowerVR在其发展史上新增一项全新IP产品——硬件神经网络加速器：“PowerVR 2NX”。其命名为神经网络加速器（NNA），它能够提供全面的硬件解决方案，支持多种神经网络模型和架构以及机器学习框架，比如谷歌公司推出的TensorFlow和Caffe，具有行业领先的性能和低功耗特性。
如何评价百度刚刚开源的mobile-deep-learning | 知乎 [code]
简评：贾扬清在回答中给出了一些移动端网络优化的思路，百度的同学主要用了Metal、neon等优化手段，该框架编译后体积达300+kb，但目前支持的层还比较少。在实现思路上，MDL当然也包括NCNN在内，都借鉴了caffe。
MATLAB更新R2017b：转换CUDA代码极大提升推断速度 | 机器之心
简评：在嵌入式平台部署上比较值得关注的地方：一是使用GPU Coder可将MATLAB的模型代码转换为CUDA代码方便嵌入式设备部署，二是嵌入式部署的模型比Caffe2快4.5倍，比TensorFlow快7倍，期待更具体的Benchmark和实现策略！
精确度达30cm，这款超精准GPS芯片将在2018年“空降”智能手机 | DeepTech深科技 [英文原文]
简评：Broadcom 宣布，它正在对一款面向大众市场的新型芯片进行采样测试，该芯片可以利用全球导航卫星信号，并将为下一代智能手机提供 30 厘米的精确度，远超现在的 5 米精确度。
特斯拉捅翻了马蜂窝！自动驾驶芯片战争爆发 | Origin 车东西
简评：英特尔豪掷320亿美元买了入场券；英伟达狂发计算平台刷新性能上限；高通立足5G苦等470亿美元的恩智浦。
华为回应NPU IP归属问题，麒麟970全面对标iPhone8 Plus | 新智元
简评：2017年麒麟芯片媒体沟通会今天上午在北京举行，这是华为海思首次正式对外进行麒麟970芯片的深度解读。沟通会上，华为Fellow艾伟回应了关于“麒麟970的NPU是寒武纪的IP”的问题。
景驰科技完成Pre-A轮5200万美元融资，启明创投，英伟达投资 | 新智元
简评：有一家今年4月刚刚成立的自动驾驶初创企业，备受业界关注，却很少对外发声。它的名字是景驰科技，业界对它的关注首先来自其几位重量级创始人：前百度高级副总裁、自动驾驶事业部总经理王劲担任CEO；前百度自动驾驶事业部首席科学家韩旭担任CTO；前Velodyne CFO Qing Lu担任CFO。

论文

[1709.09161] EDEN: Evolutionary Deep Networks for Efficient Machine Learning [video]
简评：寻找高效的模型架构和超参数没有一个指导，作者将离散型变量如激活函数的类型等网络层，以及连续型的超参数如学习率作为参数，通过传统的遗传算法来寻找最佳模型结构和超参数。
[1709.07566] Smart Mirror: Intelligent Makeup Recommendation and Synthesis
简评：人像美颜通常都有比较专业的编辑软件，作者提出一个自动化且个性化的美颜化妆系统。用一个模型描述脸部特征和推荐妆容间关系，推荐妆容就可以自然地合成到输入的脸部图像上了。
[1709.07626] BreathRNNet: Breathing Based Authentication on Resource-Constrained IoT Devices using RNNs
简评：作者研究了使用RNN进行基于呼吸声（breathing acoustics）的端到端认证系统的可行性，并在三种设备（智能手机、智能手表、树莓派）上测试性能，表示该认证系统可以轻松移植到资源有限的设备上（不会造成严重精度损失）。
[1709.06622] Distributed Training Large-Scale Deep Architectures
简评：本文关注分布式平台上深度学习的训练加速。作者先从以往常规测试中确定在单卡、多卡、多机时数据并行的瓶颈和间接开销，提出一个针对分布式应用以减少通信开销为目的，用于估计服务器数量的公式和一些加速训练过程的指导性意见。
[1709.06053] Coupled Ensembles of Neural Networks
简评：本文算是模型集成的一个应用。将多个单独小卷积网络作为并行分支以组成一个大网络，好处有三：减少参数数量；精度明显提升；速度基本维持。毕竟分支的使用就是一种正则，在此基础上作者提出训练过程中，在SoftMax层前的操作放置一个融合平均层（fuse layer）可以大大提高精度。使用这种分支和方法的架构称为“coupled ensembles”，该方法具有通用性可以用于几乎所有DCNN架构，作者实验了不同参数规模下的DenseNet-BC结构，在2500万总参数规模下，CIFAR-10、CIFAR-100和SVHN数据集上的错误率分别达到2.92%、15.68%和1.50%。
[1709.05804] Minimal Effort Back Propagation for Convolutional Neural Networks
简评：本文关注反向传播的梯度更新的加速。作者提出仅计算完整梯度的一部分来更新模型参数，在卷积网络上的实验，仅使用5%的梯度模型仍然能达到相同的性能甚至更好。另外，作者还发现用top-k的梯度来更新参数，可以更高效地实现稀疏反向传播。
[1709.06994] Structured Probabilistic Pruning for Deep Convolutional Neural Network Acceleration
简评：作者提出一种相比传统剪枝方法，更加考虑训练过程中权重的重要性的剪枝方法（突出重要权重和消除不重要权重）：条件概率剪枝（Structured Probabilistic Pruning）。实验表明在ImageNet-2012验证集上对AlexNet网络剪枝，top-5错误率增加1.3%的情况下，可使卷积层的速度加快4到8.9倍（平均5.8倍），同时作者还验证了该方法使用AlexNet在迁移学习上的有效性。
[1709.06030] N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning
简评：作者提出用策略梯度强化学习来做模型压缩。首先拿一个大的网络做为teacher网络作为输入，输出一个压缩后的student网络（源自teacher网络）。第一阶段，一个递归策略网络会对teacher网络侵略性地移除一些层，第二阶段会有另一个递归策略网络会小心翼翼地再对留下的层进行尺寸上的减小。剩下的网络会被评估并得到一个基于该网络准确率和相比原始网络的压缩比例的分数，也是就是reward。作者就是用该reward来训练policies最终得到最佳的student网络。作者实验了ResNet-34，在维持精度下模型缩小了10倍以上，同时在得到的网络上拿来做迁移学习也得到了不错的结果。
[1709.05943] Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video
简评：YOLOv2在速度和精度上都有提升，尽管YOLOv2在检测上达到实时，但需要一颗强大的GPU做后援，在嵌入式等内存有限的设备仍很吃力，作者基于YOLOv2使用进化算法提出名为Fast YOLO的新架构，精度（IOU）上有2%的损失，参数数量减少2.8倍。作者又提出运动自适应inference方法，基于时间运动特性来进一步减少推理频率，在Nvidia Jetson TX1嵌入式系统上Fast YOLO可以达到18FPS的实时性能。
[1709.05011] 100-epoch ImageNet Training with AlexNet in 24 Minutes
简评：作者提出当前训练DNN的瓶颈在于算法层面（说白了就是batch size太小如512，不足以充分用好大量处理器）。对于大规模的DNN训练，作者关心在给定epochs数目不损失精前提下，数据并行中使用大batch的同步SGD。受到前阵子LARS算法和Facebook一小时训练ImageNet的启发，作者用AlexNet在24分钟训练100个epoch的壮举，此外又在一小时内对ResNet-50训练90个epoch。

开源项目

deeplearn.js style transfer [demo]
简评：使用deeplearn.js框架进行风格迁移的实例代码，附属演示demo。
Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources | Adrian Bulat [code] [paper]
简评：二值化卷积网络在嵌入式设备上的人体姿态估计和人脸对齐应用，两个模型大小分别是1.3MB、1.4MB，模型和代码开源。
fregu856/2D_detection: TensorFlow implementation of SqueezeDet, trained on the KITTI dataset.
简评：作者基于TensorFlow的官方SqueezeNet模型，在KITTI数据集上实现用SqueezeNet的检测模型。
sagar448/Self-Driving-Car-3D-Simulator-With-CNN: Implementing a self driving car using a 3D Driving Simulator. CNN will be used for training
简评：快来训练自己的CNN自动驾驶模型吧！

博文

揭秘支付宝中的深度学习引擎：xNN | 阿里技术
简评：本文介绍支付宝App中的深度学习引擎——xNN。xNN通过模型和计算框架两个方面的优化，解决了深度学习在移动端落地的一系列问题。xNN的模型压缩工具 (xqueeze) 在业务模型上实现了近50倍的压缩比，使得在包预算极为有限的移动App中大规模部署深度学习算法成为可能。xNN的计算性能经过算法和指令两个层面的深度优化，极大地降低了移动端DL的机型门槛。
深度学习只能用实数？凭什么不能用复数？！ | 机器人圈 [英文原文]
简评：在深度学习架构中使用复值确实有很多“真正的”优势。研究表明，跨层梯度信息的传播更加强大，更高的记忆容量，更精确的遗忘行为，大幅降低序列的网络大小以及提高GAN训练中的稳定性。
浅析 Hinton 最近提出的 Capsule 计划 | 知乎专栏
简评：Hinton近几年以 “卷积神经网络有什么问题？” 为主题做了多场报道，提出了他的Capsule计划。
“信息瓶颈”理论揭示深度学习本质 | 新智元 [英文原文]
简评：希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做“信息瓶颈”的理论，该理论认为，深度神经网络在学习过程中像把信息从瓶颈中挤压出去一般，去除噪音输入，只保留与通用概念最相关的特征。
Introducing Radeon Instinct: The Fusion of Human Instinct and Machine Intelligence | RADEON INSTINCT
简评：本文副标题是：AMD’s Open Source Deep Learning Strategy。探讨了AMD深度学习的开源策略，并解释了AMD ROCm计划在加速深度学习方面的优势。
神经网络DSP核的一桌麻将终于凑齐了 | 唐杉 StarryHeavensAbove
简评：随着VeriSilicon和Cadence相继发布支持AI（神经网络）的DSP IP，加上CEVA和Synopsys，几家主流DSP IP厂商全部粉墨登场。之前的系列文章“处理器IP厂商的机器学习方案”中已经介绍了CEVA和Synopsys的方案。今天看看VeriSilicon和Cadence的方案吧。
AR 增强现实技术在移动端有比较成熟或者比较创意/创新的应用吗 | 知乎
简评：快下载一波好玩儿的APP吧！
中信研报：AI群“芯”逐鹿，英伟达、谷歌、寒武纪等25家公司实力拆解 | CITICS电子研究
简评：选自中信证券研究部电子行业研究团队报告《群芯逐鹿时代：AI未来，星辰大海——人工智能深度系列研究报告》，从技术角度全面剖析整个AI芯片市场格局及发展。

Editor: 张先轶、袁帅

PerfXLab澎峰科技

http://7xo6kd.com1.z0.glb.clouddn.com/upload-ueditor-image-20170919-1505821004870069357.jpg

躺着聊

点击文末阅读原文跳转到我们的双周简报主页，可以阅读带条目超链接的版本。

嵌入式AI双周简报 第6期

正文

请到「今天看啥」查看全文

业界新闻

论文

开源项目

博文

请到「今天看啥」查看全文

嵌入式AI双周简报第6期