Why the PowerVR 2NX NNA is the future of neural net acceleration | Imagination Technologies
简评:上个星期PowerVR在其发展史上新增一项全新IP产品——硬件神经网络加速器:“PowerVR 2NX”。其命名为神经网络加速器(NNA),它能够提供全面的硬件解决方案,支持多种神经网络模型和架构以及机器学习框架,比如谷歌公司推出的TensorFlow和Caffe,具有行业领先的性能和低功耗特性。
[1709.09161] EDEN: Evolutionary Deep Networks for Efficient Machine Learning [video]
简评:寻找高效的模型架构和超参数没有一个指导,作者将离散型变量如激活函数的类型等网络层,以及连续型的超参数如学习率作为参数,通过传统的遗传算法来寻找最佳模型结构和超参数。
[1709.07566] Smart Mirror: Intelligent Makeup Recommendation and Synthesis
简评:人像美颜通常都有比较专业的编辑软件,作者提出一个自动化且个性化的美颜化妆系统。用一个模型描述脸部特征和推荐妆容间关系,推荐妆容就可以自然地合成到输入的脸部图像上了。
[1709.07626] BreathRNNet: Breathing Based Authentication on Resource-Constrained IoT Devices using RNNs
简评:作者研究了使用RNN进行基于呼吸声(breathing acoustics)的端到端认证系统的可行性,并在三种设备(智能手机、智能手表、树莓派)上测试性能,表示该认证系统可以轻松移植到资源有限的设备上(不会造成严重精度损失)。
[1709.06622] Distributed Training Large-Scale Deep Architectures
简评:本文关注分布式平台上深度学习的训练加速。作者先从以往常规测试中确定在单卡、多卡、多机时数据并行的瓶颈和间接开销,提出一个针对分布式应用以减少通信开销为目的,用于估计服务器数量的公式和一些加速训练过程的指导性意见。
[1709.06053] Coupled Ensembles of Neural Networks
简评:本文算是模型集成的一个应用。将多个单独小卷积网络作为并行分支以组成一个大网络,好处有三:减少参数数量;精度明显提升;速度基本维持。毕竟分支的使用就是一种正则,在此基础上作者提出训练过程中,在SoftMax层前的操作放置一个融合平均层(fuse layer)可以大大提高精度。使用这种分支和方法的架构称为“coupled ensembles”,该方法具有通用性可以用于几乎所有DCNN架构,作者实验了不同参数规模下的DenseNet-BC结构,在2500万总参数规模下,CIFAR-10、CIFAR-100和SVHN数据集上的错误率分别达到2.92%、15.68%和1.50%。
[1709.05804] Minimal Effort Back Propagation for Convolutional Neural Networks
简评:本文关注反向传播的梯度更新的加速。作者提出仅计算完整梯度的一部分来更新模型参数,在卷积网络上的实验,仅使用5%的梯度模型仍然能达到相同的性能甚至更好。另外,作者还发现用top-k的梯度来更新参数,可以更高效地实现稀疏反向传播。
[1709.06994] Structured Probabilistic Pruning for Deep Convolutional Neural Network Acceleration
简评:作者提出一种相比传统剪枝方法,更加考虑训练过程中权重的重要性的剪枝方法(突出重要权重和消除不重要权重):条件概率剪枝(Structured Probabilistic Pruning)。实验表明在ImageNet-2012验证集上对AlexNet网络剪枝,top-5错误率增加1.3%的情况下,可使卷积层的速度加快4到8.9倍(平均5.8倍),同时作者还验证了该方法使用AlexNet在迁移学习上的有效性。
[1709.06030] N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning
简评:作者提出用策略梯度强化学习来做模型压缩。首先拿一个大的网络做为teacher网络作为输入,输出一个压缩后的student网络(源自teacher网络)。第一阶段,一个递归策略网络会对teacher网络侵略性地移除一些层,第二阶段会有另一个递归策略网络会小心翼翼地再对留下的层进行尺寸上的减小。剩下的网络会被评估并得到一个基于该网络准确率和相比原始网络的压缩比例的分数,也是就是reward。作者就是用该reward来训练policies最终得到最佳的student网络。作者实验了ResNet-34,在维持精度下模型缩小了10倍以上,同时在得到的网络上拿来做迁移学习也得到了不错的结果。
[1709.05943] Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video
简评:YOLOv2在速度和精度上都有提升,尽管YOLOv2在检测上达到实时,但需要一颗强大的GPU做后援,在嵌入式等内存有限的设备仍很吃力,作者基于YOLOv2使用进化算法提出名为Fast YOLO的新架构,精度(IOU)上有2%的损失,参数数量减少2.8倍。作者又提出运动自适应inference方法,基于时间运动特性来进一步减少推理频率,在Nvidia Jetson TX1嵌入式系统上Fast YOLO可以达到18FPS的实时性能。
[1709.05011] 100-epoch ImageNet Training with AlexNet in 24 Minutes
简评:作者提出当前训练DNN的瓶颈在于算法层面(说白了就是batch size太小如512,不足以充分用好大量处理器)。对于大规模的DNN训练,作者关心在给定epochs数目不损失精前提下,数据并行中使用大batch的同步SGD。受到前阵子LARS算法和Facebook一小时训练ImageNet的启发,作者用AlexNet在24分钟训练100个epoch的壮举,此外又在一小时内对ResNet-50训练90个epoch。
开源项目
deeplearn.js style transfer [demo]
简评:使用deeplearn.js框架进行风格迁移的实例代码,附属演示demo。
Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources | Adrian Bulat [code] [paper]
简评:二值化卷积网络在嵌入式设备上的人体姿态估计和人脸对齐应用,两个模型大小分别是1.3MB、1.4MB,模型和代码开源。
fregu856/2D_detection: TensorFlow implementation of SqueezeDet, trained on the KITTI dataset.
简评:作者基于TensorFlow的官方SqueezeNet模型,在KITTI数据集上实现用SqueezeNet的检测模型。
sagar448/Self-Driving-Car-3D-Simulator-With-CNN: Implementing a self driving car using a 3D Driving Simulator. CNN will be used for training
简评:快来训练自己的CNN自动驾驶模型吧!
Introducing Radeon Instinct: The Fusion of Human Instinct and Machine Intelligence | RADEON INSTINCT
简评:本文副标题是:AMD’s Open Source Deep Learning Strategy。探讨了AMD深度学习的开源策略,并解释了AMD ROCm计划在加速深度学习方面的优势。