NNVM Compiler: Open Compiler for AI Frameworks | tvmlang [
blog
]
简评:陈天奇:我们今天发布了基于TVM工具链的深度学习编译器 NNVM compiler。支持将包括mxnet,pytorch,caffe2, coreml等在内的深度学习模型编译部署到硬件上并提供多级别联合优化。速度更快,部署更加轻量级。 支持包括树莓派,服务器和各种移动式设备和 cuda, opencl, metal, javascript以及其它各种后端。欢迎对于深度学习,编译原理,高性能计算,硬件加速有兴趣的同学一起加入dmlc推动领导开源项目社区。
论文
Efficient Methods and Hardware for Deep Learning | Stanford Digital Repository [paper]
简评:Song Han的博士论文,不久前他获得斯坦福大学博士学位,一直致力于energy-efficient deep learning、机器学习和计算机架构的交叉领域,他曾提出的 Deep Compression 在不损失预测精度的前提下大幅压缩模型。同时参与设计了 EIE 项目(Efficient Inference Engine:a hardware architecture that can perform inference directly on the compressed sparse model, which saves memory bandwidth and results in significant speedup and energy saving)。
[1710.02254] Lattice Recurrent Unit: Improving Convergence and Statistical Efficiency for Sequence Modeling [code]
简评:RNN在资源不足的情况下泛化性能弱。作者引入了称为晶格循环单元(LRU)的结构,以解决有限资源学习深层多层次复用模型的问题。作者与Grid-LSTM和Recurrent Highway网络相比,在四个公开数据集上的研究结果表明:LRU计算收敛率和统计效率值,同时语言模型的表达更准确。
[1710.01992] Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks
简评:卷积神经网络展示了对单一图像超分辨率高质量的重建效果。然而,现有方法往往需要大量的网络参数和需要大量计算负载以生成高精度超分辨率结果。作者提出了拉普拉斯算子金字塔超分辨率网络:在多个水平上网络逐步重建高分辨率图像。与现有方法相比,仅需低计算负载。此外作者利用在金字塔内的递归层以及共享参数,大大减少了参数数量。
[1710.01878] To prune, or not to prune: exploring the efficacy of pruning for model compression
简评:作者探索模型剪枝的必要性,对同一个大模型分别剪枝成大而稀疏和小而稠密的模型,经测试(CNN,Stacked LSTM,C2C LSTM)发现稀疏大模型始终优于稠密模型,实现了在最小精度的损失下,减少了10倍的参数。
开源项目
wichtounet/dll: Deep Learning Library (DLL) for C++ (ANNs, CNNs, RBMs, DBNs...) [blog]
简评:C++高性能深度学习库,类似keras,也是作者毕业论文的产物之后维护至今。
wkentaro/labelme: Image Annotation Tool with Python
简评:Python图像可视化标记工具,支持分类图像检测和分割数据的标注。
r4ghu/iOS-CoreML-Yolo: Almost Real-time Object Detection using Apple's CoreML and YOLO v1 [blog]
简评:iOS平台CoreML/YOLO(v1)近实时目标检测。
mikesart/gpuvis: GPU Trace Visualizer
简评:Gpuvis Linux GPU分析器是一个类似于在Windows系统上的GPUView。它旨在与trace-cmd捕获和帮助追踪Linux gpu和应用程序的性能问题。
Microsoft/EdgeML: This repository provides code for machine learning algorithms for edge devices developed at Microsoft Research India.
简评:这个库包含两个算法 Bonsai 和 ProtoNN。这两个算法在训练传统监督学习问题时所需内存数量低于其他现代ML算法。训练模型可以装配到移动设备如物联网设备/传感器,并可完全离线地用于快速且准确的预测。
peisuke/DeepLearningSpeedComparison: This repository is test code for comparison of several deep learning frameworks. [blog]
简评:CPU端热门深度学习框架的速度比较。
PyTorch implementation of the Quasi-Recurrent Neural Network - up to 16 times faster than NVIDIA's cuDNN LSTM' | Salesforce
简评:@schelotto: 简单说一下,LSTM训练速度很慢的原因是backprop时三个gate以及memory cell都依赖于上一个时间点的预测,因此是无法并行的。quasi RNN取消了gate的时间依赖,并采用Highway-net的残差链接有选择性的更新hidden layer,从而大大加快了训练速度。
博文
Small Deep Neural Networks - Their Advantages, and Their Design | Forrest Iandola, Kurt Keutzer
简评:视频来自youtube,由来自微软的的印度小哥讲解。
Mixed-Precision Training of Deep Neural Networks | Parallel Forall [paper]
简评:这篇博客来自NVIDIA,讨论了混合精度对训练的影响,实验表明带尺度缩放的混合精度甚至能提升准确率(相比仅使用一种精度而言,如FP32)。
Creating an IOS app with Core ML from scratch! | Gerardo Lopez Falcón
简评:从头开始搭建基于Core ML的IOS app。
Investing in the future of retail with Standard Cognition
简评:Standard Cognition正预打造未来的零售体验,和Amazon Go的设想一样:购买完商品离开商店会自动支付,该技术使用计算机视觉、深度学习以及传感器融合等技术,彻底跳过传统收银结帐的过程。
Training AI for Self-Driving Vehicles: the Challenge of Scale | Parallel Forall
简评:自驾车辆AI训练:规模化挑战。