对于 AI 开发者来说,本周可谓喜讯不断。首先是谷歌发布了全新的 tf.Transform 组件,大大简化了机器学习中的数据预处理问题;同时,从去年秋天开始传闻的 GPU 云端加速服务也终于在谷歌云平台实现了;另外,微软公司联合剑桥大学在最近发布的一篇论文中阐述了一个名为 DeepCoder 的机器学习系统,据介绍,该系统拥有基础编程能力,可以帮助不会写代码的人制作简易程序。最后,我们推荐几个本周内雷锋网出品的 “高能” 开发者资源合集,祝各位周末愉快。
谷歌发布全新 TensorFlow 库 “tf.Transform”
在实际的机器学习开发中,开发者通常需要对数据集进行大量的耗时费力的预处理过程,以适应各种不同标准的机器学习模型(例如神经网络)。
针对这一难题,谷歌于 22 日通过开发者博客正式发布了一个基于 TensorFlow 的全新功能组件 —— tf.Transform。它允许用户在大规模数据处理框架中定义预处理流水线(preprocessing pipelines),同时用户还可以将这些流水线导出,并将其作为 TensorFlow 计算图(TensorFlow graph)的一部分。
除了便于数据的预处理之外,tf.Transform 还允许用户计算其数据集的统计概要(summary statistics)。对于每个机器学习项目的开发者而言,深刻理解其数据都非常重要,因为任何对底层数据做出的错误假设都可能会产生一些微妙的错误。通过更简单和高效地计算数据的统计概要,tf.Transform 可以帮助开发者更好地检查他们关于原始数据和预处理数据的假设。
详情:http://www.leiphone.com/news/201702/Yi4oU1mSwKLc8Rad.html
微软剑桥联合推出 DeepCoder
微软和剑桥大学的研究员近日发布了一篇介绍 “会编程的机器学习系统——DeepCoder” 的论文。论文中描述的 DeepCoder 系统可以解决编程比赛所涉及到的基础编程题目,为不会编程的人提供了制作简易程序的可能。
据介绍, DeepCoder 可以在一秒钟之内写出能够跑通的程序,而且随着该系统引入更多的编程数据进行学习之后,它的编程能速度也会越来越快。但是,DeepCoder 也存在自身的不足之处,那就是 DeepCoder 只能自动生成五行左右代的代码程序。
详情:http://geek.csdn.net/news/detail/159111
DeepCoder 论文地址:https://openreview.net/pdf?id=ByldLrqlx
万众期待,Google 云计算平台终于支持云端 GPU 加速服务
在万众期待中,Google 云计算平台日前推出了支持云端 GPU 加速服务的公开测试版,第一款支持的 GPU 型号是 NVIDIA 的 Tesla K80,使 Google 云平台的性能获得了巨大提升。现在,用户可以在谷歌云平台的三个地区玩转基于 NVIDIA GPU 的虚拟机,包括美东 1 区(us-east1),东亚 1 区(asia-east1)和西欧 1 区(europe-west1)。据介绍,目前用户最多可以在自定义的 Google 云计端虚拟机上连接将 8 个 GPU(4 块 K80 的板子),并且只支持使用 gcloud 的命令行工具,但从下周起就可以云终端 UI 界面来创建虚拟机了。
详情:http://www.leiphone.com/news/201702/g1uGf9LG24pYNP8J.html
今日头条的引擎是怎么样工作的?
近日,今日头条算数中心执行总监刘志毅在日前于深圳北京大学汇丰商学院举行的 “数据之美” 论坛上进行技术分享。分享中,刘志毅详细介绍了今日头条是如何做到,向每个读者推送不一样的、据称是符合读者每个人不同兴趣的内容的技术过程。
详情:http://www.leiphone.com/news/201702/sWMJ4caPj5dxigGz.html
百度将 Ring Allreduce 算法引入深度学习
Ring Allreduce 本是 HPC (高性能计算)领域的一项技术。日前,百度硅谷 AI 实验室已成功将其移植到深度学习平台,借此来加速 GPU 之间的数据传输速率。目前,在 GPU 并行计算中,它们之间的通信瓶颈是制约深度学习模型训练速度的主要障碍之一。百度宣布,Ring Allreduce 算法的引入将移除该瓶颈,大幅提升多 GPU 和分布式计算环境下的深度学习模型运算效率。雷锋网 (公众号:雷锋网) 获得消息,该技术已被百度成功应用于语音识别。
该算法以库和 Tensorflow 补丁的形式向开发者开源,分别为 baidu-allreduce 和 tensorflow-allreduce,已在 GitHub 上线。
详情:http://www.leiphone.com/news/201702/QaSmvdQNbiY4CxBy.html
开源地址 1:https://github.com/baidu-research/baidu-allreduce
开源地址 2:https://github.com/baidu-research/tensorflow-allreduce
百度博客(英文):http://research.baidu.com/bringing-hpc-techniques-deep-learning/
下面送上三个本周内 AI 研习社发布的对开发者有益的资源合集。
资源 1:机器学习算法大汇总
资源 1 是国外大神总结的机器学习算法大合集,图中几乎包含了机器学习领域所有的常见算法。其中不但简单介绍了每一种算法的大概含义,还整理了它们的常见应用和优缺点,各位开发者绝对不可错过。
原图:http://pan.baidu.com/s/1kVFhQqb
详情:https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY
资源 2:2017 开发者需要关注的 AI 会议
资源 2 是 2017 年内与开发者密切相关的 17 场重磅的数据科学和 AI 相关的重大学术会议,其中包括 AAAI 2017、DeveloperWeek 和 Domino 数据科学峰会在内的三场大会已经过去了,但还剩下 14 场没开始的会议都有哪些呢?各位不妨了解下吧。
详情:http://www.leiphone.com/news/201702/BmtqOlEk9kW7X3i8.html
资源 3:AI 领域含金量最高的开源数据库合集
资源 3 是几位机器学习专家总结的 AI 领域含金量最高的开源数据库合集,从计算机视觉,自然语言文本和语音,以及网络和地理空间数据等几乎无所不有,总有一款适合你,各位开发者不妨试试吧。
详情:http://www.leiphone.com/news/201702/Can849ZwMlp66QBR.html