专栏名称: AI前线
微信号:AI前线,ID:ai-front 运营
目录
相关文章推荐
爱可可-爱生活  ·  自学型工具推理模型 START 查看图片 ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与!-20250 ... ·  昨天  
爱可可-爱生活  ·  CLT不适用于小样本LLM评估 查看图片 ... ·  2 天前  
51好读  ›  专栏  ›  AI前线

Jeff Dean执笔谷歌团队2017年终总结,干货满满

AI前线  · 掘金  · AI  · 2018-01-14 02:36

正文

本文由 「 AI前线 」原创,原文链接: Jeff Dean执笔谷歌团队2017年终总结,干货满满
作者|谷歌高级研究员 Jeff Dean 代表谷歌大脑团队
译者|Debra
编辑|Emily

AI 前线导读:” 谷歌大脑一年一度的的年终总结来了!今年也不例外,这篇由谷歌高级研究员,兼谷歌大脑负责人的 Jeff Dean 执笔的文章干货满满,链接贴得小编手都酸了~ 话不多说,记得收藏~”


总结部分内容:

作为整个 Google 人工智能工作的一部分,Google Brain 团队致力于通过研究和系统工程提升人工智能的技术水平。去年,我们在 2016 年分享了工作总结。从那时起,我们在制造智能机器的长期研究上不断取得进展,并与谷歌和 Alphabet 的许多团队合作,希望这些成果可以改善人们的生活。这篇文章将重点介绍我们在 2017 年的一些工作,包括基础研究工作,以及开源软件、数据集和机器学习新硬件方面的更新。


核心研究

我们团队的重点研究目标是提高我们在机器学习领域的理解力,以及解决新问题的能力。以下是去年我们研究的几个主要课题。

自动化机器学习

自动化机器学习的目标,是开发计算机自动解决新的机器学习问题的技术,而不需要人类机器学习专家逐一干预,这是真正的智能系统所需的基本功能。我们开发了使用强化学习和进化算法设计神经网络结构的新方法,将这项工作扩展到了 ImageNet 最新分类和检测结果中,并展示了如何自动学习新的优化算法和有效的激活函数。我们正在积极与 Cloud AI 团队合作,将此技术带给 Google 客户,并继续向多个方向推进这项研究。

神经结构搜索发现的卷积网络
使用 AutoML 发现的网络进行物体检测


语言理解与生成

我们的另一个研究课题是开发一种提高计算机系统理解和产生人类言语能力的新技术,包括与谷歌语音团队合作改进端到端语音识别的方法,将 Google 语音识别生成系统的单词错误率降低了 16%。这项工作的一个好处是,它需要将许多独立的研究线索整合到一起(可以在 Arxiv 上找到:1,2,3,4,5,6,7,8,9)。

Listen-Attend-Spell 端到端语音识别模型组成部分

我们还与 Google 的 Machine Perception(机器感知)团队合作开发了一种文本生成语音的新方法(Tacotron 2),大大提高了生成语音的质量。这个模型的平均分数达 4.53 分(MOS),相比之下,有声读物中的人类专业播音员的 MOS 评分平均分为 4.58,而之前计算机生成语音的最佳成绩为 4.34。你也可以测试一下自己能得多少分。

Tacotron 2 的模型架构


新的机器学习算法和方法

我们继续开发新的机器学习算法和方法,包括胶囊(在执行视觉任务时明确将寻找激活特征中的一致性作为评估不同噪声假设的依据),sparsely-gated mixtures of experts(能够实现仍具有计算效率的大型模型),超网络(hypernetworks,使用一个模型的权重来生成另一个模型的权重),新型的多模式模型(在同一个模型中进行音频、视觉和文本输入多任务学习),基于注意的机制(代替卷积和循环模型),符号和非符号学习优化方法(通过离散变量向反向传播的技术),以及一些新的强化学习算法改进。

计算机系统的机器学习

我们对机器学习在计算机系统中取代传统的启发式方法也非常感兴趣。我们已经展示了如何使用强化学习来进行放置决策,以便将计算图映射到一组计算设备上,效果优于人类专家。我们与 Google Research 的其他同事一起,在“学习索引结构的案例”中展示了神经网络比传统数据结构(如 B 树,哈希表和布卢姆过滤器)更快、更小。正如 NIPS 研讨会上的《机器学习系统和系统的机器学习》一文所述,我们相信,我们在核心计算机系统中使用机器学习方面的研究只是冰山一角。

学习模型索引结构


隐私和安全

机器学习和安全和隐私的交互仍然是我们的研究重点。我们在论文中展示了机器学习技术提供不同的隐私保护,该论文获得了 ICLR 2017 最佳论文奖。我们还继续研究了对抗性示例的性特性其中包括现实世界中的对抗性示例,以及如何在训练过程中大规模利用对抗性示例,使模型更加强大。

了解机器学习系统

虽然我们在深度学习方面获得了令人印象深刻的成果,但理解它的原理也同样重要。在 ICLR 2017 的另一篇最佳论文中,我们发现目前的机器学习理论框架无法解释这些深度学习的方法。论文还表明,最优化方法找到的最小值的“平坦度”与良好泛化方法之间的联系并没有预设中紧密。为了更好地理解深层架构下的训练是如何进行的,我们发表了一系列分析随机矩阵的论文,因为大多数训练方法都始于随机矩阵。了解深度学习的另一个重要途径是更好地衡量其性能。我们最近的一项研究显示了良好的实验设计和严谨的统计对于实验的重要性,对众多 GAN 方法进行比较,发现很多流行的生成模型实际上并无法提高性能。我们希望这项研究能够为其他研究人员树立一个可靠的实验研究范例。

我们正在探索能够更好地解释机器学习系统的方法,并于 3 月份与 OpenAI、DeepMind、YC Research 等合作,宣布推出一本致力于促进人类对机器学习理解的在线开放性科学期刊——《Distill》。这本期刊因为清晰地解释机器学习概念,以及文章中出色的交互式可视化工具赢得了声誉。2017 年,《Distill》发表了许多启发式的文章,旨在了解各种机器学习技术的原理,预计 2018 年会有更多优秀的文章刊出。

特征可视化
如何有效地使用 t-SNE

机器学习研究的开放数据集

MNIST、CIFAR-10、ImageNet、SVHN 和 WMT 这样的开放数据集,极大地推动了机器学习领域的发展。作为一个整体,我们的团队和 Google Research 在过去一年左右一直积极地为开放式机器学习研究开放有趣的新数据集,提供更多的大型标记数据集,包括:

  • YouTube-8M:分别用 4716 个不同类别注释的 700 万条 YouTube 视频
  • YouTube 绑定框:210,000 个 YouTube 视频的 500 万个绑定框
  • 语音指令数据集:数千条发言者的简短命令语
  • AudioSet:200 万个 10 秒的 YouTube 剪辑,标有 527 个不同的声音事件
  • 自动视觉行动(AVA):57,000 个视频片段中的 21 万个动作标签
  • Open Image:9M,标有 6000 个类别的创意共享授权图片
  • Open Images with Bounding Boxes:600 个类的 1.2M 边界框
YouTube 边界框数据集示例:以每秒 1 帧采样的视频片段,边界框成功识别感兴趣的目标
YouTube 边界框数据集示例:以每秒 1 帧采样的视频片段,边界框成功识别感兴趣的目标

TensorFlow 和开源软件

TensorFlow 用户分布广泛

纵观历史,我们的团队已经构建了一些工具,帮助我们在 Google 的许多产品中进行机器学习研究并部署机器学习系统。 2015 年 11 月,我们开放了第二代机器学习框架 TensorFlow,希望机器学习社区能够从机器学习软件工具的投资中受益。今年二月份,我们发布了 TensorFlow 1.0,在十一月份,我们发布了 1.4 版本,包括:交互式命令式编程的及早求值,TensorFlow 程序的优化编译器 XLA,以及适用于移动和嵌入式设备的轻量级框架 TensorFlow Lite。目前,预编译的 TensorFlow 二进制文件目前在 180 多个国家的下载量已经超过一千万次,GitHub 上的源代码现在已经有超过 1200 个贡献者。

今年 2 月,我们举办了第一届 TensorFlow 开发者峰会,450 多人前来山景城现场参加活动,全球观看人数 6500 万,包括在 35 多个国家和地区举办的超过 85 场本地观看活动。所有的会谈都被记录下来,会议主题包括新功能、使用 TensorFlow 的技巧,以及低级 TensorFlow 抽象的细节等。2018 年 3 月 30 日吗,我们将在湾区举办另一个 TensorFlow 开发者峰会。

11 月,TensorFlow 纪念开放源代码项目两周年。TensorFlow 是 GitHub 上的第一个机器学习平台,也是 GitHub 上的五大软件库之一,被许多公司和组织所使用,GitHub 上与 TensorFlow 相关的软件库超过 24,500 个。现在,许多研究论文的研究成果都与开放源码的 TensorFlow 实现一起出版,使得社区能够更轻松地理解确切的使用方法,并重现或扩展自己的工作。

TensorFlow 也从其他 Google 研究团队的开源相关工作中获益,其中包括 TensorFlow 中的生成对抗模型的轻量级库 TF-GAN,用于处理晶格模型的一组估计器 TensorFlow Lattice,以及 TensorFlow 物体识别 API。 TensorFlow 模型库随着越来越多的模型不断扩大。

除了 TensorFlow,我们还在浏览器中发布了 deeplearn.js,一个开源的硬件加速深度学习 API 应用(无需任何下载或安装)。deeplearn.js 主页有许多很好的例子,其中包括可以使用网络摄像头进行训练的计算机视觉模型“教育机器”,以及基于神经网络的实时钢琴演奏和演奏示例“演奏 RNN”。2018 年,我们将尝试将 TensorFlow 模型直接部署到 deeplearn.js 环境中。







请到「今天看啥」查看全文