作者:弗格森 文强 张易 刘小芹
【新智元导读】18日凌晨,谷歌一年一度的开发者大会I/O拉开帷幕,其CEO Sundar Pichai发表主旨演讲。重磅发布了谷歌第二代TPU和 Cloud TPU,被认为对英伟达构成较大威胁。新智元第一时间带来深度解读。本文还对凌晨谷歌新发布的9大产品进行了简要介绍,其中包括图像处理、机器学习平台、虚拟助理和智能家居的重大新功能、VR/AR等等。带你一文看懂昨晚的I/O大会首秀。
2017年5月18日凌晨,素有科技界四大春晚之一的谷歌开发者大会(I/O) 在加利福尼亚州的山景城开幕。
谷歌CEO Sundar Pichai 发表主旨演讲。以下是本场主旨演讲的一些亮点:
1.谷歌针对Siri的竞品——Google Assissaant 可直接在iPhone上使用;
2.谷歌在芯片上再放大招推云TPU;CNBC报道称,英伟达可能会为此感到害怕(Scare);
3.谷歌智能音箱Google Home新推四大功能,可直接用于语音通话,也可免费拨打手机;
4.谷歌照片(Google Photos)现在已经有超过5亿用户,新增加的人脸识别等技术可以让用户更智能地分享照片;
5.谷歌新推独立VR硬件(不需要手机),与联想和HTC合作;
6.手机上的TensorFlow:TensorFlow Lite很快开源。
Sundar 在演讲一开始便提到,谷歌在很多年前就开始布局的数据和机器学习,这让他们的产品现在有了超过10亿的用户量,另外,安卓的活跃用户已经超过20亿。
今年Sundar反复提及的主题依然是:从“手机为先”到“AI为先”。他说:“手机使我们重新想象我们正在进行的一切。我们必须从根本上重新想象我们正在做的一切,有了‘AI为先’,我们也是在做一样的事情。”
Pichai 的演讲不长,但信息量却很大——本届谷歌 I/O 大会现场有 7000 多人参加,在 400 多个国家直播。Pichai 还专门查询了去年谷歌 I/O 大会的评价和反馈——由于大会是在露天举办的——表示今年会免费提供防晒霜给各位参会者,赢得台下一篇掌声和笑声。
Pichia 说,跟所有的计算平台范式转换一样,从键盘鼠标到手指触控再到现在的语音交互,计算机在自然语言理解和处理方面的能力不断提高,即使在噪音环境中也能比较准确地识别说话人的命令,很自然地带出了 Google Home 的广告。
除了语音,视觉也是另一大重点。Pichai 现场展示了两个例子,一是图像去模糊,二是隔着铁丝网拍摄小女打垒球时,去除前景,也即铁丝网。Pichai 表示,计算机也正在逐步开始理解图像和视频的含义。
Sundar Pichai 2017年I/O大会上展示的第一款产品是谷歌 Lens,可以认为是一款智能相机,只要对着拍照对象,相机就能读懂画面上的事物,比如识别花的种类、翻译商店和菜品名称,或连Wifi。
震慑英伟达:第二代TPU和Cloud TPU 发布
Sundar 称,搜索无疑是从 Moblie-Frist 到 AI-First 的一大重点。去年,谷歌在 I/O 大会上宣布了其内部自己研发的 TPU——专为加速机器学习的第二阶段“推理”而专门设计的芯片。今年,Pichai 又用十分轻松的语气宣布了 TPU 的升级版——Cloud TPU 这一重磅消息。
尽管此前已经有各种讨论,谷歌会研发 TPU 第二代,但是谁也没有想到,升级版的 TPU 会以结合谷歌云的形式出现。这个名为 Cloud TPU 的产品将加速机器学习一系列广泛的工作量,最初是通过 Google Compute Engine 提供。
就在上周,GPU 巨头英伟达才揭幕了专门针对张量处理而升级的新款 GPU。现在,谷歌拿出了更大的一张底牌。过去几年,神经网络应用巨幅加快了谷歌的一系列 AI 产品,在谷歌搜索、谷歌翻译、谷歌相册,还有著名的“世纪大战”——AlphaGo 对弈李世石当中,表现优异,而初代 TPU 也成为其中不可或缺的英雄之一。
现在,仅仅加速推理的初代 TPU 已经不能满足谷歌的需求。神经网络的“训练”部分——也是对计算量需求最大最多最重要的部分,谷歌此前还是依赖市售的 CPU/GPU。而显然,这些也已经无法满足谷歌的需求。
现在,Pichai 在 2017 谷歌 I/O 大会宣布的第二代 TPU,既能够加速推理,也能够加速训练。
第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。
Pichai 还在演讲中表示,使用 TPU pods,谷歌已经大幅提升了训练神经网络的时间。谷歌的一个新的大型翻译模型,以前要 32 颗商业上最好的 GPU 花费一整天的时间来训练——现在,只需一个下午,8 个第二代 TPU 就能达到同样的训练精度。
依然奉行保密主义,升级版的 TPU 具体设计架构也用散热片挡住。
现在,第二代升级版 TPU 已经在谷歌数据中心部署使用——这不禁让人想起去年,谷歌也是在使用初代 TPU 一年多以后才公开宣布 TPU 的存在——每个“TPU pod”都包含了 64 个第二代 TPU,最高速度能达到 11.5 petaflops 的加速度。
谷歌将新的 TPU 引入云端,作为 Google Compute Engine 的一部分,将其称之为 Cloud TPU。你可以把这个 Cloud TPU 想象成一台超级计算机,能够连接其他类型的硬件(包括英特尔 Skylake CPU 和英伟达的 GPU)。显然,谷歌在这里仍然向英特尔和英伟达示好,表示不会抛开市售 CPU/GPU。
而 Cloud TPU 带来的最大好处,则是谷歌的开源机器学习框架 TensorFlow。TensorFlow 现在已经是 Github 最受欢迎的深度学习开源项目,可以想象,Cloud TPU 出现以后,开发人员和研究者使用高级 API 编程这些 TPU,这样就可以更轻松地在CPU、GPU 或 Cloud TPU 上训练机器学习模型,而且只需很少的代码更改。
此前,计算机体系结构宗师 David Patterson 宣布加入谷歌 TPU 团队,并且表示谷歌没有解散团队,看来就是在为研发第二代 TPU。
Sundar Pichai 在演讲中提到,谷歌将免费开放 1000 台 Cloud TPU 供开发者和研究人员使用,并且推出了 TensorFlow Research Cloud。地址:https://www.tensorflow.org/tfrc/
相信,TensorFlow 作为开源机器学习/深度学习框架,其受欢迎程度又会有一个明显的提升。
作为谷歌云的主管之一,李飞飞在随后的开发者Keynote上也介绍了谷歌的新TPU。她说,打造 AI 专业技能,是一项重要的投资。我加入谷歌正是出于这一原因,希望能保证每一个人都能利用AI,来保持自己的竞争力, 来解决对自己来说重要的问题。TPU只是其中的一部分。更多的是如何让计算整件事民主化。对于大多数人来说,谷歌云让这些难以获得的硬件资源变得可用了。
除了TPU,李飞飞还介绍了TensorFlow 研究云平台。下图有试用地址:
Sundar Pichai 在演讲中提到,谷歌将会把自己所有的AI相关事务集合到一个网站Google.AI 上。
他说,这一平台主要关注三件事:研究、工具和应用。
为了简化构建机器学习算法的概念,他们开发了 AutoML——一种能够帮助开发者构建自己的机器学习神经网络的模型,一种帮助机器“学习如何学习”的工具。
Google Assistant 可用于 iPhone
Google Assistant 很快可以在 iPhone 和 iPad 运行。Google Assistant 是谷歌在去年 I/O 大会首次公布的智能助理,此前仅能在 Google Home,Google Pixel 以及其他一些 Android 手机上使用。除了在苹果设备上可用外,谷歌还表示 Assistant 将加入多种不同语言,今年晚些时候起,可以使用法语,德语,巴西语,葡萄牙语以及日语。
Google Assistant 除了已有的回答你的问题,为你在网络上查找信息,以及帮助你完成例如任务等功能之外,本次 I/O 大会上,谷歌宣布了 Assistant 的更多功能:
对 Google Home 来说,Assistant 带来的最直接的变化是不需要用手控制,只需对它说一句“Ok Google”。以下是在 Home 使用 Google Assistant 的一些新功能:
此外,从今天开始,开发者能够为手机上的 Google Assistant 开发对话式 app。这意味着很快你就不仅能够在Google的产品上得到使用 Assistant,也可置入到其他的第三方服务。
Google Home 四大功能更新:可免费呼叫,推送视频信号
谷歌在 2016年 I / O 大会上首次推出了其智能家居设备 Google Home。 今年它更新了软件功能。 从美国开始,之后是英国(具体时间未定),这一智能家居设备将能够发送得到许可的 App 的推送通知。
同时,Google Home 也加入了免提电话的功能,可以用语音直接拨叫。拨叫将根据拨打电话人的语音个性化。
谷歌宣布 Google Home 将在美国和加拿大提供对手机或座机的免费呼叫服务。
这个功能有点儿像是亚马逊刚添加给 Echo 的——就是那个可以在 Alexa 设备中进行呼叫的功能——但这个确确实实是可以免费拨叫电话的。
谷歌说拨叫时将默认使用隐私号码,但如果你愿意,也可以将它改为你自己的号码。这一功能将在下月正式放出。
Google Home 还可以将内容(比如 YouTube 视频)推到连接了 Chromecast 的手机和电视上去。
谷歌更新了 Chromecast 设备,现在当你在 Google Home 音箱上寻求帮助时,会在连接的电视上看到视觉反馈。你同样可以基于语音,个性化这一体验。
Google Home 还将有个叫做“主动助理”的新功能,基本上来说,就是智能音箱将会给你推送基于日程表的交通信息警示。
Google Home 现在支持 Spotify、SoundCloud 以及蓝牙,同时也支持 HBO 等娱乐频道。
此前有评论指出,谷歌的智能家居策略现在有点奇怪:它在卖两个盒子,还希望您放置在家中的几个房间里——一个是 Google Wifi,另一个是 Google Home。多个 Google Home 盒子可以协同工作,让您在每个房间都可以播放音乐并使用语音命令,而多个 Google Wifi 盒也可以协同工作,为整个家庭提供强大的 Wi-Fi 信号。但是,与其在多个房间内放上两个谷歌盒子,不是单一的盒子更容易吗?因此有消息认为谷歌正在通过整合 Google Home / Google Wi-Fi盒子来解决这个问题。它将在一个盒子中整合扬声器、语音命令系统和 Wi-Fi 路由器,并将在此次大会上推出这一产品。但从首日现场情况来看,并没有相关消息。
今年夏天,Google Home 将在英国、加拿大、澳大利亚、法国、德国和日本发行。
分享更便利的Google Photos,有直播打赏功能的Youtube
谷歌还宣布,Google Photos 拥有 5 亿用户,现在他们可以更容易地分享照片了。不久这个 app 就可以帮助用户去掉模糊的照片,或复制、分享照片库(library)。分享的照片库可以被自动识别,比如说识别出用户孩子的照片,并与其配偶分享。
谷歌现场还展示了Youtube上的直播打赏功能——Super Chat。
谷歌正和联想及 HTC 合作打造无须手机的独立式 VR 头盔。这一头盔将于今年晚些时候发布。
另外,谷歌的AR功能将会被增加到Google Map上。
手机上的TensorFlow:TensorFlow Lite
安卓将迎来新的版本Android O。
当说到安卓的未来时,工程部副总裁 Dave Burke 宣布了 TensorFlow 的新版本,其专为手机做出优化,称为 TensorFlow Lite。这一新库将允许开发者构建用于在安卓智能手机上运行的深度学习模型。
TensorFlow Light 是为了安卓移动端设计的库,目标是运行快速(fast)并且轻量级(light),但同时也可以运行最先进的模型,比如卷积神经网络和 LSTM。其次,与之配套推出的还有一个新的安卓框架,加速硬件神经网络计算。TensorFlow Light 将利用新的神经网络 API,发掘特定加速器(silicon-specific accelerators)。此外,在不久后,谷歌会推出专门针对加速神经网络训练和推理的 DSP 。谷歌相信,这些新的性能和产品将驱动下一代的在移动设备本地进行语音处理、视觉搜索、AR 以及更多。TensorFlow Light 预计很快开源,而相关的神经网络 API 也将在今年稍后一些时间更新。
TensorFlow Lite 的推出显示了谷歌非常关心 AI 和移动设备的联系。在这一领域谷歌下一阶段的工作将是追求更适合的硬件,来最大化在现实世界中使用 TensorFlow lite 的好处。
熬夜看完2017年的谷歌I/O大会主旨演讲,整个大会除了第二代TPU的发布外,整体来说亮点不多,或者说亮点不够亮。
Pichai 联系第二年强调从“手机为先”转到“AI为先”的理念,但是可以看到手机,特别是安卓在谷歌依然扮演着重要角色,其公布的几项较为震撼的用户量数据中,都跟安卓有关。
谷歌在I/O大会上的Demo展示,不管是 Google Lens 还是 Google Photos,效果平平,没有给人留下多大印象。Google Home 等也有点“老调重弹”的感觉。在VR和AR上的相关展示似乎是在为与竞争对手PK而推出的追随产品。
不过既然是一场开发者大会,更多的干货和内容可能还是隐藏在大大小小的Workshop和Officer 交流中。根据谷歌官方 I/O 大会的日程表,新智元整理了所有与 AI/ML 相关的内容。虽然为期三天的活动丰富得令人眼花缭乱,但提炼后并不难看出其中的重点,简而言之——TensorFlow。感兴趣的读者可以关注:
| 5 月 17 日
大会第一天,与 AI/ML 相关的内容有两项,分别是当地时间下午 4 点和 6 点开始的两堂面向初学者的课程。
1. 使用移动视觉 API 开始你的机器感知之旅,北京时间 18 日早晨 7:00
【视频直播】https://www.youtube.com/watch?v=rar3SLnyRkQ
在这堂课中,Googler Yulong Liu 和 Hsiu Wang 将教你如何使用 Mobile Vision API 构建能够查看周围环境的应用。谷歌 Mobile Vision API 当前的基础功能是识别文本、条形码和人脸。
2. 与谷歌大脑面对面【现场Only】
对使用 TensorFlow 有问题?想谈谈机器学习的最新进展?有针对移动或云端智能应用的想法?可惜,这是只有参会者才能够享受的,当面与谷歌大脑的成员探讨深度学习和机器智能。
| 5 月 18 日
第二天的活动稍微丰富些,有 5 场,从 TensorFlow 最新技术到初学者如何上手,其中 3 场有视频直播,而且有些直播的时间都是错开的,感兴趣的读者可不要错过。
1. TensorFlow 前沿技术,北京时间 19 日凌晨 0:30
【视频直播】https://www.youtube.com/watch?v=sxxynGJ650A
这堂课的主讲人是 TensorFlow 产品经理 Zak Stone 和 Brennan Saeta。虽然名为“前沿”,但内容却是普适的,面向中高低级开发者,介绍 TensorFlow 生态系统的最新进展,重点介绍性能。
2. 非专业人士也能有效使用 TensorFlow,北京时间 19 日凌晨 1:30
【视频直播】https://www.youtube.com/watch?v=safQDjgDVAQ
面向初学者的课程,但主讲人值得关注——谷歌大脑成员、Keras 作者 Francois Chollet 和专门开发 TensorFlow 高级 API 的 Martin Wicke。在这个演讲中,他们将介绍如何有效使用 TensorFlow。TensorFlow 提供高级接口,如 Keras 和 Estimator,非专业人士也能轻松使用。这堂课将展示如何 implement 复杂的机器学习模型,并将其部署在支持 TensorFlow 的任何平台上。
3. 与谷歌大脑面对面【现场Only】
为期三天的大会,与谷歌大脑面对面的机会怎么可能只有一个呢?对了,这就是第二天参会者与谷歌大脑成员当面交流的时间。具体内容会根据现场参与者的提问而定吧。
4. 与谷歌 reCAPTCHA 成员面对面【现场 Only】
想要保护网站免受垃圾邮件和滥用行为骚扰,但同时又害怕失去用户?这个时间谷歌 reCAPTCHA 团队的成员会向你介绍他们最近推出的新功能,以及与谷歌 reCAPTCHA 整合的相关问题?会有现场演示。
5. 开源 TensorFlow 模型,北京时间 19 日凌晨 5:30
【视频直播】https://www.youtube.com/watch?v=GHvVHQ3bros
仍然是面向初学者的课程,关注如何上手 TensorFlow 实践的人可以观看直播。在这堂课上,Googler Josh Gordon 会介绍如何使用TensorFlow 为图片自动生成图说、理解文字和生成艺术作品。演讲中会使用 TensorFlow 展示计算机视觉、自然语言处理和计算机生成艺术品的最新项目。Gordon 还会分享他在 CV、NLP 等领域最喜欢的模型,你可以在家里尝试。视频中还有更多学习使用 TensorFlow 的教育资源。这堂课特别备注:不需要机器学习背景。
| 5 月 19 日
第三天,关于 AI/ML 的内容只增不减,共有 4 场直播和 2 场“面对面”。如果你喜欢熬夜学习,那时候完全可以不用合眼:)
1. 当安卓遇上 TensorFlow:如何用 AI 加速你的 APP,北京时间 19 日晚 23:30
【视频直播】https://www.youtube.com/watch?v=2LeK4knvQts
面向中级用户。谷歌云平台的主要开发人员 Kaz Sato 和有丰富游戏技术经验的 Googler Hak Matsuda 是这堂课的主讲人。便携性是 TensorFlow 的优点之一。在演讲中你可以学到如何将神经网络模型移动到安卓系统,并在手机中进行预测(prediction),比如图像识别、运动识别。但是,在移动端运行神经网络的挑战是模型大小和 CPU 消耗。因此,本场演讲的主要内容是探讨将 AI 带入安卓系统应用的各种技术和技巧。
2. 拓宽机器学习的疆域,北京时间 20 日凌晨 0:30
【视频直播】https://www.youtube.com/watch?v=W4T99Jhkz-o
重头戏来了,这场直播的主讲人包括李飞飞教授、谷歌云的负责人 Diane Greene,以及前不久从 Coursra 离职加入 Calico 担任首席数据官的 Daphne Koller。据官网介绍,这 1 个小时的演讲会涉及很多内容:谷歌翻译、谷歌相册、用机器学习改善搜索、谷歌地图,以及 YouTube。演讲中,还将与开发者和研究人员展示及共享一整套云机器学习服务,包括 TensorFlow、学术出版物(论文)。虽然标注的是面向中级用户,但对于想入门的、初学者和高级开发者,观看本次演讲能够听取谷歌的几位顶级机器学习专家讨论他们的前沿研究和他们眼中的机会。
3. 使用 TensorFlow 从研究到生产,北京时间 20 日凌晨 4:30
【视频直播】https://www.youtube.com/watch?v=lH5aywLo-Ic
这个时段 Googler Noah Fiedel 会介绍如何将 TensorFlow 模型从研究部署到生产,例如如何使用 TensorFlow 服务大规模输出(export)和服务模型。他还将介绍大规模使用机器学习模型的最佳实践和经验教训。
4. 与谷歌大脑面对面【现场 Only】
5. Magenta 项目介绍:使用机器学习创作音乐和绘画,北京时间 20 日凌晨 5:30
【视频直播】https://www.youtube.com/watch?v=W4T99Jhkz-o
Magenta 项目负责人 Douglas Eck 是主讲人。Magenta 是谷歌大脑中使用深度学习和强化学习生成音乐、视频、图像和文本的艺术向项目,目标是更好地理解 AI 能如何帮助艺术家用创新的方式表达自我。对深度学习辅助设计和艺术感兴趣的读者可以关注这场直播,Eck 将介绍构建生成模型时所面临的一些技术细节和挑战,以及一些画家和音乐家使用 Magenta 进行创作的案例。
6. 与谷歌 reCAPTCHA 成员面对面【现场 Only】