专栏名称: 大数据与机器学习文摘

分享大数据技术相关文章和资源

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

大数据与机器学习文摘 · 公众号 · 大数据 · 2024-09-12 19:51

正文

转自：机器之心

坐拥世界最大的搜索业务，谷歌一直独步于硅谷。搜索所带来的丰厚广告收入，让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里（Larry Page）可以退居二线，安心享受生活。

1997 年 9 月 15 日，谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。

直到 2022 年底，ChatGPT 火遍全球，原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来，我们似乎习惯了这家科技巨头作为「追赶者」出现。

从去年开始，就有媒体爆料，称谢尔盖・布林已经重返一线，亲自编写代码。前 CEO 埃里克・施密特（Eric Schmidt）更是在斯坦福大学的讲座中直接向「每周只上一天班」的散漫制度开炮：「输给 OpenAI，再下去要输创业公司了」。

施密特在斯坦福演讲

同时，随着谷歌的体量越来越大，一些「大公司病」的症状也越发明显。许多谷歌的离职「小作文」显示：谷歌问题的根源不是「技术」，而是在于「文化」，比如员工的使命感不足，公司为了避免风险设置了繁琐的系统和流程。

AppSheet 创始人 Praveen Seshadri 宣布离开谷歌，他的博客称，公司已迷失方向，员工被困在系统里。

谷歌到底出了什么问题？Alphabet 工人工会表示：「真正阻碍谷歌员工每天工作效率的是人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」

虽然谷歌在「ChatGPT 反击战」迎头赶上，但和 OpenAI 评论区下期待 GPT-5 发布的画风有些不同，Gemini 亮相时，总会在不经意间「翻车」。首次发布就出现了 demo 造假，此后，Gemini 也因生成的人像图片存在种族偏见，建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士，挨了不少批评。

上个月，谷歌发布了加强版的 Gemini，还推出了对标 GPT-4o 的语音助手 Gemini Live，但在演示环节，Gemini Live 还是出错了。

在 8 月举办的 Made by Google 活动上，前两次试用 Gemini Live 的拍照识图功能都失败了，直到第三次换手机才成功。

明明已经财富自由，为什么还要重返技术一线？频频「翻车」的 Gemini，谷歌内部如何看待？在科技巨头的竞争中，谷歌存在什么问题？在这场竞争中又将扮演怎样的角色？在昨天举办的 All-In 峰会现场，久未在媒体前露面的谢尔盖・布林在一场访谈中聊了聊他的看法。

布林的主要观点为：

决定重返技术前线，是因为 AI 领域的进展太过激动人心，作为计算机科学家，他不愿意错过这一波浪潮。
AI 技术不只是搜索的延伸，它将触及更广泛的变革。
相比于专精于某个领域的「专家模型」，布林更看好通用模型，谷歌成功拿下 IMO 银牌模型，这源于谷歌在之前开始将形式证明模型中的某些知识和能力融合到通用语言模型之中的尝试。
目前对于算力的需求源源不断，但很难出现「从 100 兆瓦到 1 吉瓦、10 吉瓦，甚至 100 吉瓦」的需求激增。
在人工智能应用领域，布林认为生物学已经较好地实现了 AI 技术的落地应用，而机器人领域还是看完演示觉得很神奇的阶段，没有达到日常可以使用的水平。
虽然 AI 偶尔会犯大错，但更应及时发布。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。比 AI「犯蠢」更可怕的是，当时谷歌太胆小，都不敢部署 Transformer，论文作者曾都离职了。
科技巨头在 AI 领域的竞争实际是好事，不过布林还是会密切关注大模型排行榜。

以下是访谈全文：

布林： 我本来以为我只是来参加一个播客，没想到现场有这么多观众，恭喜你的事业这么成功，整得我都有点害羞了。

主持人：感谢您抽空和我聊天。当今，AI 正处于改变世界的临界点。1998 年，你和拉里（Larry Page）成立了谷歌。听说最近你亲自上阵，在谷歌研究 AI。大型语言模型和对话式 AI 工具对谷歌搜索来说是一种威胁，这是许多行业分析师和专家争论的话题。所以你现在每天在谷歌坐多长时间的班？都在做什么？

布林： 老实说，我几乎每天都去上班，不过今天因为要上你的节目，所以缺席一天。作为一名计算机科学家，我我从未见过像最近几年 AI 领域这样激动人心的进展。AI 的进步实在是太震撼了！

回想 90 年代，我还是研究生时，AI 在课程中几乎无足轻重，充其量不过是教材中的一个脚注。课本里讲的是，前人做了各种各样的试验，但是 AI 真的不起作用，搞 AI 就是「死路一条」。这就是关于 AI 你需要知道的一切。

然后不知怎的，奇迹般地，这些研究神经网络的人，让在 60、70 年代被丢弃的 AI 方法开始取得进展 —— 更多的计算，更多的数据，更聪明的算法..... 过去的十年里发生的事情简直令人惊叹。如今的 AI 工具，几乎每个月都能展现出全新的能力，而且这些能力很快就能翻倍。计算机展现出的能力着实令人惊叹。因此，我决定重返技术前线，因为我不愿错过作为计算机科学家所能体验到的这一切。

主持人：你觉得 AI 是搜索的延伸，还是它将重新定义人们检索信息的方式？

布林： 我认为 AI 触及着日常生活的方方面面，搜索是其中之一。AI 的影响力几乎无所不包，例如编程。我现在对 AI 编程有所改观。从头开始编写代码，真的很难，特别是和指挥 AI 编程对比起来，对吧？

主持人：你都用 AI 编写了什么呢？

布林： 事实上，我自己也写了一点代码，不过只是为了找点乐子。我有时也让 AI 为我写代码，体验很有趣。举个例子来说，我想知道谷歌的 AI 模型玩数独（Sudoku）玩得怎么样。于是，我让 AI 模型自己写了很多代码，可以自动生成数独谜题，然后再把这些题喂给 AI，拿去评分。AI 完全能够胜任编写这些代码的任务。

但当我和工程师们谈论这件事的时候，来回辩论了几轮，结果我半小时后回来，发现 AI 已经完成了。他们很震撼，很显然，他们并不像我所认为的那样，经常使用 AI 工具来辅助编码。

数独游戏（Sudoku）

主持人：这太好笑了。有的模型擅长解数独题，有的模型可以回答我世界中的事实信息，有的模型专用于设计房子。同时，众多研究者正致力于开发通用的大型语言模型。你认为未来将会朝着哪个路线发展呢？

我也不知道这种说法从何而起，说将会有一个「上帝模型」。这就是为什么投资人都在往 AI 里砸钱，一旦「上帝模型」被研发出来，那你就能「一步登天」了，当你拥有 AGI，你可以统治所有事物。或者有很多基于特定应用的小模型，在智能体中协作。你认为未来的模型开发与应用将会如何演变呢？

布林： 如果你回顾 10 到 15 年前，那时，不同的 AI 技术被用于解决完全不同的问题。比如，下棋的 AI 与图像生成技术就非常不同，它们各自有着很大的差异。

主持人：就像最近谷歌发了一个 GNN 模型，它的表现优于所有物理预测模型。我不确定你知不知道，但是确实是谷歌发的。

布林： 太棒了，但我不知道（尴尬）。

主持人：这个模型就是一个完全不同的架构。

布林： 以历史的眼光来看，AI 确实存在着多种不同的系统。以最近举行的国际数学奥林匹克竞赛（IMO）为例，谷歌的模型获得了银牌，离金牌就差一分。

实际上，我们采用了三种 AI 模型：一种负责定理证明，一种专注于几何问题，还有一种是通用的语言模型。然而，就在几个月前，我们开始尝试从之前的工作中吸取经验，开始将形式证明模型中的某些知识和能力融合到通用语言模型之中。

这项工作还在进行，但我认为趋势将朝着构建一个更加统一的模型方向发展。我不确定它就是所谓的「上帝模型」，但可以肯定的是，我们正在朝着某种共享架构，甚至是共享模型的方向发展。

主持人：如果这就是未来的方向，那么为了训练和完善那个超大模型，势必需要动用庞大的计算资源。

布林： 算力不可或缺。我读过一些文章，它们预测算力需求将激增，从 100 兆瓦到 1 吉瓦、10 吉瓦，甚至 100 吉瓦。我对此持保留意见。近年来，算法的创新和优化，已带来比增加硬件算力更显著的性能提升。

主持人：那么，当前对算力的大量投入不合理吗？每个人都在谈论英伟达的收益、利润、市值。它支持了超大规模计算和基础设施的增长，使得构建这些庞大的模型成为可能。这种趋势真的没有道理吗？或许它确实有道理，要不然为什么英伟达能赚这么多？

布林： 首先声明，我并非经济学家或市场分析师，我的观点仅基于计算机科学家的视角。对我们来说，因为面对巨大的需求，我们正在尽可能快地构建算力集群。比如，谷歌云的客户只想要大量的 PPU、GPU，应有尽有。我们不得不拒绝客户，因为我们自己卡不够用，我们内部也依赖这些资源来训练和部署我们自己的模型。因此，我认为各大公司目前都在积极扩充算力，这都很合理。我只是觉得，很难直接从现状做出未来算力需求会从「100 兆瓦增长到 1 吉瓦、10 吉瓦，甚至 100 吉瓦」这种推断。

主持人：但企业需求就摆在那里。

布林： 我明白，客户们有着广泛的需求，他们希望在各种 AI 模型上执行推理任务，并将这些模型应用于层出不穷的新场景中。他们的这些需求暂时是没有上限的。

主持人：在 AI 的应用领域，无论是机器人学还是生物学，您认为哪些方面取得了最显著的成就？有没有用例让你觉得「哇，这太有用了」？又有哪些领域挑战较大，应用落地可能比预期更久？

布林： 我的答案是生物学。Alphafold 已经推出一段时间了。它已经推出一段时间，而且我与生物学家交流时发现，几乎人人都在使用它。Alphafold 的最新版本，Alphafold 3，代表了一种新型的 AI 技术。正如我之前提到的，我相信未来的趋势是模型的统一化。

对于机器人，我处于一个「wow 阶段」，比如，「哇，机器人竟然可以做家务了！」但你要知道，它背后可能只是一个微调了一下的通用语言模型，虽然它很神奇，但大多数情况下，它们还没有达到日常可以使用的水平。

主持人：你看到机器人的前景了吗？

布林： 可能吧...... 但是我没有看到具体的......

主持人：但你们谷歌不是也有机器人业务吗？虽然后来被拆出去了，还被卖了。

布林： 谷歌曾在做机器人的生意。

主持人：可能只是时机不对。

布林： 坦白说，那可能是我们过于超前了。波士顿动力公司有那么多明星产品，但我甚至不记得谷歌做出过什么。无论如何，我们有过五六个令人尴尬的产品，但它们很酷，能给人留下深刻的印象。只是看到现在的通用语言模型有多能干，多模态技术能让机器人理解场景，想想当年还是有点傻。当时还没有这些 AI 技术，我们就像是在跑步机上原地踏步，难以向前迈进。

谷歌开发机器人的计划曾有一手好牌：「Android 之父」安迪・鲁宾（Andy Rubin），大名鼎鼎的机器人制造商波士顿动力，名动一时的人形机器人 Atlas…… 不过，就在短短五年时间里，计划解散重组，再解散再重组。高管相继离职，销售计划叫停，几大王牌公司各自卖身...

主持人：你在核心技术的研发上投入了大量时间。在产品方面，你是否也投入了相当的精力？在一个 AI 无处不在的未来世界中，人机交互的方式将如何演进，我们的日常生活又将发生怎样的变化呢？

布林： 这好像在茶水间和同事聊天的话题。

主持人：介意和我们分享一下吗？

布林： 不介意，我在回想一些不会令人尴尬的事情，挣扎 ing。

主持人：讲「你有一个朋友」的故事也行。

布林： 未来会怎么样，真的很难讲。AI 的技术是实现应用的基础。比如有人放出了一个炸裂的 demo，特别惊艳，但从演示到真正在生产中实现，这需要时间。我不知道你是否尝试过 Astra 模型，你可以与它打实时视频，它能说出你身边环境中发生的事情。

主持人：你可以用对吧。

布林： 我肯定会拿到访问权限的。有时候，我可能是最后一批获得权限的人。目前，我们已经来到了一个这样的阶段，体验了 AI 之后，人们可能会惊叹：「哦，我的天，这真是太神奇了。」然后你会思考，「好吧，它 90% 的情况下都能正确运行。」但接着你可能会质疑，「如果还有 10% 的情况下会出现错误或反应迟缓，这样的技术真的够好吗？」于是，我们必须努力去完善这些细节，确保它既迅速又可靠，等等。当这一切真正实现时，那确实是一种令人惊叹的成就。

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

正文

请到「今天看啥」查看全文