专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

Transformer 作者最新两万字访谈：下一步是让模型学会“失败”，像人一样思考

AI科技大本营 · 公众号 · · 2024-08-27 16:54

正文

Aidan Gomez：OpenAI 现在的目标是成为一家产品公司，AGI 已经被排到了次要的位置。

文 | 王启隆

作者 | https://www.youtube.com/watch?v=FUGosOgiTeI

出品 | AI 科技大本营（ID： rgznai100）

本文为 CSDN 编辑整理，未经授权禁止转载，违者必究。

上周，创投圈的知名播客 20VC 放出了对 Cohere 创始人 Aidan Gomez 的最新采访。Cohere 是一家帮助企业构建人工智能应用程序的 AI 初创公司，目前估值 55 亿美元，而对于这位年轻的创始人，我们更多记得的是他的另一项重磅身份，即 Transformer 架构的开山论文《Attention Is All You Need》作者：

此前，我们整理过 Aidan 接受的另一场采访，《实习期间创下 Transformer，他说：当年整个 AI 圈都无法预见我们今天的高度》，其中透露了他在谷歌实习期间参与 Transformer 论文创作的一些故事细节。而这次的采访，则更加有料，更能体现 Aidan 此人的思想深度，以下为一些要点精炼：

Transformer 发布之后他的反应，以及预期外的事情：我没想到这个架构能这么火。但反倒是语言建模和整个扩展项目，我原以为世界会更快地意识到这一点。它一开始非常明显，但之后又过了两三年，大家才醒悟过来，才开始席卷全球。
接触计算机的渊源：朋友们都在网上玩游戏，而 我只是感到很羡慕 —— 但不是嫉妒，而是感觉自己错过了这一波技术潮流，即互联网的到来和发展 。 这导致我想学习编程和互联网的知识，推动我进入计算机科学领域。
AI 模型的未来发展：对模型来说很明显的下一步是，你需要让它们有时间思考并解决问题。你需要允许它们失败。它们需要尝试某事，失败，理解为什么失败，然后回过头来再次尝试。所以 目前，大模型还没有真正的问题解决能力 。
未来的 AI 交互方式：把聊天作为一切的界面，我觉得没什么意义。我不想每次都必须明确地输入指令才能完成事情。有时我就想点点按钮，浏览一下界面，就把事情搞定。所以我不认为GUI已经过时了，我们也不应该用文本框替换所有东西。
谈及他眼中的 Ilya Sutskever ：关于模型扩展的想法早在 Ilya 脑海中形成，早在他真正开始追求这个想法的几年之前。这种信念造就了我们今天所处的世界，这是一种客观上神奇的技术，如今已经对所有人开放。

话不多说，后面都是采访全文翻译：

进入计算机领域只因“羡慕嫉妒恨”

主持人 ：据说你是在安大略省的乡村长大，住在一栋由你祖父或父亲亲手建造的房子里。能为我们描述一下当时的生活吗？

Aidan Gomez ：是的，我在安大略省的荒郊野外长大，那里有块100英亩的地，全部都是森林。而且是一片枫树林。在一个加拿大风格最浓郁的环境中长大真是太酷了，但那里的生活确实远离了技术。

主持人 ：但是你喜欢游戏，不是吗？

Aidan Gomez ：我确实喜欢游戏。所以我从一开始就热爱技术。只是很难接触到它。比如，我们连不上互联网，只能拨号上网，在加拿大接入高速互联网的时候，我还用了好几年的拨号上网。所以我的朋友们，他们都在网上玩游戏，做各种各样的事情。而 我只是感到很羡慕 —— 但不是嫉妒，而是感觉自己错过了这一波技术潮流，即互联网的到来和发展 。这让我对技术着迷。我会坐在家里对着我们的电脑和那个糟糕的拨号上网。我会想办法让家里的网络更快。我会尽可能地利用我所拥有的一切。 最终，这导致我想学习编程和互联网的知识，推动我进入计算机科学领域 ，就像是被迫要了解这种技术是如何工作的，以便我可以从中获得更多的东西。

主持人 ：通过与许多杰出的创始人交流后，我现在得出了一个非常奇怪的结论 —— 那些在早年玩过游戏的人，与取得成功的人之间存在着极高的相关性（比如马斯克也很爱玩游戏）。你认为为什么游戏会对成功的创始人产生如此大的贡献？

Aidan Gomez ：电子游戏能教会我们一些东西。比方说，玩游戏会让你更愿意去磨练自己，去做重复的、困难的、痛苦的事情，为了达到更广泛的目标。因此这种韧性我认为是很重要的。另外，你在游戏里可以复活，可以重新来过，从而获得第二次机会。这种乐观的态度或者这种思考方式是非常重要的。

我认为在很多传统文化里，总会宣扬一种观念，即你只有一次机会，如果你搞砸，那就身败名裂了。但也许游戏可以给人们一种感觉，就是你可以犯错，你可以重新来过，你可以变得更好。第二次犯的错误比第一次少，第三次犯的错误又比第二次少。因此这种 通过失败取得进步 的理念，我认为对于创始人是非常重要的。

主持人 ：游戏设计中都会采取这种逐渐增加难度的方式。一开始游戏很简单，玩家会建立起信心。而如果一款游戏从极其困难的第一关开始，那就会让玩家感到挫败。

Aidan Gomez ：在机器学习中，这就叫做课程式学习。首先，你要教模型做一些非常简单的事情，然后让它逐步处理更复杂的问题，以此为基础建立知识。

有趣的是， 课程式学习的方法实际上在机器学习中失败了 。我们现在是把最难的内容和最简单的内容同时扔给模型，让模型自己摸索。但对于人类来说，这种方式却非常有效，是一种我们学习的重要方式。

主持人 ：我想直接深入探讨这个问题，因为我认为这是每个人都在问的问题。

大家总是说只要投入更多的计算资源，性能就会提高。这是我们今天面临的最大瓶颈。你认为 Scaling Law 是真的吗？是真的有很大的提升空间，还是其他因素正在阻碍性能提升？

Aidan Gomez ： 这种方法改进模型最可靠，同时也是最笨的 。如果一切方法都不奏效，那就让模型更大。对于有钱的人来说，这是一个很有吸引力的策略，因为它的风险极低。 我认为这种方法是有道理的，只是我认为它极其低效 。

如果我们看看过去一年半的情况。比如说，从 ChatGPT 发布到现在，甚至可以说从 GPT-4 发布到现在的情况。尽管 GPT-4 据称拥有 1.7 万亿个参数，但现在已经有参数量仅为 130 亿的模型能够达到甚至超过 GPT-4 的性能水平。这表明模型效率的提高比简单地增加参数规模更为重要。

主持人 ：那这种情况会持续下去吗？还是会在某个点上趋于平稳？

Aidan Gomez ：我认为这肯定需要指数级的投入。你需要不断地加倍计算资源才能维持线性的智能增长，但我认为这种情况可能会持续非常非常长的时间。模型会不断变得更强大，但你会遇到经济限制，很少有人购买最初的 GPT-4，当然也很少有企业购买，因为它太大了，极其低效，运行成本太高。性能不够出色，不足以证明其价值。因此 ，我认为有很多压力促使我们开发更小、更高效的模型，通过数据和算法使其更强大，而不是仅仅因为市场力量而扩大规模 。

模型战争下小公司的出路

主持人 ：我们将来是会生活在一个由垂直化的模型组成的世界里吗？这些模型可能更加高效、规模更小，是为特定用例设计的。还是说，会有三到五个更大的模型主宰一切？

Aidan Gomez ： 两种情况都会存在 。过去几年我们观察到的一个模式是，人们喜欢用通用智能模型来做 原型设计 。他们不想用专门的模型来做原型。他们也不想花时间去微调模型，使其特别擅长他们关心的事情。他们想做的是直接抓取一个昂贵的大模型，用它做原型，证明可行性。然后再将其提炼成一个高效的、专注于他们特定需求的模型。这种模式确实已经出现了。所以我认为，我们将继续生活在一个多模型并存的世界里，有些模型专注且垂直化，而其他则完全水平化。

主持人 ：你提到了成本问题，需要翻倍计算力才能保持同样水平的智能增长。这个成本是惊人的。也许是我太年轻了，不记得过去的技术发展周期，但这似乎是技术领域前所未见的。我记得 OpenAI 每年要花费30亿美元。除非你是微软、亚马逊、谷歌或 Facebook 这样的巨头，否则你要怎么维持自己在这场竞赛中的地位呢？

Aidan Gomez ：如果你只是在做单纯的规模扩张项目，你确实必须先成为科技巨头，或者成为它们的某种附属公司。但还有很多其他事情可以做。比如说，规模扩张是唯一的前进道路，还有 数据创新、模型和方法创新 的空间。

主持人 ：什么是数据创新，什么是模型和方法创新？

Aidan Gomez ：好的，我们在开源领域看到的几乎所有主要进展都来自 数据改进 。模型变得更好是因为从互联网获取了更高质量的数据，使用了更好的网页抓取算法，解析这些网页，提取有用的部分，增加互联网特定部分的权重。因为网上有很多重复和垃圾内容，对吧？所以关键是要提取互联网中最有价值、知识最丰富的部分，并强调给模型。

此外还有 合成数据 ，创建新数据的能力是超级可扩展的。这样你就可以获得数十亿个词或者上亿页的内容。但这些都不需要人类参与，完全由模型自己生成。这些创新，提高数据质量的能力，我认为是我们现在看到大多数进展的来源。

主持人 ：好的，这就是数据创新，那么方法和模型创新呢？

Aidan Gomez ：这包括像新的强化学习算法之类的东西。现在有很多关于 Q* 及其可能性的传言。还有围绕搜索的想法，比如搜索解决方案。目前的情况是，假设我问模型一个问题，模型被期望立即给出正确的答案。这对模型来说是一个极高的要求，既然你不能问人类一个难题并期望他们立即给出答案，那也不能对模型这么做。它 们需要时间思考 。

我认为，对模型来说很明显的下一步是，你需要让它们有时间思考并解决问题。你需要允许它们失败。它们需要尝试某事，失败，理解为什么失败，然后回过头来再次尝试。所以 目前，大模型还没有真正的问题解决能力 。

主持人 ：这种问题解决能力，其实与推理能力是一回事，对吗？

Aidan Gomez ：没错，正是如此。

主持人 ：为什么推理会这么难实现，为什么我们现在的模型还没有这种能力？

Aidan Gomez ：我认为并不是推理本身很难。问题在于 互联网上没有太多展示推理过程的训练数据。互联网上的大多数内容都是推理过程的最终结果 。当你在网上写东西时，你通常不会展示你的思考过程。你只是呈现你的结论或想法，这背后其实凝结了大量的思考、经验和讨论。所以我们只是缺乏这样的训练数据。这种数据不容易获得，你必须自己构建。这就是像 Cohere、OpenAI 和 Anthropic 等公司现在正在做的事情，收集展示人类推理过程的数据。

主持人 ：你怎么看待与 OpenAI 的用户生成内容（UGC）策略的竞争？

Aidan Gomez ：是的，那确实非常困难。特别是对企业客户来说，他们从不允许你用他们的数据进行训练。所以我们不能在任何客户的数据上训练模型，这些数据非常私密。他们的观点是，公司的数据就是他们的知识产权，他们的知识产权中包含太多商业机密。所以他们根本不愿意这这样做。

我对这种立场非常理解。所以对我们来说，我们的重点是 合成数据 。我们在这方面做了很多推动，同时也有人类标注，Scale AI 是我们的合作伙伴。我们内部有自己的人，但这是放在我们身上的负担，因为我们不是一家消费者公司。

我们必须自己生成这些数据。好处是我们更加专注，所以我们需要覆盖的面积更小。所以不是整个世界都来找我们，要求我们做可能的任何事情。而是企业有非常明确的模式，他们想要做的事情类型。就像他们想要自动化某些财务功能，或者他们想要自动化某些人力资源功能。所以范围大大缩小了，这让我们能够真正专注于这些部分。

主持人 ：十年后合成数据市场会是什么样子，是否会被两三家供应商主导?

Aidan Gomez ：其实，我听说现在的大语言模型应用程序接口(API)市场主要是由合成数据主导的。人们主要在做的就是利用这些昂贵的大模型来创建数据，用于微调更小、更高效的模型。所以他们实际上是在提炼这些大模型。我不知道这作为一个市场有多可持续，但我肯定认为总会有新的任务、新的问题或对数据的新需求。无论这些数据来自模型还是人类，我们都必须满足这种需求。

卖模型是一个非常低利润的业务

主持人 ： OpenAI 如今在打价格战，而 Mark（此处指 Meta AI 的马克·扎克伯格）则在阐述开源和开放生态系统的价值。这些模型的价值是否在贬值？这是否是一场零和竞争？

Aidan Gomez ：我认为如果有公司在接下来一段时间里 只卖模型 ，那将会变得非常棘手、非常艰难。但反过来说，卖模型这业务不会是一个小市场。

主持人 ：请深入聊一聊，哪些公司只卖模型，哪些公司售卖服务？

Aidan Gomez ：我不想点名。但我们 Cohere（Aidan 创立的公司）现在只卖模型。我们提供了 API，用户可以通过这个 API 访问我们的模型。我认为这种情况很快就会改变。产品格局和我们提供的内容会有变化，不是要远离这一点，而是要在这个基础上增加内容和产品组合。 但如果你只卖模型，那将会很困难，因为价格战会让这个业务的利润归零，大家都在免费赠送模型 。

这仍然会是一个大生意。卖模型能赚很多的钱，因为人们需要这项技术。它正在非常快速地增长。但至少现在，只卖模型的利润率将会极低。这就是为什么大家都在关注应用层的东西，价值正在芯片层累积，每个人都在花费惊人的金额购买芯片来构建这些模型。然后在上面的应用层，比如 ChatGPT 是按用户收费的，大约每月 20 美元（ 140 元人民币）。这似乎是在这个阶段价值积累的地方。我认为从长远来看，模型层是一个有吸引力的业务。但在短期内，按照现状， 卖模型是一个非常低利润的业务 。

主持人 ：让我们分解一下你提出的概念。

你刚才提到了芯片层。你如何看待 Cohere 目前在芯片上的支出，以及它随时间的变化占总支出的百分比？

Aidan Gomez ：嗯，它变得多得多了（大笑），是的，所以现在它占我们支出的很大一部分，太多了。

主持人 ：你们和 NVIDIA 有直接的合作吗？

Aidan Gomez ：不止是 NVIDIA，我们也和 AMD 关系密切，还在与许多正在开发新芯片的初创公司进行对话。我们也在 Google 的 TPU 上运行模型。

主持人 ：这是因为你不想出现单点故障吗？

Aidan Gomez ：这是 市场的需求 。我们的客户希望能够在多种不同的平台上运行。他们想要选择权。他们不想被锁定在一个平台上。所以我们需要提供一个非常多样化的平台基础来运行。类似地，我们一直非常避免被锁定在一个云上，我们希望在每个云上都可用，这也是因为客户的选择。 他们不想被锁定在一个供应商的垂直体系中 。

主持人 ：我完全明白你的意思。你觉得每个公司都会在某种程度上垂直整合自己的技术栈，比如开发自己的芯片能力吗？我们最近看到苹果谈论了很多关于他们自身的垂直整合和掌控芯片层的内容。你认为这将是一个持续的趋势吗？

Aidan Gomez ：我觉得会持续下去。目前，芯片的利润率非常高，市场上的选择却非常有限。不过，这种情况正在改变。我认为这种变化会比其他人想象的更快发生。我对此非常有信心。

主持人 ：你也注意到 GPU 的囤积情况发生了很大变化。之前确实存在真正的供应链短缺，而现在情况已经不同了。

Aidan Gomez ：没错，芯片短缺正在减少。我认为现在明显会有更多选择可用，而且不仅仅是在推理方面。我觉得大家都知道，推理（即模型的应用）已经相当多样化了。实际上，在推理方面你已经有了很多选择，这与模型的训练不同，而是指模型的服务部署。在训练方面，情况一直是，基本上只有一家公司生产可用于训练大规模模型的芯片。这在今天仍然是事实。但实际上，现在已经不完全是这样了。

现在有两家公司可供选择。除了英伟达，我们还可以在 TPU 上训练大规模模型。这些现在实际上已经成为可用于超大规模模型训练的平台。我认为谷歌已经非常有说服力地证明了这一点。但我认为很快，AMD、Amazon Trainium 这些平台会准备好大展拳脚。

主持人 ：当你看到模型和实际计算的支出时，让我担心的是模型进展的速度远远快于数据中心的建设和计算能力的进展。所以，比如说一年后，我们是否会在 H100 或其他 18 个月前的计算机上运行最新的模型？模型进步和计算能力进步之间是否存在不匹配？供应链这个问题也非常有趣，你需要建立自己的数据中心吗？

Aidan Gomez ：不，我们与其他公司合作。

主持人 ：有没有可能这种情况会改变？

Aidan Gomez ：如果建立我们自己的数据中心对我们来说更便宜，我们就会去做。我们已经计算过了，从供应商那里得到的价格使得这不是一个真正有吸引力的选择。但我们这样做的另一个原因可能是，如果以后市场上出现了一种在成本方面非常有吸引力的芯片，到时候将没有供应商愿意为我们采购。

世界比我想的更晚发现 Transformer 的潜力

主持人 ：在早期，你们获取大量算力芯片时有遇到什么困难吗？现在情况有变化吗？

Aidan Gomez ：我们已经做了五年了。所以那是在整个行业开始蓬勃发展之前很久。我们挺幸运的。

主持人 ：你预料到它会蓬勃发展吗？

Aidan Gomez ：我的意思是，如果我没预料到它会蓬勃发展，我就不会创办这家公司了。但实际发生的方式确实和我想象的不太一样。 它比我预期的来得晚，而且更突然 。

主持人 ：因为你在 2017 年参与撰写了关于 Transformer 的论文，所以我猜你当时期望它会很快蓬勃发展起来?

Aidan Gomez ：不，那时候还没有这种想法。2017 年，我是那篇 Transformer 论文的实习生。当时我还觉得这只是研究而已，就是创造一个新架构，把翻译分数提高 3%，仅此而已。 我没想到这种架构会带来那么多后续发展，没想到过社区对它的热爱，还有真正把 Transformer 确立为构建 AI 的平台。这些我都没预料到 。

反倒是语言建模和整个扩展项目，我原以为世界会更快地意识到这一点。它一开始非常明显，但之后又过了两三年，大家才醒悟过来，才开始席卷全球。

主持人 ：那个转折点是什么？是 ChatGPT 吗？

Aidan Gomez ：完全是的，没错。就是 ChatGPT，它把技术直接放到了用户面前。所以你不用向你爸妈或其他人解释它是什么，而是让他们可以直接坐下来，跟这个东西聊天，亲身体验与这些模型对话的感觉。

主持人 ：你认为聊天是最适合消费者的界面吗？

Aidan Gomez ：对某些东西来说是的。我觉得对其他东西来说，GUI，就是传统的可视化用户界面，还是挺不错的。

我认为这真的要看情况。把聊天作为一切的界面，我觉得没什么意义。我不想每次都必须明确地输入指令才能完成事情。有时我就想点点按钮，浏览一下界面，就把事情搞定。所以我不认为GUI已经过时了，我们也不应该用文本框替换所有东西。但我确实认为聊天界面非常吸引人。当然，语音也是如此。语音简直太神奇了。第一次看到模型能像人类一样写出令人信服的文本回复时，那种感觉真的很神奇。

2017 年的那时候，就在我们提交论文后不久。我们开始用维基百科训练语言模型。我们从这些模型中取样。它可以写出跟人类写的一样令人信服的维基百科页面。 所以那是一个非常神奇的时刻，计算机某种程度上“醒来”了，开始跟我们对话 。然后下一个突破是对话式界面。不只是我提交指令，模型返回响应，而是通过聊天与模型进行对话。

主持人 ： OpenAI 正在大力投资语音技术。你认为他们将语音选为下一代消费者交互界面的信心是正确和合理的吗?

Aidan Gomez ：非常合理。我的意思是，当你亲身体验与这些模型进行语音对话时，那种感觉真的很震撼。当你听到模型表现出情感和语气变化时，你会觉得不可思议。 你能听到它在说话之前吸气。你能听到它的嘴唇发出声音。这种体验有一种难以言喻的吸引力 。直到你亲自尝试过，才能体会到它有多么引人入胜。

没人在乎上一代的模型水平

主持人 ：我从小就听说，我们总是高估短期内的发展，而低估长期的发展。你觉得这种说法在当前情况下适用吗？或者说，语音技术其实正在快速发展。新一代大语言模型 GPT-5 也即将到来，无论是三个月还是六个月，都来得挺快的。你认为我们在多大程度上低估了短期发展?

Aidan Gomez ：有两个方面。首先， 在模型上取得进展变得越来越难。 它变得更困难，更费劲，成本更高，因为曾经有一段时间，模型还不够聪明 —— 我说不够聪明，其实是指 不够复杂 。你也可以直接理解为“ 不够智能 ”，以至于我可以随便找个人过来，说“ 跟这个模型聊聊，找找错误 ”，他们就能做到并改进它。

但最后模型发展到了一定程度，普通人要找出知识空白或类似的问题就变得有点难了。你不得不开始求助于领域专家。一开始是便宜的初级专家，比如计算机科学的学生可以教模型点东西，生物学的学生也可以教模型点东西。然后模型开始变得很厉害，差不多达到了那个知识水平。你只能去更专业、更稀缺的人才库，让他们把自己的知识教给模型。所以教模型新知识变得更麻烦，成本更高。

主持人 ：瓶颈在哪呢？就像学习语言，你可以在六个月内学会一门语言的 95%，但要达到 98% 的熟练程度，可能需要五年。那在什么程度上，人们会开始说“ 为了那额外的 0.5% 的提升，又要花十亿美元，这也太不划算了吧 ”？

Aidan Gomez ：所有东西的成本都在飞速下降。比如计算成本， FLOP（浮点数）的价格随着时间推移下降得超级快。这就是为什么今天比 2017 年甚至两年前能搞出更大模型的原因。

主持人 ：考虑到这点，你不觉得对新创业公司进入模型领域来说其实并不太晚吗？虽然大家都在说：“ 哎呀，创业公司进入模型领域已经太晚了。 ” 但实际上，考虑到成本障碍的降低，这不是意味着创业公司比以前更容易进入这个领域了吗?

Aidan Gomez ：是啊。每一年，构建去年的模型的成本都会降低 10 倍或 100 倍。我们有了更好的数据，更便宜的算力。所以它确实降低了开发前一代模型的门槛。 但现实是，没人在乎前一代模型。没人想要它们。去年的模型根本没有市场 。跟今年的模型比，它们基本上就是废铁。任何形式的技术发展都会让上一代很快过时。

主持人 ：我觉得区别在于，开发 V1 版本的软件产品可能花费 1000 万美元，而要将其更新为稍微好一点的 V2 版本，可能需要再花费 100 万或 200 万美元。但在这里，开发一个需要 30 亿美元，开发第二个则需要 50 亿美元。这种增量已经不是简单的增量，而是数量级的提升。

Aidan Gomez ：我不确定下一代产品一定会更便宜。我认为在芯片等非常复杂的技术领域，开发每一代产品的成本确实越来越高。尽管如此，我们还是会去做，因为这是值得的。

改进这些模型越来越难，阻力越来越大。第二个奇怪的现象是，因为这些模型越来越智能，人类，或者更准确地说，每个人区分它们的能力变得越来越困难。你无法区分不同代际之间的差异，因为你不够精通医学、数学、物理学，无法感受到变化。对于你我这样的普通人来说，模型已经达到了一定的基本知识水平。

所以 当我们与模型互动时，我们感受到的是不同代际间的相似体验 。但实际上，这些代际之间在某些特定的能力或纯粹的智能方面发生了巨大的变化。

那么，现在是否值得继续投入大量资金去推动模型发展？我认为绝对值得。对某些人来说，这确实是值得的。为什么呢？因为即使对你我这样的消费者来说，我们不在乎模型是否掌握了 C 星代数（C-star algebras）和量子物理学，这对我们的实际体验没有影响。但对量子物理研究者来说，这些知识却非常有用。通过提供工具，我们能够在这些领域取得更多进展。

此外，我们是否还应投资于下一代技术，比如开发一种新材料让飞船能够更高效地进入轨道？我认为这也是应该的。或许对你来说，飞船是否能更便宜地进入轨道无关紧要，但对某些人来说，这很重要，他们愿意付钱，也有市场存在。这就是进步得以持续的方式。

最佩服的是 OpenAI

主持人 ：现在有很多公司被收购或兼并，最终被整合进去。我认为现在大家都意识到，云服务是一个不断增长的现金牛。当你看到 Azure、Google Cloud 等云服务的持续增长率和盈利能力时，你会发现大多数提供模型的小公司都会被这些大型云服务提供商收购。你是否认为在未来三到五年内，这种情况有很大的可能性会发生？

Aidan Gomez ：三年内就有可能了。 我认为这一领域将会经历一次大规模整合，并且这种情况可能已经开始了 。很多模型构建者已经被收购了——例如 Adept（一家 AI 初创公司）已经被亚马逊收购。

主持人 ： Inflection AI（市值高达 40 亿美元的人工智能初创公司）也被微软收购了。

Aidan Gomez ：而且我认为未来会有更多类似的收购。这一领域肯定会发生整合。当你成为云服务提供商的附属公司时，这是一件非常危险的事情。为什么？因为这对商业不利。作为一家公司，要筹集资金，你需要说服一些只关心资本回报率的投资者。他们给你资金，然后你利用这些资金创造价值。但当你从云服务提供商那里筹集资金时，算法就完全不同了。

主持人 ：你认为过去几年我们看到的模型投资，能让风险投资者赚到钱吗？

Aidan Gomez ： Cohere 的投资者们会的。他们会赚很多钱。

主持人 ：（大笑）那回顾过去，你是为那些相信你的人赚了很多钱而感到高兴，还是觉得，“该死，当时我给得太多了”？

Aidan Gomez ：不，我的意思是， 投了 Cohere 的投资者，直至今天都还在坚持 。我们的第一个投资者是 Radical Ventures 的 Jordan Jacobs，他现在仍在我们董事会。我称他为 Cohere 的第四位联合创始人。他与我们一起建立了这家公司，并且仍然非常活跃，积极参与公司的建设。所以我不后悔。

主持人 ：最新的估值是多少？

Aidan Gomez ：媒体报道过，55 亿美元。

主持人 ：当你看收入与估值的对比时，会让你感到压力吗？你会不会觉得，“哎呀，我们还有很长的路要走”？就像我看自己的健康状况时一样，我会觉得，“哎呀，我还有很长的路要走。”

Aidan Gomez ：我认为这肯定是一种压力，是一种好的压力。认为我们实际上处于一个比很多同行好得多的位置，因为我们的估值没有像很多其他公司那样疯狂。这是我的看法。我们仍然需要成长才能匹配这个估值，但我非常有信心市场是强劲的。很多人需要这些模型。在利润率方面，目前确实有压力，因为价格战和免费模型的普及。但这会随着时间的推移而改变，Cohere 的产品组合也将随之演变。

主持人 ：你最尊敬的是谁？

Aidan Gomez ： 我会说是 OpenAI 。

主持人 ：为什么？

Aidan Gomez ：他们开辟了道路。 他们对 Scaling Law 有一种近乎不合理的信念 。我记得在 GPT-1 之前，Transformer 刚出来的时候，我和 Ilya Sutskever（前 OpenAI 首席科学家）讨论过这些事情，因为他在多伦多的学术圈子里很活跃。他在 Jeffery Hinton 手下学习，来自多伦多，家人也在多伦多。关于模型扩展的想法早在他脑海中形成，早在他真正开始追求这个想法的几年之前。这种信念造就了我们今天所处的世界，这是一种客观上神奇的技术，如今已经对所有人开放。我真的很钦佩 Ilya。

没什么人担心 AI 会不会失败，

而是担心“谁在用我的数据进行训练”

主持人 ：你认为 OpenAI 是真心专注打造 AGI，还是认为他们其实是双管齐下，一方面追求长期的 AGI，另一方面也更注重为企业和更广泛的消费者创造短期的有价值产品？

Aidan Gomez ： 至少在最近，或者说在新的 OpenAI 中，他们更像是一家产品公司 。他们在非常专注地打造一款消费者产品。这是他们的目标，并且它正在奏效。人们喜欢 ChatGPT，它现在已经是家喻户晓的名字。所以我认为在消费领域，他们会成为一家产品公司。而且我认为他们必须成为这样一家公司，才能支付他们想要建造的东西的费用。

主持人 ：随着 AI 技术的融入，我们是否会看到公司能够通过增加 AI 功能来从每个用户身上获得更多收入？现在每家公司都在成为 AI 公司，他们的所有产品都融合了 AI 功能，因此用户可以使用 AI 创建任何内容。

但显然，每次查询 API 都要花钱，这就意味着他们的成本增加了，而收入却保持不变。我们真的能通过 AI 增加每个用户的收入，还是只是单纯创造了更好的客户体验？

Aidan Gomez ：我认为现在有两种不同的策略。有些公司保持 AI 功能的价格不变，并利用它来推动业务扩展。而像微软、Salesforce 和 Notion 等公司，则为 AI 功能收费，并因此扩大了业务规模。这两种策略都没问题，而且非常合理。 只要给用户提供尽可能有用的产品即可 。目前不必担心利润率，因为 AI 的成本正在迅速下降。我认为这是合理的。

主持人 ：目前阻碍企业采用 AI 的最大障碍是什么？

Aidan Gomez ：主要是对技术的信任问题，也就是安全性。每个人都对当前的状况非常担忧。 没什么人担心 AI 会不会失败，而是担心“ 谁在用我的数据进行训练 ” 。所以他们非常害怕有人会拿走他们的数据，利用它进行训练，然后让他们陷入某种安全漏洞，或者失去知识产权。我认为这是一个非常合理的担忧，因为确实有人在用用户数据进行训练。除了说“我们不会使用任何新的合成数据”，你还能做些什么来让他们放心吗？

所以，我们 Cohere 的部署模型就是为此而设的。我们专注于私有部署，比如在他们的虚拟私有云（VPC）内或本地部署。这意味着它完全运行在他们自己的硬件上，非常私密。我们不会要求他们将数据传送给我们。我们处理后会将模型的响应返回给他们。我们说的是，“我们会将我们的模型带到你的数据所在的地方。 ” 且我们无法看到任何数据。

当我和一些人交流时，他们对此非常矛盾。在金融服务业，我发现人们正在远离云端，转身建立起自己的数据中心容量。而在其他领域，似乎仍然是“我们需要迁移到云端，自己拥有这些数据中心并不划算。 ” 所以我认为这可能取决于你所看的行业。

主持人 ：你观察到其他领域对 AI 有什么完全错误的理解吗？我认为企业教育曲线还处于非常早期的阶段。他们对 AI 有什么误解？

Aidan Gomez ：有很多人害怕 AI 出错。这些模型会出现幻觉，大家认为这意味着技术注定会失败。有时它会产生幻觉，无法反映现实。模型确实会产生幻觉。尽管幻觉率已经显著下降，但它们仍有可能编造一些内容或犯错误。

我们生活在一个人类与 AI 共存的世界，而人类也经常产生幻觉。我们会出错，会记错事情。所以，我们生活在一个对错误具有一定容错性的世界中。

主持人 ：现在有没有幻觉基准测试？

Aidan Gomez ：其实是有的。 Victora 就有一个，还有一些其他的幻觉基准测试。

主持人 ：那幻觉的下降速度与模型进展速度是同步的吗？

Aidan Gomez ：是否同步我不确定，但幻觉确实在变得越来越少。使用 RAG 技术，会让幻觉数量呈现一个跨越式的变化。给不知道的人解释一下，RAG 是 “检索增强生成”（retrieval augmented generation）的意思。它的基本思路是你有一个模型，可以查询知识库，而这个知识库可能是你的内部文件或搜索引擎。它可能会向搜索引擎发出查询，获取结果，然后将其作为回答的一部分，并引用其来源。它会说，“我之所以做出这个陈述，是因为我在这里看到了。 ”

所以现在你可以审核它模型的答案是否正确，并且这种设置的副作用是，它大大减少了撒谎的情况。它不再需要编造太多内容，因为它有参考资料可以依赖。

使用别人的模型构建产品，

会天然处于劣势

主持人 ：我们现在是否还处于企业试探性使用预算的阶段？大家都在说，“我们现在只是在试探性使用预算。” 这说得过去吗？还是我们实际上已经进入了主流阶段？

Aidan Gomez ：情况真的开始转变了。去年确实是一个概念验证的年份。大家都在测试，试试看效果如何。但最近发生了一个大的转变，现在企业非常迫切地想把这项技术投入生产。我认为很多企业担心会措手不及。他们已经花了一年时间进行概念验证和测试，现在他们正在全力以赴，想要把这些技术投入生产，改造他们的产品，增强他们的员工队伍。

主持人 ：对企业来说，最主要的应用场景是什么？现在每个董事会都在问，“你的 AI 战略是什么？”

Aidan Gomez ： 让模型成为整个员工队伍的合作伙伴或同事 。这是最流行的应用场景。我认为 Copilot 是实现这一目标的正确方式。我认为 Copilot 很棒，它通过一个助手来增强员工队伍的想法是正确的。 但它再次被局限在一个生态系统内，它只能接入 Office 和微软的产品套件 。但企业不只是使用微软产品，他们使用微软处理电子邮件、文档和电子表格，然后使用 Salesforce 进行客户关系管理（CRM），使用 SAP 进行企业资源计划（ERP），他们还有一些人力资源管理（HRM）工具，还有他们自己开发的内部软件。

如果你真的想增强员工队伍，你需要有一个开发这些助手或智能体的平台，该平台不依赖于特定的工具集，并且能够理性地优先考虑人们实际使用的工具集和市场实际使用的工具集。所以我认为这个任务不会由 Copilot 完成。

主持人 ：你刚刚提到了“智能体”（Agent）这个词。智能体是风险投资领域最热门的话题之一。你认为围绕智能体、智能行为的炒作是有道理的吗？

Aidan Gomez ：这种炒作 100% 是合理的。大家对这些模型的愿景是它们将能够独立完成工作。这将极大地改变生产力。一旦你有了一个可以独立长时间执行任务的模型，它就不再是“我马上帮你做一件事然后就完了”，而是“在接下来的六个月里，我会不断地为你带来销售机会”之类的任务。比如为你进行外部拓展。 智能体完全改变了一个组织可以做的事情 。所以这种炒作是合理的。

我想批评的点是，这种工作最好是在模型构建者内部完成还是在外部完成？谁最有能力真正构建这个产品？为什么最好先在模型内部完成？这完全取决于模型的质量。这完全取决于模型。模型是智能体背后的推理者，因此，用户必须能够在这个层面进行干预。如果你无法实际改进模型以更好地处理你关心的事情，如果你不是那个构建模型的人，而只是模型的使用者，那么在构建这个产品时，你在结构上就处于劣势。

主持人 ：你认为今天谁处于劣势？大家都在谈论并对 Salesforce（一家云计算服务公司，曾经历过类似于近日 Windows 全球蓝屏的事故）表示怀疑。但我觉得 Marc Benioff（ Salesforce 创始人）这个人不容小觑。

Aidan Gomez ：是的，我也不会低估他。他非常出色，我认为他非常清楚面对他们的威胁，我不认为他会让这种威胁发生。所以我不认为 Salesforce 会出什么大问题。

还有一点是，人们往往忽略了企业软件的黏性。 企业软件的替换并不多见，它通常会存在几十年。要取代一家企业软件公司真的非常困难 。我认为对于真正变革性的新的消费者体验是有机会的。消费者对某一个提供商的忠诚度远低于企业用户。他们会盲从朋友的选择，会根据性价比挑选产品。所以，如果有人能够利用 AI 提供比现有产品好得多的服务，消费者会轻松地转移。

AI 技术仍未到达瓶颈

主持人 ：目前哪家公司的研究做得最好？

Aidan Gomez ： Cohere。

主持人 ：除了 Cohere？

Aidan Gomez