专栏名称: 范阳

Being more human, less perfect.

AI 需要开创性的用户界面和产品: 从苹果说起，深度访谈 Daniel Gross 和 Nat Friedman（3万字)

范阳 · 公众号 · · 2024-06-18 17:16

正文

在 2007 年的苹果发布会上，乔布斯在发布 iPhone 之前，半开玩笑地展示了他们本来的产品创意：iPod phone。

今天分享的这篇文章来自科技博客 Stratechery 在6月13号最新一期和硅谷投资基金 AI Grant 的两位合伙人 Daniel Gross 和 Nat Friedman 的深度对谈，有关上周的苹果产品发布会。原文是付费专栏，感兴趣的朋友可以支持 Stratechery 付费阅读。我之前也分享了 3 月份他们之间的一次深度对谈：

与 Nat Friedman 和 Daniel Gross 推演人工智能的发展 | 3万字采访, Stratechery 3月

我认为这两期内容是我看到的最有深度的有关 AI 发展的讨论之一，这两篇文章里面我也看到了一些逐渐联系起来的 “彩蛋”。虽然 Daniel Gross 和 Nat Friedman 现在的身份是风险投资人，我认为他们状态像是 2008 年左右移动互联网时期的 Marc Andreessen 和 Ben Horowitz （ A16Z 的两位创始合伙人），他们都是技术背景和创始人出身，在技术细节和宏观趋势上都有深刻研究。

这期对谈如果要提炼出一个核心观点，我想就是 — 人工智能的持续进步，现在需要开创性的用户界面和产品体验，但这不只是一个技术活儿，也是一个艺术活儿，才能把尖端科技用柔软轻盈的方式带入到大众的生活里。

在科学基础奠定之后（不一定要完善），一个跨时代的技术总是需要跨时代的创造者和创业者，他们是 “ 科技艺术家 ” （ technological artists )，他们不是只满足于谈论技术成就而获得同行之间认可的人，他们是曾经的沃尔特·迪斯尼，史蒂夫 · 乔布斯，乔治 · 卢卡斯，拉里 · 埃里森，埃德温·兰德，宫本茂等等。人工智能时代也并不会例外。

这次对谈末尾还举了一个有趣的例子， “ 人类登月” 和 “带轮的行李箱” 哪一个先实现的？

1969 年人类实现登月，1972 年历史上第一个给行李箱装上轮子的设计专利诞生，一直到 1991 年我们才看到现在习以为常的拉杆带轮行李箱。人类社会可以动员起来投入最好的人才和资源实现各个领域的 “登月工程”，在最前沿也拥有足够的科学和技术基础，但是 “带轮行李箱” 这种让普通人获益的产品，这样后来看起来非常简单的 “技术组合创新”，却花了快 100 年迭代才最终找到人们喜爱它的样子。

我猜想若干年以后再回望现在，人们会说， " 真不敢相信当时发明了那么多人工智能模型和隐藏在神经网络里的知识，和这么多的机器人技术还有这么多种材料和硬件，竟然没有人想到去发明 _____ ! "

为了更容易阅读我在文章中添加了我的备注和配图。希望这篇文章会对你有启发。

阅读长文之前，摘录一些精彩观点：

1. 关于人工智能进步的速率限制是什么，纯粹的规模扩展派认为我们需要更大的规模、更多的算力。有些人认为我们需要算法的突破，因此我们受到优秀的 AI 研究人员的限制，还有人认为我们正撞上了数据墙，我们真正受限于高质量数据，可能是标记数据，可能是原始数据，或许是视频可以提供这些数据。但至少在实际感受到的进步方面，我认为人工智能进步的关键是用户界面和产品（ I think it is UI and products ）。

2. 科研实验目前受到计算能力的限制...我只是相信我们有一些世界上最聪明的人在研究人工智能，这些人的数量从未如此之多，没有人缺乏科研想法，有很多想法需要去探索。我认为即便 2026 年有一个小的人工智能寒冬，也会带来更多的科研实验机会，我不认为所有研究人员都会失去工作，GPU 也不会闲置。如果 GPU 变得更便宜，且不用于推理或大规模训练，它们就会被用于科研，还有很多东西可以被发现...可以肯定的是，五年后的 AI 会比现在聪明得多、强大得多，我不认为一个小的人工智能冬天对五年后的前景是灾难性的。

我认为现在更接近大航海探索时代，而不是互联网泡沫时代。因为你已经有一两艘船从新大陆带回了一些贵重金属。因此，我认为即使有一年没有带回有价值的东西，遇到了不景气，继续探索也是合理的。

有人说事情会变得像 2000 年那么糟糕，我觉得这样的类比有点问题，因为互联网泡沫破裂时的一个问题是当时经济需求需要时间才能转移到线上。现在，你真正受限的是你能够改进模型的速度，我认为这是可以更好控制的。

3. 我认为我们看到的第一波 AI 初创公司大多是研究人员创立的，他们不是产品思考者，主要想做好研究本身，模仿 OpenAI 的形式，基本上这就是去创建一个科技公司或者研究实验室，它需要同时具有研究自由度和科技公司的好薪酬。他们是真正优秀的人，那些真正优秀的人无论做什么都很顺利，所以他们经常会陷入 “局部最优化” 的困境。我认为现在事情正在发生改变。

与 Daniel Gross 和 Nat Friedman 的访谈

关于苹果和人工智能

An Interview with Daniel Gross and Nat Friedman

About Apple and AI

作者：Ben Thompson

编辑：范阳

写作日期：2024年6月13号

早上好，

我很高兴再次欢迎丹尼尔·格罗斯（ Daniel Gross，以下简称 DG ）和纳特·弗里德曼（ Nat Friedman, 以下简称 NF ）参加我们在 Stratechery 的访谈，这是我们持续进行的系列访谈的第七次。

这个系列对于 Stratechery 来说有些特别，因为我的访谈对象通常不是投资者；然而，这个对话系列开始于 2022 年 10 月，当时弗里德曼和格罗斯正在启动一个研究基金资助计划（ a grant program ），正因为我们都觉得在人工智能领域的活动和讨论还远远不够。一个月后，ChatGPT 问世，世界发生了翻天覆地的变化，包括对弗里德曼和格罗斯来说，他们现在是这个领域的主要投资者之一。为此，我认为继续这个系列是非常有价值且受大家欢迎的，但要先提醒一下，弗里德曼和格罗斯可能对我们讨论到的一些公司有投资关系。

本周标志着开发者大会季的结束（ the end of developer conference season ），苹果（ Apple ）公司有望成为大赢家。我们讨论了是什么使苹果公司独具一种转型能力（what makes Apple uniquely capable of pivoting ），以及打造引人注目的产品所带来的那种强大力量。

然后，我们探讨了其他主要人工智能参与者的现状，包括 OpenAI、微软和谷歌；讨论我们是否处在科技泡沫中，如果是，为什么这次情况与互联网泡沫时代不同；最后，按照我们的惯例，我们会聊到哲学层面上，讨论为什么以人类的术语来思考人工智能可能是一个错误（ why thinking about AI in human terms may be a mistake ）。

开始访谈吧：

涉及到的话题：

苹果公司 | OpenAI | 科技泡沫问题 | 接下来会发生什么

苹果公司

Ben : Nat 和 Daniel，欢迎回到 Stratechery 访谈。

DG : 谢谢你邀请我们，Ben。

NF : 很高兴回来。

Ben : 像往常一样，感觉好像你们已经很久没有来了，但实际上只隔了几个月。鉴于我们现在已经迎来了大玩家的开发者大会季结束，似乎是个很好的时间来跟进一下，你们准备好了吗？

NF: 我们开始吧。

Ben: 让我们从目前的焦点 — 苹果公司开始。显然，我们有了一个新的 AI 领域的明显赢家。如果你一直在关注的话，我认为最初的明显赢家是谷歌，然后是 OpenAI，然后是微软，再然后是谷歌，再之后大家决定不再纠结，直接买 Nvidia 股票就好了 — 其实这一点现在还依然成立 — 现在我们说到苹果，顺便提一下，它似乎并没有使用 Nvidia 的产品。这里有一个元问题（ a meta question ）：在更广泛的环境中，是否有任何变化让我们可以以某种信心说出谁是最有优势的，为什么，或者这只是媒体和分析师们像无头苍蝇一样四处乱窜的结果？

NF : 我认为对苹果非常有利的一点是，似乎有市场上多个玩家达到了相同的模型能力水平。如果 OpenAI 更明显地在竞争中脱颖而出，以至于他们在模型质量方面比其他人高出 10 倍好甚至只是 2 倍好，这会让苹果现在处于更难受的位置。苹果现在受益于这样一个观点，即要么他们自己的能力可以赶上，要么他们可以选择与多个人工智能玩家合作，看起来我们有三到五家公司都在全力以赴提高自己的实力，其中大多数计划通过 API 提供他们的模型。

市场上有谷歌、OpenAI、Anthropic、X、Meta，所以如果你在应用程序开发这一侧，这通常是个好消息（ if you’re on the side of application building, generally this is great news ），因为价格会继续每年下降90% ，模型能力会不断提高。这些玩家中没有一个会有定价权，你可以选择用哪一个服务（ None of those players will have pricing power and you get to pick ），或者在苹果公司的情况下，苹果可以暂时选择一家合作，并有时间把自己的能力赶上来。事实上，在主要模型发布之间，没有任何一个玩家脱颖而出或显示出市场主导地位（ no one’s broken away or shown a dominant lead ）。目前我们还没有看到 ChatGPT-5，也没有看到Q* 。

是的，基于当前的现实，我认为这对那些擅长产品、专注于产品和应用并拥有大规模分销渠道的人来说是好消息（ that’s good for people who are great at products, focus on products and applications and have massive distribution ）。

Ben : 那就是苹果公司了。

NF : 那就是苹果公司。

Ben : 丹尼尔，你怎么看？我觉得在这些采访中，你一直对苹果的潜在终局位置持积极态度。你觉得这个说法现在被验证了吗？你的这个感觉更强烈了吗，还是你会在带头这样说一段时间后，选择不同的观点？

DG : 是的，你邀请我们来这个节目几次了，我确实一直在说，苹果有一副很强的牌。纳特说的所有内容，我还要补充一点，我认为苹果是世界上唯一一家可以预定比英伟达更多台积电产能的公司。如果你相信你实际上需要大量的芯片，并且解决了所有的产品封装问题等等，问题会只是你能从台湾的智能源中购买多少智能出来（ it’s just a question of how much intelligence you can buy from the intelligence well that is in Taiwan ），他们有能力首先做到这一点。我认为这就是为什么英伟达在 2022 年防御性地预购了大量产能。你可以看到这些动态在起作用，也可以看到英伟达他们理解这一点。

是的，我认为苹果一直拥有成为这个领域主导赢家的要素（ the ingredients to be a dominant winner in the space ），我一直说他们具备这些成功要素，现在我们看到了这一点。对我来说，从苹果大会的主题演讲中得到的有趣内容是，他们今天描绘的画面是，高端语言模型是一种类似搜索的东西，他们将与不同公司建立合作关系（ high-end language models are a kind of search-like thing and they’re going to have partnerships with different companies ），你有两篇关于这个主题的优秀文章，所以我不会让你的听众感到无聊重复，但如果事情朝这个方向发展，我认为苹果可能会占据市场主导地位。

如果你最终进入一个动态环境，不管出于什么原因，前沿模型能力转化为一种颠覆性创新，使你能够直接吸引客户，那么可能苹果会遇到问题（ If you end up in a dynamic where, for whatever reason the frontier capabilities translate into a disruptive innovation that allows you to capture customers, then maybe that’s an issue），但迄今为止，这并不是故事的走向。

Ben : 是的，我的意思是，我今天还在写一篇文章，本周我三次写到了苹果公司，但最新的一篇是，我认为苹果有两个风险因素。一个是你刚才提到的，就是有一个模型实际表现出色到让苹果变成了提供访问该模型的商品化的硬件供应商（ which is one of these models actually figures it out to such a great extent that Apple becomes the commodity hardware provider providing access to this model ）。苹果在这种情况下业务也会不错，但不如他们现在设置的利润上限高，因为现在模型是商品化的，这是风险因素之一。

风险因素之二是，他们能否真正落地执行所展示的发布会内容？这个设备端上的推理能否像他们声称的那样有效（ Can this ondevice inference work as well as they claim ）？使用他们自己的芯片，我认为可能会相对低效，但鉴于他们的规模和他们可以搭建架构，他们可能可以实现这一点，与云端一对一连接（ having this one-to-one connection to the cloud ）。如果他们能做到，那很好，但也许他们做不到。他们在这方面做了很多新的有趣的事情。在这两个风险因素中，你认为哪一个更重要？

DG : 我不完全理解，也从未完全理解为什么本地模型不能变得非常非常好，我认为人们通常不喜欢听到这一点的原因是缺乏足够的认知谦逊，即我们所做的大多数事情从热量能量角度来看是多么简单，以及为什么不能有一个本地模型来完成很多工作（ there’s not enough epistemic humility around how simple most of what we do is, from a caloric energy perspective, and why you couldn’t have a local model that does a lot of that ）。我认为一个静止的人可能消耗 100 瓦，而一部 iPhone 消耗，我不知道，应该是 10瓦，但你的 MacBook 可能消耗 80 瓦。总之，我相信在可实现的范围内可以创造出具有类似人类能力的东西，在本地模型上合成信息（ it’s synthesizing information on a local model ）。

我不知道该如何看待这对更广泛的 AI 市场意味着什么，因为至少到目前为止，我们显然并不完全相信这一点。整个市场正在构建所有这些复杂的数据中心容量，并且在云端做了很多事情，这与本地模型可以变得非常好的观点存在认知失调（ We’re building all of this complicated data center capacity and we’re doing a lot of things in the cloud which is in cognitive dissonance with this idea that local models can get really good ）。

经济是围绕平均智能构建的，而不是中位数的智能（ The economy is built around the intelligence of the mean, not the median ）。大部分劳动是相当简单的任务，我还没有看到任何数学上的反驳证明本地模型不能变得非常好。你可能仍然会因为很多其他原因需要云端模型，而且有很多非常高端、高复杂度的工作你会需要云端模型来完成（ a lot of very high-end, high-complexity work that you’re going to want a cloud model for ），比如化学、物理、生物学，甚至是做你的税务申报，但对于基本的事情，比如知道如何使用你的 iPhone 和总结网页结果，我不太明白为什么本地模型不能变得非常好。

我要补充的一点是，这基本上肯定会发生，即在 TSMC 的节点密度方面（ on the node density side from TSMC ），以及每个主要的 AI 实验室的效率提升方面，将会有大量工作做出来。即使他们在云端运行他们的模型，或者因为他们要在云端运行他们的模型，他们会非常关心他们的成本（ they really care about their COGS ）。这是一个非常稳定的过程，每年都会发生，当一个新的前沿模型推出时，运行它的成本非常高，然后它被蒸馏、量化或压缩，以使公司的成本支出更有效率（ a new frontier model is launched, it’s super expensive to run and then it’s distilled, quantized or compressed so that the COGS of that company are more efficient ）。

如果你继续这样做，你确实会想，“等一下，为什么消费者自己不能运行这个模型呢？” （ wait a minute, why can’t the consumer run this model? ）有大量的经济上的压力迫使这些模型不仅非常智能，而且要让它们的运行成本非常低（ There’s a ton of economic pressure to make these models not just very smart, but very cheap to run ）。在极限情况下，我不知道它是否会像你的苹果电视（ Apple TV ）一样，由家里的电脑来完成后台工作，甚至真的在你的手中的设备上完成，感觉本地模型会变得非常强大（ I don’t know if it’s going to be like your Apple TV, sort of computer at home is doing the work, or literally it’s happening in your hands, but it feels like local models can become pretty powerful ）。

NF : 对，六个月前，Andrej Karpathy 发表了关于 LLM 操作系统（ LLM OS ）的愿景，他的想法是语言模型在某种程度上是一种新型计算机（ the language model, in a way it’s a new kind of computer ），一种新型操作系统（ it’s a new kind of operating system ），它将连接到各种外围设备和工具，通过函数调用来使用它们（ peripherals and tools that it can use through function calling ），我认为这是一个非常有趣的愿景。

至于如何实现，还有待观察，但我认为苹果的发布会上宣布的东西确实支持了他的观点。实际上，苹果在设备上安装了一个小型的 LLM 内核，它监听你的请求并决定如何处理这些请求（ a little LLM kernel on the device that’s listening to your requests and figuring out what to do with them ），它可以尝试自己处理，也可以调用本地应用程序的部分功能，或者将部分或全部工作分配给苹果在其云端运行的模型，甚至现在可以在得到你的批准后调用 ChatGPT。

我认为苹果通过这种架构设计，为自己提供了一种对本地模型质量的对冲措施和一个使用的坡道（ both kind of a hedge on the quality of local models and a ramp that they can use ）。随着本地模型的改进，它们可以根据需要在本地处理更多请求，同时随着它们在云端芯片上运行的自有模型的改进（ as their own models running on their chips in their cloud improve ），它们也可以使用这些模型，并且在适当的情况下，还可以使用第三方模型。我认为 Daniel 可能是对的，本地模型的性能还会显著改进，但苹果的策略不需要本地模型能够做所有事情，它们可以平稳地进行调度（ local will improve dramatically, it doesn’t have to be able to do everything for Apple’s strategy to work though, they can smoothly dispatch ）。它们在手机上有一个小路由器，我认为苹果的梦想是拥有一个 2B 或 3B 参数的模型在你的手机上运行，主要是作为一种工具使用模型（ tool-use model ），它基本上执行函数调用（ It basically does function calling ）。

Ben : 在 AI 领域，最重要的代理将是那个决定在哪里分派任务的本地代理 ( The most important agent in AI is going to be the local agent that decides where to dispatch jobs )。它不需要很大，也不需要很复杂，但它是关键所在，它将控制所有的价值。

NF : 是的。我认为在短期内，即使是处理中等复杂度的任务，使用远程模型也有很好的理由（ there’s good reasons to use remote models even for only moderate things ）。在手机上维持一个 3B 模型在内存中的能耗成本并不小，将其加载到内存中的成本也很高。你现在必须部署的计算量很大，但正如 Daniel 所说，摩尔定律、英伟达的 “Jensen 定律” 或台积电定律以及量化和蒸馏等技术将继续改进，所以本地模型将变得越来越好（ local models will just get better ）。随着时间的推移，苹果对此可能并不是完全不在意，但在某种程度上它现在是无所谓的。他们可以在这个基础上下注，并随着模型情况的改善，从远程模型平稳过渡到本地模型（ a smooth transition from remote to local as things get better ）。

Ben : Daniel，我实际上很好奇 — 你曾经是苹果公司机器学习部门的负责人。这已经过去好几年了，所以不能说你一定对去年发生的事情有深入的了解，但对我来说，苹果智能系统只能在 iPhone 15 Pro 上运行这一事实让我确信，苹果在这方面确实是晚了一步，因为我认为，如果他们能回到过去重做一遍，至少 iPhone 15 会有 8GB 的内存，至少在整个上一代产品中都是如此。当然，他们当然希望销售新硬件，但他们也不想让人们感到被坑。

这对我来说确实是一个 “全员上阵，我们必须解决这个问题” 的情况，而且大部分都是积极信号。积极的点是，我认为可以安全地假设他们的芯片还没有完全设计好来支持这种使用方式。我们可以期待不仅仅是台积电的工艺改进，当苹果为本地模型定制专用苹果芯片时，它的设计和支持也会变得更强大和高效。然后第二点，我的假设是这个苹果私有云只是由 M2 Ultras 组成，我认为这可能决定了这些云上模型的大小，但是当他们真的设计了自己服务器芯片时会发生什么，我认为可以肯定地说，他们现在会设计自己的服务器芯片。整个 Nuvia 团队可能在想，“我们很久以前就告诉过你们了！”

但第三个我很看好他们的迹象是，如果这一切都属实，他们似乎传达了一个非常有潜力的愿景，并且足够证实了这一点 — 很多东西还处于测试阶段，将在这一年内逐步推出（ a lot of this is in beta is going to roll it over the year）— 这有点让人回想起曾经的苹果公司，像史蒂夫·乔布斯时期的风格，“ 我们要做 iMovie，哦，等等，实际上我们要做的是音乐，我们需要发布 iTunes，我们将在六个月内发布 iPod” 。这是一个恰当的描述吗？你对过去 18 个月苹果内部发生的事情有什么看法？

DG : 具体来说，当我在苹果工作时，我是一个年度项目 “OS Intelligence” 的直接负责人（ Directly Responsible Individual, DRI ），该项目涵盖了公司内所有的机器学习和 AI 的努力，我是这个项目的核心人物（ a tent pole ）。核心人物是苹果用来宣布在特定年度内特别关注的六到七个项目之一。

当我在苹果发布会主题演讲中看到 “Apple Intelligence” 时，显然这是一个有趣的缩写，但我看到的是内部组织在外部的反映（ I was seeing the internal org reflected externally ），这是年度的一个核心项目。即使在核心项目内部，公司也有一个内部的层次结构。真正的问题是，当你在苹果工作时，核心项目的分类代码是什么？你是 P0、P1、P2 还是 P3？你希望是 P0 或 P1。 P0 会是像新的硬件支持这样的东西，这意味着如果这个项目不成功，公司将陷入困境，比如新的四频 LTE 模块从中国运来的零件，你必须与之合作。

如果让我猜测，你所描述的组织表达就是从 P1（我以前所处的位置）提升到了 P0 级别。我不确定这是否属实，但我感觉是这样。

Ben : 感觉今年 WWDC 的其余部分就像是说 “没人一整年在做其他任何事情”。将所有其他内容放在第一小时几乎是有用的，真正强调了 “我们确实没有在做其他事情，除了 Apple Intelligence 这件重要的事 ”。

DG : 我认为苹果是一家灵活度很高的公司。在我在苹果工作的头一年或头几个月里，我们致力于一个核心项目（ a tent pole ），但在接近发布的时候被搁置了，因为我们开发的东西还不够好，那是我职业生涯中一个非常痛苦的时刻。苹果工程高级副总裁 Craig Federighi 到我的办公室来安慰我。我知道那是一个痛苦的时刻，因为我记得那一天的每一秒，但他们在一年中对积极和消极的事情都抱有灵活态度。如果东西不够好，他们会把你推到明年再说，如果看起来很重要，他们会非常迅速地重组公司团队开始干。

我认为这在某种程度上是乔布斯的天才之处，即直接负责人 DRI 模型并不特别依赖于组织结构图。例如，我主要在苹果服务高级副总裁 Eddy Cue 的团队中，但因为我是直接负责人 DRI，我指挥的是 Craig 团队中的完全不同的一些人。如果让我猜测，他们确实进行了一个 P0 冲刺，并且它成功了，有很多东西是先拼凑在一起的，包括，我不确切知道情况是什么，但我假设你关于苹果芯片的理论是正确的。

我也认为，从苹果的角度来看，在云端和客户端使用相同或相似的处理器是相当合理的（ having the same kind or a similar processor in the cloud as on the client is somewhat sensible ）。也就是说，你可以设想一种协议，客户端尝试流式传输 tokens ，并且由于它与云端具有相同的架构和模型，甚至到比特和硅芯片层面都相同（ envision a protocol where the client is trying to stream tokens and because it has the same architecture and model as the cloud, literally down to the bits and down to the silicon ），它可以非常灵活地回退，本地化生成一些内容，也可以从云端生成一些内容（ it can very flexibly fall back, generate a little bit more locally, generate a little bit more from the cloud ）。就像我现在和你说话一样，有些词语比其他词语更容易想到。例如，我脑中的最简单的方式是，如果你正在解决一个特定的数学问题，写出来这个数学问题实际上是相对低复杂度的计算，然后你写到了等号，突然间你有了这些高复杂度的 tokens。你可以想象他们会制定这种相当灵活的协议，而且在本地和服务器模型之间切换，你会得到非常可靠的性能标准和特性（ you’ll have very reliable performance standards and characteristics between the local and server model ）。

显然，从苹果的经济性角度来看，这与他们的商业模式高度一致，而且即使他们暂时没有足够的数据中心能量容量等，这也可能帮助他们在他们擅长做的事情上处于业界前沿水平。

我想，为了先收尾前面的评论里的脑回路，我需要补充一点，因为你可能会从那个主题演讲中得到启发，展望未来，并想知道我们究竟在做什么，为什么 Vertiv 今年上涨了 4 倍，Nvidia 也在那样的位置上。有时我真的试图想象这相当于现在在观察曾经 90 年代末电信行业的泡沫，并开始想象社交网络的等价物是什么，我认为那真的很难做到。我们很容易看着电信泡沫并想象 pets.com 或 Webvan 会被做出来（ It is really easy for us to look at the Telco bubble and imagine pets.com or Webvan ），但你很难想象到社交网络这样的产物。

在人工智能领域，我认为可以想象到的是，相对容易的飞跃会是 “ 哦，尽可能多地做所有当前经济中的基础工作就行了（ just do all the basic current economy as much as you can ）”，然后问题是 “ 什么是现在还难以想象的类似社交网络这样的东西？”。我觉得可能会是一种对硬科学和硬物理的重新发现（ a kind of rediscovery of hard science and hard physics ）。人类进步今天在这些领域到达了瓶颈，仅仅因为智能发展的速度（ the rate of intelligence ）。你可以想象，AI 市场是如何展开的？实际上，很多本地的经济或很多经济活动可以在本地完成，但真正的奇迹，比如新的流体力学、新的 Ozempic 药物、新型能源，这是一个庞大的产业，它们可能是在云端完成的，这就是我们错过的部分，就像无马的车厢（ horseless carriage ）一样。

范阳注：无马的车厢（ horseless carriage ）是在汽车进入大众视野之前，人们对汽车的临时称呼。

我们过于专注于工具使用和间歇性上瘾地浏览手机屏幕（ so focused on tool-use and intermittent browsing ），而没有意识到 “哦，有全新的科学领域将被发现也是超级有利可图的” （ there’s brand new kinds of science that are super lucrative and profitable ），新时代的礼来制药公司也许相当于新时代的社交网络一样规模。无论如何，这至少是我今天的想法。

Ben : 我完全同意。而且我的一个看法是，我认为这有点借鉴了互联网时代的经验，我有点怀疑创新的深刻性与它实际产生影响所需的时间之间存在反比关系（ there’s an inverse correlation between the profoundness of an innovation and the time it takes for it to actually make a difference ）。

互联网用了 20 年时间才到达了你提到的那一点，至少用了 15 年时间，不管是哪一个，我认为动态信息流是上一波互联网核心的创新（ the feed to my mind is the core Internet sort of innovation ）。

信息流是以前无法做到的事情，创建一个动态生成的内容列表，这个列表永无止境，且能针对每个人进行个性化推荐，这根本上是全新的事物。互联网花了15 年时间才走到这，从而解锁了广告模式，解锁了整个互联网经济。这改变了我们的政治，改变了社会。虽然事后看起来很明显，但这确实花了很长时间 — 我用不同的角度在说明你的社交媒体观点。

但似乎在这发生之前的 15 年间，我们在做什么（ what were we doing in the intervening 15 years ）？我们只是把文章放到网上挂着，在旁边加个广告，就像我们在报纸上做的一样，然后感叹，“哇，互联网可赚不了什么钱”。对于人工智能，我觉得，我们在 18 个月前开始这个播客系列时就在说，“ 哇，没有人在用人工智能构建产品（ no one’s building products here ）”，而现在几乎感觉情况还是这样。

Ben : 人们确实在构建产品了，但没有人真正找出那个别人无法想象到的产品（ no one has actually figured out what is the product that no one could imagine ）。

NF : 是的，我想特别是针对苹果来说。这在 AI 领域是一个大争论，关于人工智能进步的速率限制（ rate-limiters on progress ）是什么，纯粹的规模扩展派（ the scaling purists ）认为我们需要更大的规模、更多的算力。有些人认为我们需要算法的突破，因此我们受到优秀的 AI 研究人员的限制，还有人认为我们正撞上了数据墙，我们真正受限于高质量数据，可能是标记数据，可能是原始数据，或许是视频可以提供这些数据。

但至少在实际感受到的进步方面，我认为人工智能进步的关键是用户界面和产品（ I think it is UI and products ）。仍然存在巨大的 AI 能力过剩问题( a massive capability overhang )，我们仍在学习如何让这些模型对人们有用。令我震惊的是，到目前为止，竟然很少有人做好这方面工作。

我想，回应你关于信息流的观点，这确实需要时间就足够。整个行业都在进行分布式搜索，寻找 AI 领域可行的东西（ There’s a distributed search that occurs across the industry for things that work ）。当我们制作GitHub Copilot 这个产品时，主要的 — 也许也不是主要的 — 但有很大一部分问题要解决是，“ 这个的 UI 是什么？可容忍的延迟是多少？它看起来像什么？它如何知道该做什么？以及当它犯错时，如何使这些错误是用户可以容忍的？”，因为它肯定会犯一些错误。

Ben : 是啊。

NF : 我喜欢苹果发布会的一点是，我们真正开始看到 UI （用户界面）的具体愿景是什么样了，他们做的事情是将他们的应用分解成一些对用户有用功能的小块，并且这些功能有完全独立的 UI （ they’ve decomposed their apps into little bits and pieces of useful functionality with totally separated UIs ）。显然，通过某种方式，你可以与设备进行对话，例如说：“ 今晚的晚餐地点在哪里？到那里需要多长时间？”

延伸阅读： AI 在把传统软件当早餐吃掉

Ben : 那个女士想知道她妈妈的航班什么时候降落，以及他们在哪里吃晚餐的演示，是近年来最好的科技演示之一，我是完全真诚地这么认为的，因为它如此简单，却让每个人立刻理解了这是一个多么难的问题，以及获取这些信息是多么让人头疼。

NF : 苹果在那个演示中打破了很多技术界限，我认为这是苹果经常表现出色的一点。他们显然有一群人，或者是就不知道现有 AI 的工作方式是什么，或者能够忽略现有 AI 的工作方式，只想着用户体验应该是什么样子，几乎是显得有点肤浅，但我说这是一件好事，不是坏事。

Ben : 我在和我在 Sharp Tech 的联合主持人 Andrew 交谈时，他是科技领域的新手，他简直被惊呆了。我说，“ 看，这就是苹果粉丝的心路历程。” 这就是为什么人们爱苹果，因为他们有这种持续解决问题的能力。

NF : 是的。苹果能够说：“ 忘掉应用程序吧，它们不应该是你总需要在其间切换的独立存在的事物（ Forget apps, they’re not these separate things you switch between ），但它们会提供这些用户意图或这些小功能或智能能力（ provide these intents or these little functions or capabilities ），它们分别会有一些用户界面，在适当的时候出现在对话中（ they’ll have bits of UI that appear in the conversation at the right time ）。” 演示的神奇之处在于你可以说，“到那里需要多长时间？” 它知道 “那里” 指的是什么，并且有上下文参照。所以这让我感到非常兴奋，这是令人惊叹的。听起来如此简单，事后看来是显而易见的，但我确实认为他们指明了用户体验的方向，超越了迄今为止其他人的做法。

Ben : 嗯，就像 Daniel 刚刚解释过的，我也写过的，苹果的功能组织及其所带来的灵活性，你可以让一个直接负责人（ Directly Responsible Individual, DRI ）进来并组建一个团队来完成某件事。这有点像苹果展示他们的方法，“ 看，手机上有很多垂直的孤岛，也就是应用程序（ there is all these vertical silos on your phone, which are apps ），比如消息应用和邮件应用都是独立的，而你真正需要的是， Apple Intelligence 就像你个人的直接负责人 DRI，它会跨越这些不同的东西并提取出各个部分（ it is going to operate across these different things and pull out bits and pieces ）”，这非常有吸引力，也非常实用。

NF : 是的，这很有效。还有一些小细节，比如在邮件应用中，每封邮件下方的简短摘要传统上是邮件的前八个字，现在是 LLM（大型语言模型）生成的摘要。就像，“哦，天呐，我怎么没想到？这太显而易见了。”

Ben : 通知功能也是，“ 当然，这才是通知应该的工作方式。”

DG : 好的产品设计有点像一个非常好的笑话, 或非常好的日常观察性幽默笑话，事后看来非常显而易见。但这也是 Nat 一直在强调的一个观点，我认为他是对的，这在事前是非常难做到的（ it’s extremely hard to do a priori ）。也许魔术是一个更好的比喻，因为构思和想象它是非常困难和毫无感激之情的工作，因为如果魔术师真的做得好，没人会注意到这些背后的细节。

NF : 你看到了别人没有看到的东西，而这些东西其实一直都在我们身边（ You see the thing that nobody else sees that was sort of all around us ）。所以是的，我喜欢 LLM OS 的方法，我喜欢他们的 UI 和产品愿景。当你问到苹果面临的最大风险是什么时，我真的认为是执行能力，让这一切运转起来。我们在 AI 中看到，演示很容易。我们在 2020 年开始研发 Copilot 的第一个月就学到了这一点，但让它可靠地工作，并让失败是可以接受的，而成功时又能带来商业回报，这真的很难。

我们在大型语言模型（ LLM ）中看到的一个现象是，它们真的很依赖数据。我认为过去几年让我深刻认识到的一点是，如果你希望模型具备某种能力，那么在你的训练数据中必须有很多这方面的优秀案例。三年前我创建了 natbot，这是我最早学到的东西之一。

范阳注： natbot的演示 https://github.com/nat/natbot

那是一个使用 GPT-3 来浏览网页并在网页上执行操作的小机器人。当时它基本上勉强能工作，是一个很酷的演示，然后我获得了 GPT-4 的早期访问权限，并将其插入其中，以为我的 natbot 的表现会大大改善，因为 GPT-4 模型显然要好得多，可惜它并没有。它只是稍微有所改善，因为浏览和执行操作的数据并不在数据集中。所以我认为苹果要做好这件事，他们可能需要在数据方面做得很好。他们可能需要收集大量高质量的数据样本。

Ben ：苹果会被自己束缚住吗？因为我觉得，他们有很多非常有用的数据，但他们承诺不利用这些用户数据。

NF ：嗯，你可以做到这一点。获得高质量数据的最先进方法，我认为用户数据引擎（ the user data engine ）在 AI 领域有点被高估了。我觉得如果你把 OpenAI 的 ChatGPT 用户数据拿走，他们仍然会做得很好，因为他们愿意每年花费十亿美元来获得高质量的标注数据。

其他实验室也在这样做。我想有些人看到了最近 Scale 的融资公告。Scale 是那些真正抓住这波 AI 浪潮的公司之一，因为他们帮助人们收集这些高质量的数据，并且每年通过这种方式赚取超过十亿美元。所以苹果也可以做到，但这需要成千上万的标注人员，并且在操作上非常人力密集且需要极其关注细节。我不知道，这是否符合苹果的公司 DNA，你怎么看，Daniel？

DG ：这是个有趣的问题。我认为，当我在苹果工作时，似乎现在也是如此，苹果公司对用户隐私有一种极端的痴迷，他们是真诚的，并不是因为商业模式驱动，而是真正来自于高层人员的一种精神。这么说，正如你所说，Nat，数据护城河的概念在 LLM 领域并不明确，因为每个额外数据点的影响范围非常大，你可以用少量非常高质量的数据走得很远（ the blast radius of every additional data point is so large, you can get pretty far with a small amount of very high-quality data ）。他们多年来一直在为Siri 的语音识别收集数据，通过付费的方式，而且苹果有很多钱，他们知道如何为一些能保护用户隐私的东西付费。我认为，这里的问题是，“ 你是否知道如何收集适量的信息？”，这本身比起科学来说更多的是一种艺术。我想，在一方面，你可能会认为，“ 也许苹果真的不太理解机器学习，所以即使他们有预算，可能也很难做到这一点”，但另一方面，我认为我们之前讨论过的一件事是，苦心收集数据的神学和哲学，与苦心设计像素的神学和哲学并没有太大的不同（ the theology and philosophy of slaving over data is not too different from slaving over pixels ）。非直觉的做法可能是让苹果的设计团队来理解机器学习，然后收集数据。但苹果公司有那种关注细节的心理，我认为其他一些实验室迄今为止在这方面挣扎的原因之一，比如与法国的 Mistral AI 公司相比，是因为他们没有那种关注细节的文化。他们有一种规模扩展文化，而这两者通常是相互对立的（ they don’t have a sweating details culture. They have a scale culture which often these things are quite at odds ）。

所以，如果苹果能够传递出那种 “ 我们要非常在意设置页面上没人会注意到的动画 ” 的神话般的态度，他们实际上可能会非常擅长收集任何高质量的数据。这中间有一种不同领域语言翻译的因素，我的意思是，在苹果，设计师的重要性和得到的尊重远大于 AI 工程师，所以问题是，组织能否欣赏这种新的类型？

Ben ：组织的痛苦将来自模型总是出错。我认为他们发布的关于模型的评分是最显著的事情之一，当然，这些评分来自苹果，我会持保留态度, 有关拒绝的响应数量。他们的准确性与比较对象大致相同，他们的准确率与他们所比较的所有产品持平，但他们的敌意或任何被归类为敌意的产品却明显较低。

DG ：拒绝响应（ Refusal ）。

Ben ：拒绝响应（ Refusal ），谢谢。这表明他们不想出错，如果他们认为模型可能会出错，他们会转交给 OpenAI 做这件事，让他们承担品牌风险。

DG ：一直存在的问题是，“ Apple TV+可能实现吗？”，因为苹果品牌如此高端，他们能制作大胆内容吗，甚至是有暴力场景的内容？这不是Steve Jobs设想的苹果品牌。或许你认为美剧《为了全人类》是个无聊的节目，但归根结底，他们确实有一些有血腥、暴力和性爱场景的节目，我认为他们处理得相当好。

NF ：我的意思是，他们正步入一个全新的管理挑战，或政策挑战，面对对话式人工智能（ a conversational AI ）。我们看到 Gemini 的出错，我们也看到 OpenAI 有时受到巨大抨击。苹果将如何应对这些挑战？

Ben ：你刚才提到这点，我认为稍微有点夸大。我认为值得注意的一点是，他们甚至还没有涉足（对话式人工智能）这一领域；他们的模型基本上不生成任何文本，主要是做摘要和语气变化。如果想进行任何形式的生成，他们会把这个任务交给 OpenAI。顺便说一下，这让我觉得他们更有可能把 Apple Intelligence 带到像中国这样的地方，那里的环境对很多人工智能公司不太友好，但他们可以自信地说，“ 我们的模型不在创造内容（ We’re not creating stuff ）”。

他们在创造内容的地方是图像生成器（ Where they are creating stuff is the image generator ），但它只做三种风格，不做照片写实风格（ photorealistic ）。他们昨晚在 [John] Gruber 的 Talk Show 上说，“ 是的，我们不想涉足深度伪造技术 ”。我们通过小道消息听说，政治家们特别关心深度伪造技术，其他的就不是特别重要。但我认为苹果在这里有一个非常明确的选择，就是实际上做非常少的生成式创作（ there is a very explicit choice here to actually do very little creation ），有趣的是我们称赞他们在生成式 AI 中具有潜力，但他们实际上生成的创作很少（ we’re hailing them as a potential well-placed in generative AI and they’re doing very little generation ）。

DG : 是的，我认为这是个合理的观点。Nat，对于你的问题，一个好的衡量标准是，“ 他们在 Apple TV+ 的剧本上亲自进行多少微管理？” 我之前说的都是积极方面，但从消极方面来看，我不知道他们是否因为 Jon Stewart 想谈论中国而取消了他的节目，还是因为收视率不好，这是他们的借口。但如果他们真的如此苛刻，以至于说 “我们不喜欢你的剧本”，那么是的，公司可能会遇到些困难。从某种程度上说，如果你是苹果，你可以说，“好吧，我们有个压力释放阀是，我们将连接所有这些其他大语言模型（LLM），比如Google 的模型品牌、OpenAI 的模型品牌，来处理生成奇怪内容带来的声誉损害，我们只负责控制你的手机（ all we do is control your phone ）。” 我认为这将是一个非常明显的苹果的立场。

NF : 既然你和 Ben 都这么说，我有点觉得这就是会发生的事情。他们只会代表你采取行动，尝试做一些对你有帮助的事情（ They’ll just take action on your behalf and try to do helpful things ）。他们不会给出个人建议，也不会生成政治性的文章之类的东西。我认为这对他们来说是一个简单直接的方法。

Ben : 他们还在 State of the Union 中也谈到了很多关于向开发者提供本地优化外部模型的工具（ the tools they are delivering to developers to locally optimize external models ），这是他们的推销点，“ 如果你想做这些事，我们会帮助你在本地完成，但我们不会自己实际做这些事。我们会提供所有这些框架和方法来优化别人提供的模型，如果你想把它放在你的应用程序中，但我们自己的模型不会涉足这些。”

DG : 是的，我认为这是他们的首要答案。

Ben : 第二点，回到昨晚的 Talk Show，Gruber 问了在台上的苹果高管关于你刚提到的内容审核问题 ( the moderation question )。他们回答说，“是的，我们相信人们是有创造力的，我们不想妨碍他们，我们只是一个工具（ we believe that people are creative, we don’t want to get in their way, we are just a tool ）。” 第一，这正是我想听到的，我为此鼓掌。第二，这是一种经典的策略，因为如果他们实际上不生成任何内容，他们就不会被追责。

几个月前我在一篇文章更新中发布了一则笔记，其中我们的一个共同朋友写了一种思考审核问题的框架，这个框架是关于你需要在这些工具是工具的背景下构建这些工具，这就是你如何获得社会认可并能够解决这些问题的方法（ it was really about you need to frame these tools in the context of them being tools, and that is how you’re going to get societal acceptance and be able to work around these issues ）；当某些麻烦明确归因于大语言模型 LLM 时，LLM 将承受品牌风险。如果明确归因于用户的行为，那么你基本上可以做任何你想做的事。这似乎正是苹果的做法。

DG : 我认为这是对的，我认为对苹果的最大赞美就是他们没有更早推出某些东西。我一直被告知，当你在苹果工作时，你要在比赛的第四节才上场，你的角色是成为最好的球员，而不是第一个出场的球员（ you play in the fourth quarter of the game and the role is to be best not first ）。所以你现在看到的苹果的后发优势，他们从其他公司在公众眼中的挣扎中获益良多。

Ben : 此外，在优化和提高效率方面也产生了大量的进展。如果你回头看看ChatGPT 的初始发布版本与最新发布的 GPT-4o 的对比，我的理解是这个 “o” 代表的就是 “优化” （ optimization )。他们如何上规模实现这一点？这似乎是迄今为止最大的突破。

NF : 我能再补充一下关于苹果的观点吗？至少提出一个反面观点（ one bear statement ），因为我们之前的讨论都是赞扬它的。那么，反面观点是，这些模型主要在生成方面证明了自己的能力。苹果在这个工具使用和函数调用的世界中押注了这些模型（ Apple is betting on them in this tool-use function calling world ），虽然已经有一些演示表明这是可行的，但还没有人在苹果现在需要的大规模和可靠性上做到这一点。所以我认为这是完全可行的，我并不认为这是一场必输的战斗，但这是竞争的前沿。他们现在必须推动这一点，以使他们的愿景得以实现，而这并不是这些模型迄今为止表现最出色的地方。

Ben : 是的，这是一个很好的观点，苹果实际上必须在这个领域创新，所有我们谈论的都是快速跟进别人家的工作，实际上你需要在做一些没有人展示过的新事物。

有关 OpenAI

Ben : 那么， OpenAI 在市场当中扮演什么角色？我把他们比喻成相对于电商平台亚马逊的联邦快递（ FedEx ）和 UPS（ I analogized them to FedEx and UPS relative to Amazon ），亚马逊只是把亚马逊不想做的最糟糕的任务丢给了物流快运公司，而亚马逊自己承担了所有简单的任务。但与此同时，我一直以来的一个观点是， OpenAI 有机会成为一家消费科技公司（ OpenAI has the opportunity to be a consumer tech company ），他们刚刚获得了史上最大的分销协议（ they just got the biggest distribution deal of all time ）。你如何看待他们今天的位置，相对于上周？

DG: 我不完全理解他们和苹果协议中分销能起到的价值（ I don’t fully understand the value of the distribution from the Apple deal ）。也许有点道理，但也许这更像是当年雅虎和谷歌的合作协议。我认为在 AI 领域，如果你专注于企业市场，这是不同的情况。如果你专注于消费者市场，旧的资本主义规则仍然适用，你需要一个颠覆性的用户界面，这样人们才能记住你，才能想使用你的产品，而不是使用现有的产品（ you need a disruptive user interface such that people remember to use your product versus the incumbents ），或许对于 OpenAI 这就是 chat.openai.com。

Ben : 现在改成 chatgpt.com 了。

DG : chatgpt.com，或许改得还不够。我认为能看到一个暗示，不仅仅是 OpenAI，而是所有这些人工智能实验室在他们的产品发布中看到自己的发展方向，他们创造了一个你可以直接对话的东西（ all of these labs sort of see themselves going in their product announcement where they created a thing that you just talk to），这很有可能足够成为一个革命性的新用户界面，以至于他们可以创造自己的硬件（ that is sufficient to be a revolutionary new user interface to the point where they can create their own hardware ），如果做到这一步基本上可以指挥客户的注意力（ they can basically command the attention of customers ）。

但我觉得一般来说，如果你要进入消费者市场，你希望自己处于价值链的顶端（ if you’re going to be in consumer, you want to be at the top of the value chain ）。我的意思是，当然，OpenAI 是一家非常强大且令人印象深刻的公司，但与苹果的合作协议并不真正表明他们处于产业价值链的顶端。所以问题实际上是我们在这个播客上已经讨论了多年的老问题：“ 什么是新的革命性的用户界面能够真正改变用户行为（ What is the new revolutionary user interface that actually causes a change in user behavior ）？”

Ben : 这是否意味着谷歌现在处于市场当中的最佳位置？他们拥有所有苹果公司所拥有的智能手机产品属性（ They have all the smartphone attributes that Apple does ），他们在模型和技术方面应该更强。尽管他们在产品本身或获得消费者信任方面表现较差，比如他们没有你之前详细描述的 “灵活的组织形式”，你觉得这一点重要吗？上次交流我们谈论谷歌时花了很多时间，有什么改变了你对谷歌的潜力的看法吗？

DG : 我认为这真的完全取决于你是否能创造出足以证明用户行为改变的一种体验，而且一直以来成功的关键都取决于这一点（ it really all depends on whether you can make an experience, and it always has depended on whether you can make an experience that’s good enough to justify a change in user behavior ）。

举个例子，我认为有一段时间，尽管实际上用户界面非常简单，但生成高质量的图像也足以导致用户行为的巨大转变。 Midjourney 之所以是 Midjourney，并不是因为它有什么漂亮的斜栏，可以捏合缩放。而是因为它创造过非凡的奇迹。它创造了非常好的图像，并赋予了它一定的用户粘性。所以，这就是默认的用户体验和劣质产品，与新的革命性体验之间的矛盾，以及它们是否足以打破现有产品的 “僵化”。

很有可能，如果没有人提出任何新的绝妙想法，即使谷歌的模型在消费者眼中看起来并不那么出色，他们也会存活下来，因为他们有一些安卓用户基础，当然还有 Google.com。让我感到惊讶的是，虽然谷歌模型的技术能力看起来很令人印象深刻，但消费者产品一边的执行实际上比 “还行” 还要差。我认为他们将语言模型整合到搜索中的做法简直糟糕透顶，抱歉，我要完全坦诚说出我的观点。比如谷歌搜索结果里引用了并非事实的 Reddit 评论，这种问题其实不难解决。所以我认为他们需要至少做好最基本的工作来维持他们在市场层级中的地位。可能他们做不到这一点，也可能新的革命性的用户界面会被创造出来，也有可能他们会迎头赶上，一路摸索着走过来，然后就过得还好。

但我认为，主要的问题是对于那些挑战者人工智能实验室来说，如果他们朝着消费者产品的方向发展，那么问题就是， “ 如何打造一个如此出色的产品，以至于人们会真正放弃默认选项？” ，而我认为我们总是低估了想做到这一点，需要达到的卓越水平。企业应用市场的情况有点不同，顺便说一句，OpenAI 在企业市场的动态方面是一个非常好的 “卖柠檬水的摊位” ，但消费者市场在某种程度上更容易理解。你只需要有一个奇迹般的产品来改变一切，如果那没有发生，那么是的，也许你应该长期看好谷歌、苹果和现有的巨头。

NF : 是的，在 OpenAI 这方面很难排除它们的影响力，他们有很多优势。确实，他们没有 Meta、苹果或微软的分发能力。但至少从 SimilarWeb 的数据看，ChatGPT 的增长可能是通过最近 4o 模型发布重新点燃的，如果是这样，那非常有趣。

然后在模型建立方面，他们仍然领先，我认为他们对 4o 的演示真的很令人印象深刻。它的语音能力很棒， OpenAI 能够提供具有这些功能的如此小型且廉价的模型让人印象深刻。 4o 是一个全新的预训练模型，而不是对 GPT-4进行了微调，这肯定是为了他们提供的多模态功能。显然，根据它的价格和性能，这是一个小型模型，而且他们还免费提供它给所有用户使用，因此我不得不想象他们正在训练一个更大的模型。GPT-4o 有可能是一个 GPT-5 的检查点，也有可能是 GPT-5 训练的失败产物，所以他们可能会训练一个更大的模型出来。从人们的使用情况来看， 4o 显然并不比 GPT-4 更聪明。

Ben : 在我看来，GPT-4 仍然更聪明，但 4o 速度快得多。而且正如你所说，它是免费的，它有些产品属性比仅仅正确回答深奥的问题更重要（ there are product attributes that matter more than just answering esoteric questions correctly ）。

NF : 是的，确实如此。所以如果他们很快就有一个更聪明也更大的 4o 模型，或者 GPT-5 能够实现预期，我们知道他们在 Q* 方面有一些令人惊奇的东西，我们还没有看到，他们在科研、扩展规模和产品执行方面做得比大多数公司都要好，现在他们与微软和苹果有分发协议。再说句实话，他们在许多重要方面都有非常强大的领导能力，能够筹集资本、落地执行和重定向组织。看看那些 4o 团队成员的演示视频，显然在录制这些视频之前，他们没有一个人怎么睡过觉，所以我认为这种努力强度不容忽视。

Ben : OpenAI 现在是 AI 界的 “Kleenex”（一个领域的代表性品牌）。这是去年整个宫廷政变风波中被低估的问题之一，即 “好吧，整个 OpenAI 团队都去了微软 ”，实际上失去 ChatGPT 这个名字会带来天文数字的代价。我认为，科技公司的价值有很大一部分在于无形资产（ I think how much of the value of tech companies is bound up in the sort of intangibles ），而这确实是一个很大的无形资产。你能够自行掌控而不必通过任何平台进行分发的任何能力都很有意义（ Any distribution you can command on your own without having to go through any of the platforms is meaningful ），他们大约有 1 亿以上的用户吗？

NF : 是的，我认为这是对的。另一方面，他们面临许多挑战。相对于我们讨论的这些大公司来说， OpenAI 基本上还是一家小公司，产品分发规模不够大（ subscale product distribution ）。显然他们与微软之间存在紧张关系，我们看到了微软收购了 Inflection AI，我看到有媒体报道称微软对OpenAI 与苹果的交易感到不满，我们也看到 Mustafa 和微软 AI 团队现在正在努力赶上甚至可能超越 GPT-4 的模型能力。

Ben : 除了作为去年十一月 “宫廷政变” 之后直接衍生的对 OpenAI 的风险对冲策略，你还怎么看待微软对 Inflection 这个收购呢？

NF : 我认为这显然是微软对 OpenAI 的对冲策略。此外，它也可以被视为新产品领导力和 AI 原生产品的领导力的体现，特别是对于 Copilot 以及微软自己对 OpenAI 的整合（ new product leadership and AI-native leadership for Copilot and for their own integration of OpenAI ）。也许微软CEO 萨提亚( Satya )认为他出于某种原因需要这些领导力，所以我认为两者兼有。我肯定他们乐于与 OpenAI 合作，但鉴于该合作的公司治理结构和合作伙伴关系的脆弱性，萨提亚可能会有一些自己的考虑。上次我专门去查看时，萨提亚自今年一月初以来就没有在推特上发布任何提到 OpenAI 的推文。但他提到了 Cohere 模型和 Mistral 模型。

Ben : 这是一个重要的变化。当我几周前采访萨提亚( Satya ) 时，他一直在说，“哦，说到合作伙伴关系，我们有各个层次的合作。我们相信模块化的合作方式。” 这与去年十月份的财报电话会议形成了鲜明对比，那时距离OpenAI 的 “宫廷政变” 事件发生只有一个月。他在那次会议上谈到，“ 我们正在从模型到基础设施再到芯片设计进行全面整合，所有这些都考虑到了与 OpenAI 的合作伙伴关系（ We’re integrating from the model all the way down to our infrastructure down to we’re now designing our chips that are being built with OpenAI in mind）。” 在沟通方面，确实发生了180 度的反转。虽然萨提亚·纳德拉（ Satya Nadella ）做得非常专业和微妙，但与不久前他的说法已经大不相同。

NF : 所以我不知道他（萨提亚）的想法是什么或者究竟发生了什么。目前，OpenAI 和微软确实需要彼此，这是一个非常重要的合作关系，我认为这种关系会继续下去。但显然，萨提亚也想构建自己公司内部的第一方能力，这就是他正在做的事情。

至于谷歌，我认为他们还没有完全搞清楚状况，但让我相当印象深刻的一个事儿 — 我们的一位朋友最近和我说，当谷歌发布一些质量不太好的东西时，这实际上是谷歌的一个利好信号，因为这意味着他们能够突破组织上对发布产品的犹豫不决，他们愿意犯错误了，并且他们想要胜利得如此强烈，以至于愿意不断迭代。

Ben : 这样说会不会有点简单化了？也许正如 Daniel 前面说的，之所以产品做不好是因为组织的问题，所以为了克服这个问题，你就拼命挣扎先把产品发了，然后你意识到，"糟糕，我发了一个用胶水粘起来的披萨"。（ Crap, I shipped a glue on pizza ）。”

NF : 是的，组织内部的缝隙确实很难解决，你可以把它看作是种拼命挣扎。也许这确实是拼命挣扎，但如果他们从中吸取教训并改进自己，那么这种挣扎是有价值的，就像 SpaceX 火箭在发射台上一开始总是爆炸，直到它最终能成功着陆在船上。

我确实认为 Gemini 是一个不错的模型 — 如果你看了他们在 I/O 开发者大会展示的多模态模型演示，他们展示了眼镜的功能演示，我觉得那很有趣，也有一些视觉方面的东西。我认为真正的问题是执行能力，以及商业模式的结构性问题（ the question really is execution, and then the sort of structural problem with the business model ）。基本上，这些东西确实在某种意义上与谷歌自己的谷歌搜索竞争，但他们正在尝试，他们可能会更加犹豫，而这会让我觉得 — 谷歌不是苹果，苹果花时间的时候，意味着他们会把事情做对。

Ben ：对，因为苹果的商业模式暂时没有风险。所以他们有的是时间。

NF ：是的。所以我不知道，我觉得谷歌依然在游戏中，我认为我们应该对谷歌愿意快速发布产品和迭代的态度整体上持积极看法。

科技泡沫的问题

Ben : 有件事是英伟达（ Nvidia ）首席执行官黄仁勋在最近一次英伟达财报电话会议上说的，我在这里引用他的话：

“ 让我举个例子来说明时间真的很宝贵，为什么能立刻建立起来数据中心这个想法如此宝贵（ why this idea of standing up a data center instantaneously is so valuable ），而获得训练时间又如此宝贵（ getting this thing called time to train is so valuable ）。原因在于，下一个达到重要里程碑阶段的公司将宣布一项突破性的人工智能。而之后的第二家公司则会宣布一些仅仅比它提升了 0.3% 的东西。所以你要问自己的问题是，你是想成为一再交付突破性 AI 的公司，还是成为一个只提升了0.3% 性能的公司（ do you want to be repeatedly the company delivering groundbreaking AI or the company delivering 0.3% better ）？

这就是为什么这场竞赛如此重要，正如所有技术竞赛一样。你会在多家公司之间看到这场竞赛，因为拥有这个领域的技术领导力、让公司信任你的技术领导力并愿意在你的平台上进行建设，同时知道他们正在建设的平台会越来越好，这一点至关重要。因此，技术领先于业界非常重要（ leadership matters a great deal ），获得训练时间也非常重要（ Time to train matters a great deal ）。为了获得三个月的训练时间优势，我们必须提前三个月完成项目，而提前三个月开始训练，这两者之间的差别就是一切。因此，这就是为什么我们现在像疯了一样建立 Hopper 超级芯片系统，因为下一个重要里程碑阶段就在眼前（ the next plateau is just around the corner ）。”

这基本上是在说我们前面提到的 Midjourney 的问题。Midjourney 在恰当的时间，或者说因为它出现的早，所以它吸引了大量用户，因为当时它是新奇的事物，而现在有很多模型可以生成类似的图像但这并不重要。一旦你学会了使用 Discord 并使用 Midjourney，你就会觉得它不错，并且基本上被锁定在这个平台上了。Daniel，你之前提到，一旦人们心中有了使用案例，要让他们转变观念就会遇到天文数字般的困难（ the astronomical difficulty in getting people to shift once they have use cases in mind ）。这基本上就是黄仁勋所说的为什么我们毫不犹豫地预先宣布我们的产品，因为现在有如此多的渴望尽快推出产品的竞争对手，因为如果你的产品稍微好一点，但晚了一个月推出，你就已经输了。

我认为这是一个非常有趣的观察，因为第一，它听起来是正确的，第二，当黄仁勋这么说的时候，我突然对互联网泡沫时代有了切身的理解。回顾当时发生过的事情，现在很容易说，“你怎么能看不到这点呢？”。答案其实是，“不，你能看到它，但你就算看到它，除了投资之外什么都做不了”，你看看微软、谷歌和 Meta 以及所有这些公司。我在 Computex 上与不同的人交谈，这就是结论。就像，“是的，现在可能是一个科技泡沫，但我们别无选择，我们必须继续推进，如果不这样做我会失去工作 ”。我不知道，也许我们正处于一个科技泡沫中，也许我们不在。对我自己的心智模型的更新是，无论我们现在是否处于科技泡沫中，做出的决定都是一样的（ My update to my mental model is it doesn’t matter if we are or not, the same decisions are going to be made ）。

NF ：我们显然就是处在一个科技泡沫中，这点毫无疑问。在某些方面像早期的互联网泡沫时期，在其他方面又太不像。但看看这些融资轮次和资金密集度，就知道这一切太疯狂了。

但泡沫对消费者来说并不是坏事，它们对那些在泡沫中亏钱的投资者不利，但对消费者来说却是好事，因为你可以进行大规模的分布式搜索，找出什么是管用有效的，即使是失败的公司也会为其他人留下后来进步的沉积层遗产（ you perform this big distributed search over what works and find out what does and even the failed companies leave behind some little sedimentary layer of progress for everyone else ）。

我喜欢举的例子是 Webvan 这家失败的明星公司，这是一家在互联网泡沫时期的杂货配送服务公司。因为他们当时没有移动技术，只能自己建立仓库，他们无法派遣拣货员到杂货店，还试图自动化这些仓库。由于当时互联网市场规模太小，他们的需求量不大，网上订购杂货的人不多，所以他们失败了，烧掉了大量资金。你可以把它看作是一次彻底的失败，但 Webvan 一些从事仓库工作的人员后来创办了 Kiva Systems 这家公司，做仓库自动化机器人，后来被亚马逊收购后，制造了数万台仓库机器人。因此，Webvan 的机器人技术遗产推动了亚马逊的仓库运作，而其中一些高管最终负责了亚马逊的生鲜业务，最终他们收购了 Whole Foods （全食超市），所以当年这一切为后来其他人带来了很多进步。

当然，另一个事实是，很多资金被这样烧掉了，许多公司失败了，但技术在前进，用户也在学习，比如当年会在电影预告片末尾放上 URL 链接，人们学会了使用 URL 链接。在这个过程中，总会有一些伟大的公司诞生，尽管总是少数，但确实会发生。所以，是的，我认为我们显然处于科技泡沫中，但我认为这不是没有道理的。AI 是一场巨大的革命，将会取得令人难以置信的进步（ AI is a huge revolution and incredible progress will be made ），我们应该感谢风险资本，它们慈善般地资助了许多进步，这些进步我们将在未来几十年里慢慢享受。

Ben : 谢谢你们俩。丹尼尔，请你继续。

DG : 好吧，除了涉及到我们发起的 “ AI识别赫库兰尼姆碳化卷轴 ” 项目的时候，我们可不认为自己是慈善家，Nat 对吧？但我同意 Nat 说的，完全有理由相信我们处在科技泡沫中，许多人会失去一切东西，但同时也会诞生像谷歌和亚马逊这样的历史性公司，我认为这些都会是事实。

有一点我一直不太确定如何看待它，那就是为什么有时市场非常具有前瞻性，有时却完全不是（ why sometimes markets are very forwardlooking and sometimes they’re not ）。例如，市场正在传递信息 — 如果你看看英伟达（ Nvidia ）的股票价格，并预测和推算未来的收益，你会发现市场对通用人工智能（ AGI ）非常感兴趣。另一方面，苹果的股价直到发布会后的第二天才有所变动，而在我的世界里唯一有关于苹果的新信息是 Ben Thompson 的文章。

Ben : 我觉得你这样说有点夸张了，但我会接受这个赞誉，当然。苹果股价的 “ 咆哮猫 ” （ Roaring Kitty ）是谁？那就是我。

范阳注："咆哮猫"（ Roaring Kitty ）是 Keith Gill 的网名绰号，他是一位互联网上知名的金融分析师和散户投资者，通过 YouTube 和 Reddit 等平台分享他的投资观点，尤其是在 GameStop 股票事件中引起了巨大关注。他的深入分析和大胆预测吸引了大量普通投资者的关注，并推动了GameStop 股票价格的飙升和波动。

DG : 但这可比 “咆哮猫” 要大的多，可能是 10 倍，20 倍的规模。但是，我总是想知道是什么驱动了这些动态发展。在某些方面，我觉得 AI 几乎过热了，在某些方面我又觉得它明显被低估和定价过低（ in some aspects I feel like it’s definitely mis-priced and too cheap ），我不知道市场中的这些错位是什么驱动的。我确实认为在互联网泡沫期间，你有一个电信泡沫（ telco bubble ），可能有一万亿美金的支出，和资本支出建设等等（ maybe a trillion of spend, CapEx build out ），问题是显然消费者到来的时间比市场预期的要长一些。我不认为我们这次会有这个问题，因为世界已经完全互联互通了。

范阳注：在互联网早期，上世纪 90 年代末期，互联网和相关技术的快速发展引发了大量投资者对电信基础设施的高度兴趣。大家都预期互联网将会彻底改变通信方式，所以电信公司和投资者大量投资于光纤网络、数据中心和其他电信基础设施。最终，当市场意识到这些投资无法带来预期的回报时，泡沫破裂，许多电信公司破产，投资者遭受巨大损失。这段时期也被称为互联网泡沫（ dot-com bubble ）的一部分。但是积极的一面是，过量建设的电信基础设施在泡沫破裂后被其他公司以低廉的价格购买并使用，推动了后续的互联网普及和发展。

Ben : 是啊，当苹果推出这个功能时，它会立即送达到十亿人手中。

DG : 是的，它就在那里，所以我们总是想知道究竟是什么会导致下一个里程碑阶段，或是繁荣的速度放缓。

Ben : 整个股票市场都将取决于 GPT-5 的模型质量吗？

DG ：对，有几个事件，我认为他还有一两个非常好的想法可以分享。但显然，下一代前沿系统革命如果只是能力一般般，我认为这可能会引起某种市场暂时放缓，这对一些谨慎下注的投资者来说显然是个好消息，他们会获得更好的入场价。但美国资本主义是一个奇妙的体系，它期望每季度都能得到奇迹，如果没有奇迹发生，它往往会变得非常沮丧和阴郁（ American capitalism is a wonderful system that expects to be fed miracles once a quarter and if it’s not fed a miracle, it tends to get very depressed and gloomy ）。所以有可能 GPT-5 只是一个小奇迹，或者其他类似的模型只是一个小奇迹。有可能之后的模型也只是小奇迹，这会导致市场放缓。Nat，你认为还有其他情况会导致暂时放缓吗？至少在目前的狂热方面？

NF ：我认为有两种情况很关键，我不知道是 “和” 还是 “或” 的关系。一种是，基本上模型的能力不会有足够的提升（ basically the model capabilities don’t improve enough ），我们现在正处于两代模型之间。推出新模型、新的大型预训练模型大约需要三年时间，所以我们现在处于 GPT-4 之后、GPT-5 之前的时代，在这段时间里，创新已经转向了后训练（ post-training ）阶段，我们实际上已经了解到，在后训练阶段可以做很多事情，模型能力可以大大改进。我们已经看到了多模态方面的一些进展，现在我们开始看到一些用户界面上的进展。好的，另一种情况是，如果模型能力就是无法太大提升，GPT-5 感觉就像是 GPT-4.5 的聊天机器人没什么区别，我认为这至少会让市场减少资本支出投资（ CapEx investment ）。

范阳注：模型的后训练也称为微调或调优，是在预训练之后的阶段。在这一阶段，模型会在特定的、较小的任务数据集上进行进一步训练，以便针对特定任务进行优化。例如，将预训练好的语言模型在特定领域的数据（如医学文本或法律文档）上进行后训练，使其在该领域表现更好。

DG ：为什么会这样？什么样的根本限制因素（ the fundamental constriction ）会导致这种情况发生？

NF ：嗯，我认为可能是因为三件事情。第一，我们可能达到了规模扩展的极限。我们希望在对数-对数图（ the log-log graph ）上画一条直线，但这条线开始弯曲。为什么会弯曲了呢？可能是因为我们无法从更多的数据中提取更多的智能（ we’re not able to extract more intelligence from even more data ），可能是因为我们用尽了新数据，这些数据已经超出了分布范围（ we’re running out of new data that’s out of distribution ），我们无法从每一个 token 中学习到更多东西了。也有可能是因为在这一前沿领域开展业务的参与者并不够多，而且我们已经多次看到，即使是最优秀的公司也有可能搞砸这些预训练运行，因为它们很难做好。我们知道 OpenAI 也迟迟未能获得他们想要的所有计算资源，我们知道这些集群很难保持运行，我们知道你可能会做出错误的参数选择和架构决策，所以这条线可能会因为前两三家公司各自犯下的错误而弯曲，因此 GPT-5 会让人有点失望。

Ben ：这里是否存在这样的角色，比如说，资本支出是 750 亿美元左右，而收入有几十亿美元，而且这些收入没有显示出来？这不是更有可能的情况吗？

NF ：嗯，这确实是另一种可能会放缓发展的因素。也许模型能力不断提升，但由于某种原因，它们没有转化为应用层的经济价值，所以你有一个应用程序，你是这些超大规模企业之一（ you’re one of these hyperscalers ），会想，“ 为什么我们要花 1000 亿美元在一个计算集群上，如果我们在这些产品上都不能突破五六十亿美元的收入？” 我也不知道。

我认为一个可以预警的风向标可能是微软 Copilot 的收入。我确信现在有很多公司在采用它，因为他们急于应用 AI。如果他们不喜欢这个产品，而且 Copilot 没有增长，那就很困难了。如果你看看现在谁在人工智能市场上赚钱，Nvidia 在赚钱，CoreWeave 在赚钱，Scale 在赚钱，还有几十家初创公司每年赚超过 5000 万美元，但不是 100 家，至少我不知道有 100家。所以，是的，我确实认为人工智能的进步必须转化为应用层的收入（ it has to translate to application level revenue ），但这点怎么发展我们现在还看不太清。因此，我认为这两种情况都可能会减缓投资。我认为2025 年的资本支出已经是既定的（ the 2025 CapEx is just baked in ），如果这些大公司取消他们 2025 年的订单，我会非常惊讶。

Ben ：那些资金已经流向了台积电。

NF ：基本上是的，这已经在发生了。我认为问题是 2026 年是怎么样的。如果出现一个小的冬天，可能是暂时性的，可能会有一些发展平坦的时期。

Ben ：我想在这一点上插句话。我认为你们关于这只是一个小问题的看法是错误的（ I think you guys are mistaken about this being a little thing if there is a slowdown ），如果出现放缓，其影响将非常大。我认为泡沫的含义是，在很多方面，过度修正的幅度会更大。就像 2001-2002 年的科技行业非常低迷，然后我们回顾这段时期时会说，“ 哦对，所有伟大的公司都是在那个时候建立的 ” — 它们的建立是因为工程师找不到工作，而且他们的工资很低，你可以像谷歌那样买下所有这些黑暗光纤（ dark fiber ）。这很有趣，因为我认为关于黑暗光纤的一个问题是，它之所以成为如此宝贵的资产，是因为你可以通过更新端点来改进光纤（ you could make the fiber better by updating the endpoints ），光纤就是光纤，所以这是一笔巨大的资产。最大的问题是，如果真的出现泡沫，一切都变得一团糟，所有人都破产倒闭了，我也不得不开始付钱给你们来参加我的采访，因为你们需要一份工作。

范阳注："dark fibers"（黑暗光纤）是指已经铺设好的光纤电缆，但尚未被使用的网络基础设施。谷歌在早期互联网泡沫破灭后购买了大量的黑暗光纤，因为当时因为经济下行，这些光纤的价格很低。后来，谷歌通过更新这些光纤的端点设备，使其可以传输更多的数据，从而将这些未使用的光纤变成了非常有价值的资产。也帮助谷歌以相对低廉的成本建立起强大的网络基础设施。类比于现在的人工智能领域，什么基础设施建设可能相当于当年的 “黑暗光纤” 资产呢？有可能是大规模算力集群和数据中心，高质量数据集，专用 AI 加速芯片，具身智能机器人硬件技术等等。

AI 需要开创性的用户界面和产品: 从苹果说起，深度访谈 Daniel Gross 和 Nat Friedman（3万字)

正文

请到「今天看啥」查看全文