专栏名称: Web3天空之城
美好, 有趣的, 值得铭记的
目录
相关文章推荐
创业家  ·  AI时代,给创业者的三个忠告 ·  2 天前  
创业家  ·  美图创始人蔡文胜,疯狂套现7.28亿 ·  3 天前  
51好读  ›  专栏  ›  Web3天空之城

"从DeepSeek学到了什么?" Anthropic CPO 2万字深度解密: 大模型研发路线, 中国崛起, AI和未来

Web3天空之城  · 公众号  · 科技创业 AI  · 2025-03-05 22:39

主要观点总结

Anthropic的CPO迈克在20vc播客上分享了关于人工智能未来的观点,探讨了垂直领域深耕的重要性、初创公司与传统SaaS公司的博弈、模型迭代哲学、模型差异化的三大支柱、数据与评估策略,以及用户体验与模型选择的矛盾。他还强调了AI在医疗领域的乐观前景,并提到了中国AI的崛起,特别是DeepSeek带来的启示。迈克还讨论了开发者角色的未来转变,以及AI如何增加寿命和人类的生命长度。整个访谈内容涵盖了AI的多个方面,展现了人工智能领域的竞争与未来发展。

关键观点总结

关键观点1: 垂直领域深耕的重要性

迈克认为,未来AI价值的核心在于垂直领域的深耕,拥有独特数据、行业知识或市场进入策略的企业将占据优势。

关键观点2: 初创公司与传统SaaS公司的博弈

初创公司可灵活“过度承诺”,通过早期用户测试快速迭代,但需证明AI能快速交付价值;成熟SaaS公司需平衡现有客户体验与AI升级,避免因功能不完善导致信任崩塌。

关键观点3: 模型迭代哲学

迈克建议开发者基于当前模型能力探索边界,同时积极适配下一代模型,持续迭代(而非依赖模型代际飞跃)才是成功关键。

关键观点4: 模型差异化的三大支柱

人才密度、垂直领域专注、合作伙伴关系是模型差异化的关键支柱。

关键观点5: 数据与评估策略

未来模型需结合原始人类数据与合成环境生成,同时建立更贴近人类体验的定性评估体系。

关键观点6: 用户体验与模型选择的矛盾

迈克认为当前AI产品设计存在“技术细节外露”问题,这与理想中的“无缝体验”背道而驰。

关键观点7: 医疗领域的乐观前景

迈克认为AI将大幅加速药物发现,并推动细胞级基础模型研究,最终可能突破寿命限制。

关键观点8: 中国AI的崛起

迈克指出,西方普遍低估中国团队的能力,中国在“平行创新”中展现出独特优势,尤其在计算资源充足的前提下,可能成为全球AI竞争的关键力量。

关键观点9: 开发者角色的未来转变

迈克认为,未来3-5年,开发者将从“编码者”转变为“AI工作流管理者”,重点在于任务委派、代码审查与跨学科协作。


正文

未经许可不得转载,务必保留原文出处链接和公众号按钮
点击蓝字关注⬆️公众号并设星🌟标,不错过最新内容
Web3天空之城·城主
【城主说】Anthropic的首席产品官(曾经instagram的联创)近日在20vc播客上做了一个挺有意思的访谈。 和他们那位基本塌房的CEO不同- Anthropic的CEO Dario Amodei在DeepSeek刚出来时的小丑式表现让城主再也没兴趣跟进他说啥了 - 这位Mike的访谈还是比较有营养的,特别是作为一个基础大模型的研发团队,和主持人(主持人提问得也不错)探讨了在当下充分竞争的情况下大模型研发的差异性和AI未来路径,还是挺值得一看。
特别值得一提的是,这个访谈视频在封面写的是:“What Anthropic learned from DeepSeek”(Anthropic从DeepSeek学到了什么),真是排面,也非常期待传说中的DeepSeek R2会带来什么新的震撼。
这里先和各位分享这位CPOMike的访谈全文和视频。
访谈上半部分:
访谈下半部分:
重点内容:

AI价值创造的未来方向:垂直领域与差异化竞争

  • 差异化战略 :Anthropic CPO迈克认为,未来AI价值的核心在于 垂直领域的深耕 。拥有独特数据、行业知识或市场进入策略的企业将占据优势,例如金融、法律、医疗等复杂领域。这些领域的积累需要长期投入,而非短期加速器能完成。

  • 初创公司与传统SaaS的博弈

    • 初创公司 :可灵活“过度承诺”,通过早期用户测试快速迭代,但需证明AI能快速交付价值。

    • 成熟SaaS公司 :需平衡现有客户体验与AI升级,避免因功能不完善导致信任崩塌。

      两类企业需探索“滑向冰球将去之处”的平衡点,例如通过渐进式功能升级而非激进变革。


模型迭代哲学:不完美中寻找突破

  • 不等待完美模型 :迈克建议开发者 基于当前模型能力探索边界 ,同时积极适配下一代模型。他以代码工具Cursor为例,说明持续迭代(而非依赖模型代际飞跃)才是成功关键。

  • 模型差异化的三大支柱

    • 人才密度 :吸引顶尖研究者,形成“人才孕育人才”的良性循环(如Anthropic持续吸纳学术界精英)。

    • 垂直领域专注 :例如Anthropic在编程领域的持续优化,形成技术护城河。

    • 合作伙伴关系 :超越API调用,与企业共同设计AI驱动的端到端工作流(如Claude for Work)。


数据与评估:合成数据与人类体验的融合

  • 数据策略 :未来模型需结合 原始人类数据 合成环境生成 (如Claude通过“玩宝可梦”探索多路径决策)。游戏等结构化环境是理想的训练场,但需扩展至更模糊的现实场景。

  • 评估难题 :AI的“氛围”(如对话友好度、创意能力)难以量化,需建立更贴近人类体验的定性评估体系。迈克坦言,模型升级常引发用户主观反馈(如“3.7版更简洁但创意性下降”),这对产品设计提出更高要求。


用户体验与模型选择的终极矛盾

  • 泄露的抽象层 :当前AI产品设计存在“技术细节外露”问题,用户被迫理解模型选择(如Opus、Haiku、Sonnet的区别),这与理想中的“无缝体验”背道而驰。

  • 品牌忠诚度 :消费者可能因“个性偏好”(如Claude的友好度 vs. ChatGPT的高效性)形成粘性,类似社交平台(Instagram vs. Snapchat)的差异化定位。


中国AI崛起:DeepSeek的启示与威胁

  • 被低估的中国创新 :迈克指出,西方普遍低估中国团队的尖端能力(如DeepSeek的技术突破与市场定位)。中国在“平行创新”中展现出独特优势(如微信生态、超级应用),尤其在计算资源充足的前提下,可能成为全球AI竞争的关键力量。

  • 竞争反思 :DeepSeek的快速迭代(如iOS应用上线)促使Anthropic加速第一方产品发布节奏,并更注重“新奇体验”的价值(如思维链可视化)。


AI与人类未来:开发者角色剧变与医疗革命

  • 开发者角色重塑 :未来3-5年,开发者将从“编码者”转变为“AI工作流管理者”,重点在于任务委派、代码审查与跨学科协作。工具如GitHub Copilot已预示这一趋势。

  • 医疗领域的乐观前景 :迈克认为AI将大幅加速药物发现(如诺和诺德临床试验周期从15周缩至20分钟),并推动细胞级基础模型研究,最终可能突破寿命限制。



--天空之城全文整理版--

“随着时间的推移,模型变得越来越不同,而不是越来越相似。我仍然认为我们大概还在第一天,AI是否是大多数人工作中不可或缺的一部分?我认为答案是否定的。我觉得DeepSeek那部分,大家似乎对那里有前沿研究团队感到惊讶,如果你关注的话,那部分其实不该令人惊讶。我认为我们在两件事情上投资不足。一是第一方产品的迭代速度应该更快。然后在第二部分,关于API方面... ”

[主持人]:

准备好了吗?麦克,伙计,我对此感到非常兴奋。我刚出去散步,正听着你过去一年做的每一个节目。所以我之前告诉过你,我不想从“你是如何进入科技行业的”以及所有那些常规废话开始。我想从一个非常具有挑战性的第一个问题开始,即我作为今天的风险投资者,必须确定未来的价值在哪里。我看着今天的世界,但是我不知道。所以我想问你的是,当我们展望未来,在一个以人工智能驱动的十年中,价值将在哪里产生?我认为这是一个很棒的问题。

[迈克]:

我经常从企业家那里听到这种版本的问题,他们从单纯构建初创公司, 转变为现在运营一家部分使新初创公司得以创建或帮助提升他们财富的公司。我经常收到的问题是,那么我可以构建什么,不会走进一个……一个人类实验室的领域,或者说其他类似的实验室?我没有完美的答案,因为很难有水晶球,但我感觉最终最有价值存在的地方是你能有一些差异化的市场策略, 对某个特定行业的差异化知识,或是只有你才能接触到的一些特殊数据,理想情况下,这些点最好有两个甚至三个。所以,处于金融领域、法律领域或医疗行业的公司——我指的是我接触过的医疗行业,它确实是一个非常复杂的问题。而且前期的工作并不是吸引眼球的工作,这实际上不是在加速器或者短时间内能够完成的工作。但这是你付出的努力,我认为这些地方是产生持久价值的。然后,你可以处于一个能够利用基础上的优势的位置。


[主持人]:

当说到那里的腿部工作时,我想到的是,你提到的差异化的市场进入策略和差异化的数据池或数据源,这一代新的人工智能浪潮是否惠及那些已经拥有这些并可以实施人工智能的现有垂直SaaS公司,还是惠及那些在这些领域的新创建的底层公司?哪一个更有利?

[迈克]:

这是个好问题。我认为两者都有可能。

从最高层面来看,人工智能和产品设计的很大一部分就是你必须跳这种非常微妙的舞蹈,展示未来,想象当前模型在其边界上的能力,因为你想要为他们将来的位置设计,差不多三个月后,这就是事物变化的速度。但不要过度承诺和未能兑现,因为那是一个非常破坏信任的因素。现在如果你是一家初创公司,你可以稍微过度承诺一些,因为人们正通过早期采用者来考察你。他们有更多的意愿参与。如果你是一家已有的垂直SaaS公司并且说我们添加了AI,这就困难得多。然后人们试了一下,感觉就不是那么好。或者像是,我以为我能做所有这些事情。或者你说它可以做这30件事情。它只做了其中两件事情做得还不错。我认为这两组人面临着非常非常不同的挑战。对于前者来说,你有既定的产品,你有既定的行为。你想要滑向冰球将要去的地方,同时不疏远你现有的客户。我认为我们可以深入探讨。我认为有一些好的模式可以做到这一点。在创业方面,您可能还没有数据。这就像是在获取最初的灯塔客户,或者您没有建立关系,但您对AI在特定行业或垂直领域的影响有一些假设。而您的差异化并不是建立的关系。而是描绘未来,并寻找在愿意押注于您的公司内部快速交付价值的方法。


[主持人]:

您提到有关初创公司为未来模型构建的内容。这是一个非常具有挑战性的时期,初创产品的质量在很大程度上受模型质量的影响。模型的变化可能会对初创公司的产出产生巨大的影响,无论是编码软件还是法律平台,等等。初创公司应该为我们今天所拥有的构建吗?还是应该为我们可以预测的未来构建?

[迈克]:

这是一个非常好的问题。我听过多个人的说法。

就像我的创业公司在 Claude 3.5 Sonnet 之前或者第二个 Claude 3.5 Sonnet 之前并不算是个创业公司。不过我听到许多创业者说,这个公司在这个模型突破之前并不算是一家公司,现在准确率从 95% 提升到了 99%。现在,这对于这个行业来说已经足够接近了。或者说,比如说从 70% 提升到 90%。有时候你也会遇到那种代际飞跃。

那么,如何找出这个突破点呢?有时候,创业者们在某个特定领域不断碰壁,不管是帮助人们编码,还是帮助进行法律分析,或者是,我提到的医疗保健或者其它相关领域。

而那种拼凑在一起的,可能不太准确的说法,更像是他们所做的用心版本, 这很可能涉及多个工具,要么就像价格不具竞争力,因为它需要一个 Opus 级别的模型,而这个模型不会被基础业务所支持。这仍然值得去做,因为当模型到来时,你不是从零开始。而且,通常受益于那些模型生成转变的公司,并不是那些在那一天突然开始的公司。

听起来像是 Claude3.7 Sonic 可以做到这一点。而是那些一直在努力突破的公司。我以 Cursor 为例。有人给我看了一份 Cursor 创始人们在 Hacker News 首页提交的列表。最终它有所突破。但这并不是他们的第一款产品或第一次发布。这算是一种迭代。他们一直在尝试并努力前行。我不知道确切经历了多长时间。

但这并不是模型迅速启用就能解决的。它来源于那种建立背景、积累知识、积累对这个领域中出现的问题或成功经验的理解,以便模型能够解锁你。所以我想更简洁地说,不要等待模型变得完美。要在这个领域探索。对当前模型的代际感到沮丧。然后非常积极地尝试下一个模型,这样你就会觉得终于能够实现你想要的东西。如果模型只是稍微更强大一点,你脑海中想象的东西就能实现。


[主持人]:

伙计,我得问一下。当你提到差异化的市场战略、差异化的数据,然后你说,哇,有这么多不同的发布,它们来得如此频繁。我不知道该怎么说。

如果模型层不是一个差异化的数据游戏,那它还有价值吗?这是一个差异化的市场进入策略游戏吗?你是怎么考虑这个问题的?

[迈克]:

我认为这涉及几个不同的方面。在模型层上,特别是在基础模型层上,我考虑了三个值得投资的地方,以期在市场中占有长期的地位。第一是人才。我知道很难量化,确切说人才意味着什么?人才密度意味着什么?但人才会孕育人才,你会成为一个吸引者。尤其是围绕着一个紧密的使命或关于你为何构建你所构建的东西的故事的人才。我在Anthropic绝对见过这一点,我喜欢我们的研究团队。我感觉每个月我们都会有一些新的重要聘用,可能来自于其他实验室,可能是学术界的人加入。所以,这是一个需要培养和维持的优势,因为人们显然是自由的,他们可以做自己想做的事情。所以您必须维持最初吸引人之处。但这很重要,因为要保持在前沿,需要的不仅仅是相同的东西。还需要找出正确的突破点。这是一点。

第二点是......我认为模型随着时间的推移变得越来越不同,而不是越来越相似。当然,有很多相似的基准人们正在关注。但“泥土”有它“泥土”的粗糙之处。我认为“GPT”也有其“GPT”的特性。它们各有利弊。这在角色和语气方面都是如此。但也有一些模型真正出色的地方。对我们来说,显然编程是我们追求的一个非常重要的领域,对吧。这不是偶然。这也不是我们随便说说的事情。很棒,它在编程方面表现出色。我们就继续在编程方面保持良好的表现吧。看到这种势头,看到现在有多少公司依赖Claude模型进行编程,例如,或进行自主规划,这激励了你从强化学习的角度想要做的下一代事情。所以第一个是人才。第二个是随着时间推移,你发展得更深入的某种重点和模型特征。

第三个是……当 DeepSeek 发布时,我收到了许多关于这个问题。


[主持人]:那么,DeepSeek对你意味着什么?

[迈克]:

我认为我们从技术方面学到了一些东西,只是看看他们在做什么,但是从市场进入和市场定位的角度来看,它几乎没有影响。这是因为我们与公司的关系并不是,他们注册API,他们只想以某种比例交换他们的输入Token和输出Token。实际上,是的,我想成为你们的长期AI合作伙伴,我想与您应用AI团队共同设计产品,我想和你们一起梦想大事,我想考虑的不仅是你们的API,还有Claude for Work。所以这更像是成为一家公司,我知道这听起来陈词滥调,但你们提供给人们的是AI合作伙伴关系,而不仅仅是AI模型。

我认为,越是公正,或许越好地将一切反转过来去看失败模式是什么样的。我认为这就是依赖于过往的成功,而不是留住你最优秀的人才,仅仅相信在每个基准测试中将模型逐步改进就足够了,然后把API视为一种交换金钱与智能的方式,而不去思考如何更加高效,还有更多的AI合作伙伴关系。


[主持人]:

如果你无法做到这三点,我认为你就有麻烦了。我确实想在一分钟后深入探讨编码元素。我确实必须问,当我们看待阻碍或障碍时,今天你认为最大的问题是什么?因为在这一点上,我听到不同的人有完全不同的看法,无论是亚历克斯·王还是Grok的乔纳森·罗斯。今天的障碍是什么?计算、数据、算法?

[迈克]:

使得模型训练的环境变得更加高效,使得模型能够越来越好地匹配现实世界的挑战,而不是单一的情境。我知道亚历克斯也在思考这个问题,因为我们讨论过关于代理行为评估的事情,这是一种非常特定的形式,属于我所谈论的更广泛主题。即使在软件工程领域,软件工程师的工作不仅仅是编写代码。他们需要理解需要生产什么,与他们的产品管理对应者一起制定时间表,深入理解需求,深入理解他们所构建的用户使用案例,然后以能够被测试和迭代的方式交付他们所构建的任何东西,然后如果他们构建某种面向公众的产品,用户反馈就在另一端。这很难……这没有评估标准,有趣的是,我们称最常见的软件工程工作为SWE基准,

实际上,成为一名SWE远不止于看过一个拉取请求。我生成了这个拉取请求,或者拉取这个来坚持,然后你要么接受,要么不接受。所以,构建更能够反映这种情况的环境和评估。我们在Anthropic非常关注办公室专业人士,认为这是一个未来可能会被这些模型大幅提升的用例。目前没有人真的在好好评估这个。关于研究的某些内容,我们开始在评估方面变得稍微好一些。这非常复杂,我是以最好的方式这样说的。评估就像人类的最后一次考试,非常好,乘法,多步骤推理。但还没有那种我去新工作时的感觉,我快速理解我的角色是什么,组织中的谁是谁,映射的关系是什么,如果我需要,有哪里可以找到额外的信息,然后处于业务运作的那种循环中。那是一个很难捕捉的环境。所以对我来说,弄清楚我们如何更好地将其分解成组成部分,这可能是故事的一部分,但也从整体上考虑这是至少一个进展的最大阻碍。那就是模型如何从在极端领域中极为出色,转变为更普遍的有帮助的合作者。


[主持人]:

在我们深入探讨这些专业产品之前。在数据方面,我最近邀请了来自McCaw的Adarsh。他显然筹集了那轮巨额资金。但我问了他一个问题,我很想听听你的想法。就是当我们展望模型中的数据未来时,是否会有更多合成数据相互叠加?还是人类数据将继续成为驱动模型进步的主要数据来源?你对此怎么看?

[迈克]:

我认为为了使模型改进,你确实需要一个关于如何用原始人类数据来播种的故事。但是之后可以生成所有这些合成环境,以便其能够进行路径探索和探索。Claude这周一直在玩宝可梦,玩得很开心。这对我们的研究和工程团队来说,是一个好的但有点搞笑的分心。我在想,大家都在做什么?他们说,我们正在观看Claude玩宝可梦的直播。但我认为游戏是一个有趣的例子,你可以想象在某些约束和规则下,通过同一个游戏的许多不同的方式。

当问题空间不如“你是否成功走出了维里迪安森林?”那样明确定义时,这变得更加困难。我从未玩过宝可梦,我只是通过观看这个直播在学习。但能够走一些黄金路径仍然很重要,但也要通过它综合多种方法,这样你仍然可以考虑在不确定性面前模型如何进步。所以我认为这绝对必须是一个混合。我认为最好的模型将来自于这种优秀代码的结合,拥有良好的代码基础理解和良好的示例,但同时也能够探索通过这些的多种路径。

另一个我认为仍然被低估的部分是如何进行测量和评估?如何获取角色的数据?我将使用一个非常宽泛的词,那就是氛围,就像是什么,使用模型的感觉究竟是什么?我们真正不知道,直到我们坐下来玩一玩,这在某种程度上是它的一个好特性,因为这意味着它几乎有一个非常定性的、类似人类的方面。

但这也意味着你没有良好的回归测试。有时我们会从3.5升级到3.7,而人们就会说,这不好。人们会说,Claude似乎更友好,但更简洁,或者Claude似乎更愿意回答我的问题,但我希望它在创意写作方面更好。这些东西不容易评估,这涉及到数据的问题。所以我认为能够围绕这些更柔软的技能拥有数据是重要的,同时也需要对它们进行评估。


[主持人]:

你知道我觉得奇怪什么吗?我觉得很奇怪我们能够选择模型。你可能会说,当然,因为它们之间有专业化。但我认为,当你把自己放在三到五年后展望时,你将不会选择使用哪个模型,就像选择你使用哪个谷歌一样。我是完全错误的,还是完全没理解要点?

[迈克]:

不,我有一个我很喜欢的概念,我的背景是人机交互。你可能听过“泄露抽象”(leaky abstractions)这个术语,我想,这对于软件开发者来说,我们努力做到完美,尽可能完美地进行整合。我们试图将所有复杂性封装在某种小外壳下,然后用户不应该考虑这些事情。而现实是,目前大多数人工智能产品设计的状态是极其泄露的抽象。

选择模型的过程中,为什么要在 Opus、Haiku 和 Sonnet 之间进行选择?大多数人根本不理解其中的区别,或者,如果你去开放 AI 下拉选择器,在那里有很多模型。而且每一个模型都有存在的充分理由。然而,总体体验是,为什么我会选择其中一个而不是另一个?这里的功能可用,但那里不可用。我是说,我们也面临这个问题。所以模型选择。第二个是我们只是理解这些模型是如何构建的。他们建立上下文。他们有回合。每个回合实际上都有完整的上下文被重现。这使得它能够做出下一个推断。这导致了每次聊天都是不同的体验。我总是想,当你与同事交谈时,可能会有不同的电子邮件线程,但背后仍然是同一个同事。如果你提到他们最喜欢的运动队,或者提到你们一起合作的项目。这就不是说,我不知道你在说什么,或者我得去回忆一下。这就像是一个共同的基础。这就像是另一个。这强迫人们去理解我觉得不应该让人需要去理解的模型。最后一个是提示,尽管事情已经发展了很多,我们也做了大量的工作,比如我们如何将简单的人类提示转换为一些非常模型导向的提示。我希望让这一切对人们完全透明,这不是他们在参与的内容。如果模型对问题缺乏清晰度或需要更好地理解,那么它就会参与对话,而不是区分一个非常优秀的提示者和一个不那么优秀的提示者之间的差异。现在这种差距在一代代之间在缩小,但我觉得我们需要进一步缩小它。


[主持人]:

你如何看待模型质量与用户体验中的产品之间的关系?而且,我们如何优先考虑并思考这两者及其之间的关系?

[迈克]:

你不能再将两者分开了。我认为要成为一名用户体验设计师,我在我们的通话之前刚刚参加了一个产品评审。我当时在想 Instagram 的产品设计会议。那是,像素,一些合成数据或许是真实数据。我们把我的动态信息提取出来,然后格式化成我们所提出的这个用户体验。但那里并没有太多的非确定性。你会把它发布到世界上,也许人们会以某种方式使用它。

但是今天的设计师、产品经理和工程师必须思考,他们实际上在做的是设计一个围绕一个根本上非确定性系统的脚手架和产品,这意味着评估、模型质量、提示,在后端,都是产品设计的一部分,这将有直接的影响。所以一个例子是你可以提示云问后续问题或不问,而这在产品的某一部分可能是你想要的,但在产品的另一部分却不想要。对。你可能提示云,想要花更多时间思考一个问题,进行更多推理,也可能不这样做。再次,这些都是你在产品设计初期做出的决策,它们将在实际产品中表现出来。然后我们之前谈到的另一个部分,作为一个初创公司的创始人,作为一个可能在做经典的B2B SaaS的人,你需要找出模型的交互点,了解它们的走向,用户的需求是什么。这在你的产品设计中也会是一个关键点。希望在前期进行评估,以查看你所做的是否在汽车模型中是可行的,或者至少保持对它们可能存在的位置的关注。但是模型会随着时间的推移而变化,产品也会随着时间的推移而变化。如果你没有良好的评估框架,甚至没有回归测试这些评估,你可能会推出一个产品,三个月后,人们会说,这个产品曾经很好,但发生了一些事情,现在不再满足那个目的了。你就会想,但我不确定这三件事情中哪一件发生了变化。是模型吗?是产品设计吗?是引入了不同的功能吗?系统提示变得更长了。无论如何,这都是我做过的最复杂的产品开发工作。


[主持人]:

我在伦敦采访了来自OpenAI的Sam,他说作为一家初创公司,他们所拥有的乐趣之一就是可以更快地发布东西,并且不需要完美。而实际上,挑战在于,随着公司的壮大,每一次发布都承受着越来越多的重压和责任。你对此怎么看?发布不需要完美。让用户尽早使用它。与现在相比,人类的角度来看?这是一家拥有数百万用户的庞大公司。确实如此。作为产品负责人,你对此有何看法?

[迈克]:

我对此考虑很多。特别是因为你有不同的环境和不同的受众,他们对稳定性的期望各不相同或者对处于前沿的渴望各不相同。

因此,在一个API产品中,人们重视可预测性和稳定性,并选择一些更面向未来的功能。这可以是一个非常自愿的事情。我记得我们推出了提示缓存,这对人们来说是一个很大的成本节省,但最初我们是通过一个需要自愿参与的测试版标头来实现的。我们在API上的很多工作都是以这种形式进行的。

如果你对我们面向客户的产品,比如我们的消费者产品,做这样的事情,那就真的很无聊,让人们选择参与,或者你实际上希望能够以一种迭代方式发布,并与大家进行实验。而且,你不必完全打破他们的体验,但你会有更多的许可。然后我们有所有这些在企业中使用云工作平台的企业客户。现在,我认为在企业中采用人工智能仍然存在。这仍然是一个企业中的早期采用产品。所以你可以做得比,更简单一些。如果我不知道Salesforce一年发布多少次,但我知道很多这些公司大概有两次,对吧,或者三次。通常是围绕一些他们可以举行的大型事件展开。而我们距离那个目标还很远。我们的推出速度依然很快,但坦白说,我们仍在寻找一个平衡,是每月发布一次吗?是的,您尽可能频繁地发布,但每种类型的功能都有管理员的选择加入。这也增加了复杂性。所以这是个很好的问题。我会说这是一个活跃的讨论话题。我们能多原始或多快速地发布产品,因为我们想要向世界推出东西,而你不知道它们会怎样被接受,你想要学习。但随着你的名声的积累,或者说人们开始依赖于你的工作流程,你不能完全任性地对待这件事。


[主持人]:

我们是在经历一个产品营销的噩梦吗?我所指的是,我们本周有DeepSeek发布某个产品。我们本周有OpenAI发布某个产品。我们本周有Anthropic发布某个产品。我们有Mistrial在10天前发布某个东西。每一天都有新的发布,世界可能对此变得冷漠。你对此怎么看?这如何影响你对产品发布、信息传达的思考?

[迈克]:

是的,这比Instagram复杂得多。你必须关注的大石头是提前非常明确的。不要在WWDC周期间发布任何产品。那将会是一场即将到来的发布潮,随着9月份的到来,像iOS活动,可能还有其他的大石头,比如假期。从产品营销的角度来看,这要简单得多。

在这里,它让我有点想起跨越马路。你好的,车子开过去了,好吧,车子里有个空档。像是,明天发布,或者现在可以了。但,现在我们听说有个传闻,这就难多了。

我也从其他实验室的人那里听说过,每个人都在试图解读形势,并想,好的,有人吗,安静吗?好吧,现在可以发射了吗?我觉得我们可以下周二进行。所以,这要困难得多。走!走!走!你知道吗?这需要完全不同的方法。

我必须赞扬我们的产品营销团队,因为他们不得不从一个我们…的点进行调整。Claude37 Sonnet,我们周一发布,而我们在那个星期天晚上9点锁定了博客文章。这从营销的角度来看并不是最佳实践,你知道吗?我们在星期天那天对媒体进行了简报。感谢那些在星期天和我们通话的人,但那有点...对。但那就是…一切准备就绪,锁定的时刻,我们可以...我们可以出发。所以,这确实涉及到快速反应和灵活应变的能力。

我是说,即使是像...当我们发布一个模型时,有一个模型卡,还有评估和比较表。在那个比较表中有一些是在一周之前发布的东西,像Grok 3就是在一周之前发布的。


[主持人]:

所以,这涉及到一个完全不同的...当那些被发布时会发生什么?当Grok 3发布时,开玩笑归开玩笑,像是,Anthropic和OpenAI的每个人都会因此感到震惊吗?哇,糟糕。他们又击败我们了。或者是,哇,糟糕。我们赢了。是的。

[迈克]:

我认为我试图做的事情之一,为了支持团队,就是提醒大家,模型发布会发生。无论何时,情况都会结束,然后我们又回来了。这是一个循环,你必须在人工智能中经历这个过程。你不能因为一次发布而过于沮丧,因为这确实是不可避免的。

有时候你运气不错,可能有两到三个月,你发布的模型或产品在你真正关心的所有方面仍然是最先进的。有时候只持续一周。你不能在这两者之间过度摇摆,不能满足于已获得的成就,不能停留在上面。

我认为真正有用的事情是,这是我几乎在每次销售电话中展示的图表,描绘了从Anthropic成立到我们今天的里程碑。在任何给定的时刻,你都可以说,Claude2落后太多了,Claude3是技术前沿,然后,不,它并不是。你必须关注轨迹,并相信你会继续取得改进,这是第一位的。

然后第二,提醒自己,如果每个人都因为评估的变化而每天更换,作为软件提供商,这对用户基础来说将是疯狂的事情。但其次,这会让行业变得更加疯狂。随着时间的推移,你会开始了解到人们不仅仅是在部署模型,他们正在进行微调,或者他们正在部署模型,此外,他们为使该模型适合该使用案例做了很多定制化的工作。这不是一个会一夜之间改变的事情。

或者你是在模型选择器中的三到四个选项之一,比如说,在编码环境中。所以,你仍然在其中,仍然有机会。但这确实需要...我不确定这是否像是找到冥想时的拉远角度,或者只是习惯于两者某种组合的颠簸旅程。但可以肯定的是,每当有模型发布时,我想每一个实验室都在观看发布直播,查看评估,心里想着,要么是松了一口气,要么就是,好吧,现在我们有工作要做了。


[主持人]:

我认为品牌是最重要的事情。说到这一点,人们并不是每天都在切换。他们有点像是“我是Claude的人”,或者“我是ChatGPT的人”。他们已经在某种程度上认同了自己的模型。

你同意这个陈述吗,还是认为这太肤浅了?

[迈克]:

我不同意。我认为这是正确的。我认为特别是在消费者方面,我刚刚在阅读Ben Thompson的内容,他那里经常有Nat Friedman和Daniel Gross。他们在谈论有些人是Claude的人,有些人是ChatGPT的人。我认为这确实发生过,你喜欢个性,喜欢界面设计,喜欢氛围。再说一次,这让我想起多年来我们与Snapchat和Instagram之间有过有趣的互动。然后甚至在那之前,人们会推出一种类似 Instagram 的新产品, 但仅针对超级高端摄影师,或者加上一些额外的特色,或者每天只发布一张照片,这就是 Be Real。

我有这个所谓的假公式。我显然不是数学家,但可以说,社交网络是由格式、产品、受众和氛围构成的。对于 Instagram,我们有故事,我们有动态,最终我们还有视频。受众,最初是有点嘻哈风格的摄影师,最终发展成为任何对视觉媒体真正感兴趣的人。故事讲述或视觉媒体。但即使我们与 Snapchat 甚至 Facebook 有更多的产品相似之处,Instagram 的氛围依然是非常不同的。

我不知道那个用来制造AI产品的假公式是什么,但我认为它可能是某种形式,其中模型个性可能是其中之一。产品的支架规定性也可能是一个方面。然后还有气氛。我不知道。


[主持人]:

再次强调,这很难量化,但确实存在。当我们有如此多不同的模型和不同的提供者时,开源是一条非常可行的可能路径。蒸馏在某种程度上被认为是不光彩的。如果它最终推动了领域的发展,蒸馏真的错吗?

[迈克]:

即使在实验室内部,我假设每一个实验室都在相互交织。能够取用你最高端模型的知识并将其提升至更高质量是非常有价值的。延迟更低,价格更实惠,等等。所以整体上是这样的循环,等等。我认为值得关注的地方有两个,一是我们是否希望任何国家能够从其他国家提取模型?我个人的回答是“不”。

我认为,即使在人工智能获得更多能力的情况下,从国家安全的角度审慎对待这一点是很有价值的。另外一点是,这些进步需要以它们正在发生的速度持续下去,并在长期内保持可持续性。你确实需要实验室能商业化所有这些培训和创新,等等。我认为找到适合长期的正确模型是重要的。我认为开源模型,比如说Llama,例如,他们已经能够从他们自己的研究、视角、数据摄取和训练中做到这一点。所以我想我会说,蒸馏似乎并不是解锁这些东西的必要条件,并且会带来其他问题。即使从服务条款的角度来看,都是如此。


[主持人]:

Llama是否表明模型没有价值,所有的价值都在数据中?如果Facebook愿意免费提供,因为他们知道没有人能复制他们拥有的数据,这是否表明了这一点?

[迈克]:

我认为这是个有趣的问题,比如Llama的质量是否因为他们可以, 我不知道他们是否说过他们能这样做,但他们显然可以在Instagram、Facebook等数据上进行训练。还是Gemini在能够在YouTube上进行训练方面更好?我实际上认为,Gemini从中受益是显而易见的。就像每当他们有一个好的视频理解演示时,我就会想,好吧, 有人可能拥有世界上最大的视频库,并且可能可以在许多这些片段上进行训练。在Facebook方面则不太清楚。我从来没有听过人们说,天哪,你知道Llama做得非常好的是生成适合社交媒体的优质内容。这似乎就是一个不错的通用模型。所以实际上我会回到我们的对话中的价值。之前,价值完全在于你的团队有多优秀?你是否拥有进行此工作的基础数据?但是你的模型在实际用例中有多有用呢?这就是最高层次的需求。我几乎希望我一开始就从这个方面入手,因为除了评估,评估在爬山和内部研究中真的很有用。但他们没有讲述这样一个故事,即这个模型是否能够在它需要优秀的领域中表现出色,或者被部署在这些领域中?或者即使它在那方面表现出色,它是否仅在非常狭窄的情境中表现出色?或者作为一名企业家,在实验室之外,是否可以依靠这个模型作为你在那个产品中的代表?

所以,我认为实验室、团队的价值在于模型能够在现实世界中真正执行正确的行动,而不带有太多的非确定性,从而变得不可靠。


[主持人]:

我对此要问一个问题。这不是一个陷阱,但我和亚历克斯谈过。我在节目中与王谈过这个。

我在节目中看到了一次泳池旁的讨论。他们说我们严重低估了中国在人工智能方面的能力。你同意我们低估了这一点吗?

[迈克]:

是的,我认为人们似乎对DeepSeek的部分感到惊讶,因为那里有一些尖端的研究团队。

如果你在关注的话,那部分应该不是令人惊讶的内容。我们看到Instagram在中国很早就被封锁了。

然后我们看到了某种创业公司的平行世界的出现。如果你取下Facebook和Instagram,发生了什么,以及在那些产品中出现的东西通常是非常高质量的。他们喜欢表现出大量的创造性思维,并且他们在规模上被构建出来,以便解决问题。

人们喜欢谈论超级应用和微信。而且在规模上,解决的某些技术挑战与Facebook面临的挑战是同等规模的。所以这绝对会。低估或继续低估中国在前沿领域的培训能力是一个错误, 特别是如果他们获得计算能力的访问权限,然后继续在那里进行创新。所以我认为这是一种相当以西方为中心的观点,我确实在传统软件领域看到了这种情况。

我在想,可能它就陷入了这种,90年代, 2000年代初的观点,他们所做的只是复制其他地方已经有效的东西。有些产品我认为是借此机会而生。我认为这是一种差异化的观点,并且在中国市场内部发展。

然后有时将其变得非常外部化。TikTok在这方面是一个有趣的例子。


[主持人]:

在我们进入下一部分之前的最后一个问题。DeepSeek是否让你重新思考或改变你进展的方式?

[迈克]:

有一些架构方面的内容,我不会替研究团队发言, 因为他们是,他们绝对是专家,他们会说,这很有趣。

这值得我们考虑或者一些曾被考虑过的想法,也许值得重新评估。所以我认为这是有的。那个部分也是。

主持人:这很有趣。

[迈克]:

我们的计划是在推出推理模型时展示思维链。所以这不是重新考虑,而是看到其他人这样做可能很有趣。而且里面有一些用户界面的细节。我认为Grok现在在他们的产品上也做了类似的事情。所以很想看看这如何演变到你的提炼问题上。这可能是更多实验室选择不展示或以其他方式模糊思维链的原因。另一个部分,从个人的角度来看。从产品的角度来看,有两个。我认为这是DeepSeek中被谈论得不够的部分。我认为他们能够从无人知晓到在许多圈子里,其实比Claude更有名。


[主持人]:

对。像GrayDot找我关于DeepSeek的事情。我不是在开玩笑。这就像一个陈词滥调。它真的发生了。我收到了一个问题,问我对DeepSeek的看法。我说,太好了。它已经突破了。你觉得他们做了什么来突破,可能是Claude没有做到的?

[迈克]:

我认为有很多兴趣。当然,现在世界政治上像有这样的叙事,这个要便宜得多,不管那是否完全正确,或者说他们能够弄明白什么。这就是,它的故事。说实话,我也与我们的市场团队进行了这样的讨论。我觉得我们在外部对Claude的故事讲得还不够好,尤其是关于我们训练的模型在前沿的状态,以及与其他团队相比,我们的团队要小得多,小得多,小得多。我认为我们在训练时一直都很有效率,利用我们的计算资源。所以我不知道。我觉得,不管这是他们自己讲的故事,还是媒体替他们讲的,因为这确实是一个非常引人注目的故事。这个时刻的独特性是一个很重要的部分。我认为特别是像一月,新的总统任期,中美关系,这些都真的很好地契合了这个时刻。所以我觉得那样很好。第二部分关于产品。他们从没有产品到有了一个实际上包含许多好细节的iOS应用。对我来说,这就像是一个好的推动,我本来想说是轻推,但其实比那更强烈。

我们需要更快地将一些想法推向市场,而不是过多地关注每种情况所需要的完善,而是愿意将其推出并学习。因为有时候体验的新奇本身就是有价值的。这是大多数人第一次体验这种现场体验,也是大多数人第一次体验这种现场思维链。这很有趣,我希望我们能更早做到这一点,因为这对人们来说会是一次新奇的体验。他们已经在某种程度上被认可,可以生成那种持续的留存模式。我想到了我们正在进行的这些以人工智能为首的实验项目,但这是一种智能的术语。你会说,我们需要得到那个,停止这个,我们需要有那个上层的顶端。这真的让我感到谦卑,同时也很鼓舞人心。这有点像,你对这个领域的感觉如何?对我来说,基于我对生活和其他事物的见解的专业情感,并不会使他们成功。但是,谁不赞赏呢,对我而言。权力将来自于谁能够在那里可持续地做到这一点,并且拥有正确的产品设计、正确的整合以及正确的部署方式,才能真正取得成功。我关注的两个主要标准是,因为我们团队在Anthropic是很庞大的,我认为我们已经超过了千人,而我们的产品团队可能只有其中的十分之一。按照Instagram第二年的标准,算是非常庞大,但对于大型SaaS公司来说,又是非常小的,我们在这两者之间的某个地方。而且我们正在支持,比如说,你现在有Claude Code,我们有API,我们有Claude AI,我们有Claude for Work,所以它是在很多不同的表面上。所以我认为通用性真的很重要。


[主持人]:

当你观察使用情况时,你会看到新兴市场的使用保持不变,而西方市场几乎没有。你认为他们作为持续可信的威胁如何?还有谁可以构建这些产品,这就像是我作为投资者常常问的一个大问题,即模型提供者何时转变为应用提供者?我非常感兴趣您的想法,什么样的吸引力足够让您投入资源去成为一个应用提供者,而不仅仅是一个支持模型的提供者。

[迈克]:

即使我们选择一个角色或一个垂直领域去追求,我们都会构建一些通用的东西,可能在用户级别上有一些专业化,但我不预期我们会构建很多垂直化的体验,这些体验是相当定制化的,适用于特定的工作流或用例。

[主持人]:

但我想到的是翻译、转录、客户服务,这些都是相当横向的、基于文本的同质化内容,这似乎正好在正确的道路上。 这实际上让我感到困惑。

[迈克]:

我认为这样做除了一个事实之外也有效,我觉得有很多有价值的工作流,很多工作流知识意味着你可以随着时间的推移保持一个有差异化的产品。比如,如果你是一个重度用户。

[主持人]:

没错。 如果你不是一个翻译者,而是你的妈妈,她可能一个月只用一次,处理她需要的那个奇怪的事情。

[迈克]:

我认为,我们可以帮助你翻译这个,从一个,个人用户的角度来看,我们会让你支付10美元的月订阅,这感觉有点可疑,因为我认为这些模型在这方面已经相当不错了。 也许你是对的,确实没有,如果你使用Elven的控制台和工作台,很多他们构建的功能显然是针对那些翻译小时或用可靠的声音处理整条工作流的内容的人的。 Descript,我认为Descript是AI中一些最好的产品设计,他们显然在工作流程中投入了很多时间。 如果我必须用它一次,比如说个人播客,那时我觉得,这显然是由那些每天都在这个工作流程中坐着并理解它的人建造的。 所以是的,我觉得我们可能在观点上达成了一些共识,那就是在更专业的用例中是有价值的。 以及由此解锁的工作流程。 我认为在消费者甚至专业消费者方面,从基本的人工智能产品角度来看,它已经足够好了。


[主持人]:

当你看看你今天所擅长的事情,你在代码方面做得如此出色,有没有一个路线图来放入你自己的身份,代码代理? 你是怎么想的?

[迈克]:

再次从产品聚焦的角度,我认为我们必须谨慎选择我们的赌注。 即使是在构建上,我们也构建了刚刚发布的 Claude Code。

作为一种内部的命令行代理编码工具,最初是为了加速我们自己的团队。看到它运行了几个月后,我们觉得这很好。这并不是所有编码问题的解决方案,也不能取代IDE,但在足够多的情况下对我们来说足够有用,以至于我们希望看到人们在现实世界中使用它。所以发布从来都不是免费的,必须给它起个外部的名字。我们得找到合适的包装。有一个市场推广的部分。所以我们小心地去做。

我认为我对当前模型的看法是,你仍然需要动手操作和交流,嘿,我做了这个。对。那我们就朝这个方向继续下去。是的。这太好了。让我们提交一个拉取请求。不,我们走了一条假路。让我们在概念上解开栈,然后,也许是一个实际的用法,然后,继续前进。这就是为什么我认为这种介于IDE和全面的认知开发之间的角色是有意义的,可以在某些任务类别中使用全部任务的完全委托。

我们的产品工程师喜欢Claude Code,因为很多产品工程都是,好的,我们必须更新后端。我们必须创建前端。我们必须将这些东西提交进行翻译。我们要这仍然不起作用。让我来做这个。而正是这种从头到尾构建产品的工作流程与能够在很多不同事物上客观运行的功能相结合,有很好的效果。

我上周做了两个拉取请求。自从加入Anthropic以来我没有写过代码,这让我感到难过。所以我终于使用了Claude Code。我之前没有打开过我们的代码库,所以我真的不知道它是如何结构的,但Claude Code非常擅长找到包含正确片段的文件,然后进行编辑。显然,并不是每个人都处于我现在的情况,但对于那些用例来说,这真的很有价值。

所以当我考虑编码领域以及我们可以在哪些方面发挥作用并增加价值时,确实是在代理方面,而不是在IDE方面。还有其他公司花费时间,就像他们早上醒来,晚上上床时,每晚都在思考如何构建一个优秀的IDE?这涉及到低延迟自动完成功能,涉及到正确的集成、弄清楚如何与VS代码插件生态系统进行互动以及所有这些复杂性。

那里有很多有价值的工作,与我们正在做的有所不同。我认为我们真的可以在这个智能循环中与这些模型进行对话,并与它们进行真实的工作,但要认识到,它们还没有达到许多用例可以让它们自由运行几个小时的程度。你需要更多那种人在循环中的那部分。


[主持人]:

你与Cursor、Codium、StatBlitz合作并提供支持。我想问你,当你直言不讳地说这是你加入Anthropic以来第一次编程,以及我们看到的开发者行为的变化时,你认为在三到五年后,软件开发者的角色会是什么样的?

[迈克]:

是的。我认为它已经开始看起来有所不同。我是GitHub Copilot的早期支持者之一。我记得我的引用曾经出现在首页上。我不知道现在是否仍然如此。因为我看到了潜力,然后甚至在它之前就发布了GPT-4,他们有了多模态,而我试图用它进行Swift开发。我会画出我试图为artifact构建的屏幕的ASCII艺术,然后去泡咖啡。因为那时它非常慢,我回来时它已经有了大约80%的版本。显然现在它会是95%到99%的版本。我认为变得重要的技能之一,我觉得它变得多元化。我在寻找什么?像是跨学科的,知道该做什么。第二个方面是代码审查真的改变了,当你突然间主要是在评估AI生成的代码时。我甚至经历过这种情况。我提交了一个拉取请求,回来的评论中有一些是,“是的,Claude Code有时会这样做。”像我们在这种情况下其实并不使用默认参数。我当时想,好吧,见鬼。这让我有些不好意思。如果我是编码者,可能会更好地注意到那些模式。所以这有两个方面需要发生。一方面,模型和模型的基础设施需要更好地从代码库和代码审核中学习,以便能生成对该公司而言自然的代码。但另一方面,我们如何从主要编写代码转变为主要将工作委派给模型和代码审阅者?我觉得三年后的工作就是这样的。这需要提出正确的想法,进行恰当的用户交互设计,搞清楚如何正确地委派工作,然后弄清楚如何大规模地审查东西。







请到「今天看啥」查看全文