专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

Anthropic 大转向：不再只做模型！押注一方应用，决胜 AI 下半场 | CPO Krieger 20VC揭秘战略新重心

Dots机构投资者社区 · 公众号 · · 2025-03-05 08:15

正文

点击⬇️ 图标关注抓住你的灵感💡瞬间

“ 作为一名身处AI浪潮之中的从业者，我强烈推荐 Harry Stebbings 在 20VC 播客上对 Mike Krieger 的这期访谈《Where Will Value Be Created in an AI World?》。Krieger 不仅透露了不少Anthropic 的产品战略思考，也为创业公司如何在在 AI 驱动的世界中挖掘价值真正蕴藏的地方提供真知灼见。 ”

AILin师傅昨天一直在测试Claude 3.7 sonnet 的应用，确实强得可拍。如果你也打算在模型生态上做一些应用。我还有个小建议，你还可以结合张小珺Jùn|商业访谈录最新一期《95.对肖弘的3小时访谈：世界不是线性外推，做博弈中的重要变量》，一起服用。

相信你将拥有模型厂商和应用层创业者的双重视角，助你在快速变化的AI市场找到自己的生态位。

下面是 Mike Krieger 的这期访谈《Where Will Value Be Created in an AI World?》的takeways：

Anthropic 的目标不仅仅是成为一个 “模型提供商” ，而是成为客户的 “AI 合作伙伴”。 目标是构建更深度、更长期的合作关系，而非 API 的 “tokens in tokens out” 交易。
重视第一方应用 (First-Party Product) 的价值：加速学习、品牌建设、构建持久护城河。 Anthropic 认识到 “first-party products” (第一方应用) 对于 AI 公司的战略价值，并开始加大投入。这不仅仅是为了增加收入来源，更是为了加速学习、提升模型能力、建立品牌忠诚度、以及构建更强的竞争护城河。
“ Day One” 心态与长期主义：AI 仍处早期，长期价值创造远大于短期竞争。 Krieger 反复强调 “we are in like day one around is AI an indispensable part of most people's work” (我们仍然处在 AI 成为大多数人工作中不可或缺的一部分的 “第一天”)。
平衡 “生猛” 创新与稳健可靠：在快速迭代与用户信任之间寻求微妙平衡。 不同于一些初创公司可以更激进地追求快速发布和 “move fast and break things” 的策略，也不同于大型企业过于保守和缓慢的发布节奏， Anthropic 试图在两者之间找到微妙的平衡点。探索 “opt-in” 机制等灵活的发布方式，以适应不同用户群体的需求。
聚焦 “Agentic Workflow” 自动化： Claude Code 的核心价值在于提升开发流程效率 ，而非取代 IDE。他们更关注 AI 在代码理解、文件查找、代码编辑、任务委托、自动化测试、翻译等方面的应用，这些都是软件开发流程中耗时且重复的任务。
模型身份认同崛起：AI 模型正超越单纯的功能性 ，通过独特的个性 (Personality)、用户体验脚手架 (UX Scaffolding) 和氛围感 (Vibes) 构建品牌般的身份认同，塑造用户连接与选择的新格局。
AI的 “智能引导者” 形态： AI 将超越 “工具” 或 “助手” 的局限 ，突破优秀的提示词工程的限制，进化为 “智能引导者”，主动洞察用户需求，指引方向，辅助决策，成为用户达成最重要目标的关键伙伴。

那我们开始欣赏这期AILin师傅精心编译的万字访谈稿吧！

基础模型今天已经商品化了吗？

主持人： Mike，兄弟，很高兴你能来参加节目。我刚刚散步的时候，把你在过去一年里做的所有节目都听了一遍。就像我之前跟你说的那样，我不想用“你是怎么入行的？”这种老套的问题开场。

主持人： 我想以一个非常有挑战性的问题开始：作为一名风险投资人，我今天必须判断未来的价值在哪里。但坦率地说，环顾当今世界，我真的不确定。所以我想问您的是， 展望未来，在接下来这十年由AI驱动的时代里，价值将在哪里产生？ 这绝对是个好问题，我经常从创业者那里听到各种不同版本的这个问题。他们从纯粹的创业者，到现在经营一家在某种程度上赋能新创公司的企业，或者帮助他们发展壮大。他们经常问我：“我能构建什么，才不会与Anthropic或类似的大型实验室直接竞争？”

Mike Krieger： 我没有完美的答案，因为这有点像是在预测未来。但我感觉， 最有价值的领域将是那些你拥有差异化市场策略（GTM）、对特定行业或特殊数据具有独特知识的地方 ——理想情况下，最好能同时具备两到三个这样的优势。例如，金融、法律或医疗保健领域的公司。特别是医疗保健，我接触之后发现它极其复杂，就像一团乱麻。前期工作并不性感，也不是在加速器或短时间内就能完成的。但正是这些前期积累和基础工作，才能在这些领域产生持久的价值。然后，你可以利用基础模型的优势，根据需要进行微调或进行AI优化。但真正能让你立足长远、保持竞争力的，是在这些领域销售的能力，是对这些领域的独特理解，以及随着时间的推移，在这些领域不断改进的能力。

创业公司应该为当今的模型构建还是为未来的模型构建

主持人： 你提到“前期积累”，还谈到差异化的GTM和数据源。那么， 下一代AI浪潮，更有利于那些已经拥有这些优势，并能应用AI的现有垂直SaaS公司呢？还是更有利于那些在这些领域从零开始创建的新公司？ 哪种情况更多？

Mike Krieger： 这是个很好的问题。我认为两者都有机会。从更高的层面来说， AI和产品设计的关键在于，你必须在展示未来愿景和利用模型当前能力之间，保持微妙的平衡。 因为你需要为三个月后的模型能力进行设计，现在的技术发展速度太快了。但同时，又不能过度承诺而交付不足，因为这会严重破坏信任。如果你是一家初创公司，你可以稍微多做一些“过度承诺”，因为早期用户和尝鲜者更愿意尝试，容忍度也更高。但如果你是一家现有的垂直SaaS公司，你说“我们增加了AI功能”，用户试用后却发现“没那么好”，或者觉得“它应该能做更多事情”，或者“你说能做30件事，结果只能做两件”，那就很糟糕了。我认为这两类公司面临着非常不同的挑战。对于前者（现有SaaS公司），你已经有成熟的产品和用户习惯，你需要预判趋势，但又不能疏远现有客户。我认为我们可以深入探讨一下，有一些好的模式可以做到这一点。对于初创公司来说，你可能还没有数据，或者正在争取最初的标杆客户。你的差异化不在于已建立的关系，而在于描绘未来愿景，并找到快速交付价值的方法，让那些愿意在你身上下注的公司看到希望。

主持人： 你刚才提到了初创公司要“为未来的模型构建产品”。现在这个时期非常具有挑战性，因为初创产品的质量很大程度上取决于模型的质量。模型的任何变化都可能对初创公司的产出产生巨大影响，无论是代码软件还是法律平台等等。那么， 初创公司应该基于今天的模型来构建，还是应该基于我们对未来模型的预测来构建？

Mike Krieger： 这真是个好问题。我从很多人那里听到， 他们的创业公司直到Claude 3.5 Sonnet或类似的突破性模型出现才真正起飞。 一些创业者告诉我，在某个模型取得突破之前，他们的公司根本算不上公司。比如，模型的准确率从95%提高到99%，对某些行业来说，这就足够接近完美了；或者从70%提高到90%，这种代际飞跃非常关键。那么，如何判断何时会出现这种飞跃呢？有些创业者在特定领域碰壁多年，无论是在帮助人们编写代码、进行法律分析，还是在医疗保健等领域。他们可能拼凑（我用“拼凑”可能有点轻描淡写了，应该说是精心组装）了一套方案，其中可能涉及多种工具。但这套方案要么价格上没有竞争力，因为它需要使用Opus级别的高端模型，而这又无法得到底层业务的支持。

但即使如此，这些努力仍然是有价值的，因为当更强大的模型出现时，你就不是从零开始了。 通常，那些从模型代际升级中获益的公司，并不是那些在模型发布当天才突然起步的公司，而是那些一直在该领域深耕的公司。 以Cursor为例，有人给我展示了Cursor创始人在Hacker News上提交的帖子列表，他们最终取得了突破，但这并非他们的第一个产品或第一次迭代。他们一直在尝试和努力，时间可能不短。所以，他们的成功并非仅仅由模型的快速进步所驱动，而是建立在背景知识、经验积累以及对该领域痛点和成功经验的理解之上，从而让模型能够真正发挥作用。所以，更简洁地说，不要等待模型变得完美，而要积极探索这个领域，对当前模型的局限性感到沮丧，然后积极尝试下一代模型。这样，你就能感觉到，你终于可以实现你脑海中构想的东西了，只要模型再强大一点点。

为什么模型会变得更加不同而不是更加相似？

主持人： 兄弟，我必须问一个问题。你提到了差异化的GTM和差异化的数据。然后你说，现在有这么多不同的模型发布，而且速度如此之快。我想知道， 如果模型层不具备差异化的数据优势，或者差异化的GTM优势，那么模型层本身还有价值吗？你是怎么看这个问题的？

Mike Krieger： 关于模型层，特别是基础模型层，我认为有三个值得长期投入的领域： 第一是人才 。我知道人才很难量化，人才密度到底意味着什么也很难说清。但人才会吸引人才，对吧？你会成为一个磁场，特别是当人才围绕着一个共同的使命或愿景凝聚在一起时。我在Anthropic就看到了这一点。我热爱我们的研究团队，感觉每个月我们都能迎来一些重要的新成员，他们可能来自其他实验室或学术界，加入我们。这是一个你必须培养和维护的优势，因为人才流动性很大，他们可以自由选择。你必须保持最初吸引他们的东西，但这非常重要。因为要保持领先地位，需要的不仅仅是量的积累，还需要找到正确的突破口。这是第一点。

第二点，我认为 模型随着时间的推移会变得越来越不同，而不是越来越相似 。当然，有很多相似的基准大家都在关注。但Claude就是Claude，GPT就是GPT，它们各有优缺点。这不仅体现在性格和语调方面，也体现在这些模型真正擅长的领域。对我们来说，编码显然是一个非常重要的垂直领域，我们一直在努力。这并非偶然，我们也并非仅仅满足于“模型擅长编码”就止步不前。我们看到市场对代码模型的需求，看到这么多公司现在依赖Claude模型进行代码编写或智能规划，这激励着我们去思考下一代模型应该如何发展，从强化学习的角度来看应该怎么做。所以，第一是人才，第二是专注和模型特性，随着时间的推移，你会深入发展这些特性。

第三点，DeepSeek发布时，我被问了很多关于DeepSeek的问题，比如“DeepSeek对你们意味着什么？”。我认为， 从技术层面来说，我们可以从他们正在做的事情中学到一些东西。但从市场策略和市场地位的角度来看，DeepSeek几乎没有影响。 因为我们与公司建立的合作关系，并非简单的API调用，不是他们为了换取输出令牌而发送输入令牌。而是“嘿，我想成为你长期的AI合作伙伴，我想帮助你与你的应用AI团队共同设计产品，我想与你一起畅想未来，我想不仅仅考虑你的API，还想考虑Claude for Work”。 这更像是一家公司在提供AI伙伴关系，而不仅仅是AI模型。

我认为，反过来看失败模式可能更有助于理解。失败模式包括：安于现状，不留住最优秀的人才，仅仅认为模型在基准测试中取得渐进式改进就足够了，以及将API仅仅视为一种用金钱换取智能的方式，而没有考虑如何成为更深度的AI合作伙伴。如果你无法做到这三点，我认为你就有麻烦了。

主持人： 我想在稍后深入探讨编码方面。但现在我必须问一下，当我们审视进步的阻碍或障碍时，你认为 今天最大的阻碍是什么？ 因为在这个问题上，我从不同的人那里听到了截然不同的观点，无论是Alex Wang还是Grok的Jonathan Ross。阻碍是算力？数据？算法？还是让模型训练环境更好地匹配真实世界的挑战，而不是单次交互的挑战？

Mike Krieger： 我认为是后者，即 改进模型训练环境，使其更好地反映真实世界的复杂任务 ，而不仅仅是独立的、单次的评估。我知道Alex也在思考这个问题，因为我们讨论过智能行为的评估，这只是我所说的更广泛问题的一个具体方面。即使在软件工程领域，软件工程师的工作也不仅仅是编写代码，还包括理解需要构建什么、与产品经理一起制定时间表、深入理解需求和用户用例，然后以可测试和迭代的方式交付成果，并从最终用户那里获得反馈（如果他们构建的是面向公众的产品）。这是一个复杂的工作流程，目前还没有合适的评估方法。有趣的是，我们把最常见的软件工程基准称为“SWE-bench”（软件工程基准），但实际上成为一名优秀的软件工程师，远不止于查看一个PR、提交一个PR、然后等待批准。因此，构建能够更好反映真实工作环境的评估和环境至关重要。

我们在Anthropic内部也在大量思考办公室专业人士的使用场景，这可能是未来模型能够极大赋能的领域之一。但目前还没有人真正很好地评估这方面。在研究领域，我们开始在评估方面做得更好，例如“人类最终考试”（Humanity's Last Exam）这类极其复杂、多步骤推理的评估。但目前还没有一种评估方法，能够很好地模拟“我入职一家新公司，快速理解我的角色、组织架构、人际关系、以及在哪里找到所需信息，然后融入到公司的日常运转中”。这是一个难以捕捉的环境。因此，对我来说，弄清楚如何更好地分解这个问题，或者从整体上思考这个问题，是至少在模型进步的一个方面——即模型如何从擅长极其狭窄的任务，转变为更通用的、有用的协作者——所面临的最大阻碍。

未来人类数据还是合成数据会更加突出

主持人： 在我们深入探讨数据方面的专业产品之前，我想问一个问题。我最近采访了来自MC的Ad Deason，他们最近完成了一轮大规模融资。我问了他一个问题，也很想听听你的看法： 当我们展望模型中数据的未来时，合成数据是否会越来越多地叠加累积？还是人类数据仍将是推动模型进步的主要数据来源？你是怎么看这个问题的？

Mike Krieger： 我认为，为了改进模型，你需要一个方案，或许 首先用原始的人类数据来引导模型，然后生成所有这些合成环境，让模型可以在其中探索和寻路。

Claude这周一直在玩宝可梦，这对于我们的研究和工程团队来说，是一个有趣但有点分散注意力的消遣。大家都在关注Claude玩宝可梦的直播。我认为游戏是一个有趣的例子，你可以想象在同一个游戏中进行许多不同的运行，并设置一些约束和规则。但当问题空间不如“你是否走出了常磐森林？”（我没玩过宝可梦，只是看直播学的）那样明确时，情况就会变得更加复杂。但能够采用黄金路径，并综合各种方法仍然很重要，这样你才能思考模型如何在不确定性中进步。

所以我认为这绝对需要混合方法，最好的模型将来自优秀的人类数据和合成数据的结合。 例如，对于代码模型来说，需要有良好的基础代码和示例，但也要能够探索各种各样的路径。另一个仍然被低估的部分是，如何衡量和评估模型的性格，以及如何获取性格数据。我用一个非常宽泛的词——“氛围感”（Vibes）来形容。模型的“感觉”到底是什么？我们实际上并不清楚，直到我们真正坐下来体验它。

在某种程度上，这是一个很好的特性，因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如，当我们从Claude 3.5升级到3.7时，人们可能会说“Claude似乎更友好了，但也更笨了”，或者“Claude似乎更愿意回答我的问题了，但我希望它在创意写作方面表现更好”。这些东西很难评估。这又回到了数据问题。因此，我认为重要的是，既要有关于这些更软性技能的数据，也要有评估这些技能的方法。

主持人： 我发现一件很奇怪的事情，我们现在可以选择使用哪个模型。你可能会说，当然可以，因为它们各有专长。 但当我展望未来三到五年，我认为你不会再需要选择使用哪个模型了，就像你不会选择使用哪个谷歌一样。 我是完全错了，还是完全没抓住重点？

Mike Krieger： 不，你没有错。我喜欢一个来自人机交互领域的概念，你可能听说过“泄漏的抽象”（leaky abstractions）这个术语。对于软件构建者来说，我们试图完美地封装所有复杂性，隐藏在一个小小的“外壳”之下，让用户无需考虑任何底层细节。但现实是，目前大多数AI产品的设计都存在“泄漏的抽象”问题。比如，用户需要选择模型，这根本不应该发生。为什么要用户选择Opus、Haiku或Sonnet？大多数人根本不明白它们之间的区别。或者，如果你打开OpenAI的模型选择器，里面有很多模型，每个模型都有其存在的理由。但总体体验却是，为什么要我选择这个而不是那个？这个功能在这里可用，但在那里不可用。我们自己也深受这个问题困扰。模型选择是第一个“泄漏的抽象”。

第二个是，一旦你理解了这些模型的构建方式，你就会知道它们会积累上下文，每次对话都会重放完整的上下文，以便进行下一次推理。这导致了每次对话都不同的情况。我总是想到，当你与同事交谈时，你们可能有不同的邮件往来，但在所有这些邮件背后，仍然是同一个同事。如果你提到他们最喜欢的球队，或者你们一起参与过的项目，他们不会说“我不知道你在说什么”，或者“我需要去检索我的记忆”。你们之间存在着一些共享的基础知识。这是另一个“泄漏的抽象”，我们迫使用户去理解模型的工作方式，但我不认为用户需要理解这些。

最后一个是提示工程（prompting）。尽管提示工程已经发展了很多，我们也做了很多工作来优化提示，将简单的人类提示转化为模型最优的提示。但我希望 提示工程对用户来说是完全透明的，而不是用户需要主动参与的事情 。如果模型对问题缺乏清晰的理解，或者需要更多帮助来理解问题，模型应该通过对话来澄清，而不是让用户去区分谁是优秀的提示工程师，谁不是。现在，提示工程的差距正在逐代缩小，但我希望我们能进一步消除这个差距。

模型质量与用户体验的关系？

主持人： 你如何 看待模型质量与产品用户体验（UX）之间的关系 ？以及如何权衡这两者，并理清它们之间的关系？

Mike Krieger： 你不能再将两者分开看待了。我认为，要成为一名优秀的UX设计师，就必须同时考虑模型质量。就在通话前，我还在参加一个产品评审会议。我回想起Instagram的产品设计会议，那时我们讨论的是像素、一些合成数据，或者真实数据，比如用我的Feed数据重新格式化成我们提议的UX界面。那时，产品设计中没有太多不确定性。你把产品发布出去，人们可能会以某些方式使用它。 但如今，设计师、产品经理，尤其是工程师，都需要思考：“我实际上是在围绕一个根本上不确定的系统设计脚手架和产品。” 这意味着模型质量、提示工程等所有后端的东西，都成为了产品设计的一部分，并且会对产品产生直接影响。

举个例子，你可以提示Claude是否要提出后续问题，这可能在产品的某些部分是你想要的，但在其他部分则不然。你也可以提示Claude是否要花更多时间思考问题，进行更多推理。这些都是你在产品设计前期需要做出的决策，它们会在实际产品中体现出来。

另一方面，正如我们之前讨论的，无论是创业公司的创始人，还是传统的B2B SaaS公司，都需要理清模型的发展方向、模型的当前能力以及用户的需求。这同样适用于你的产品设计。你需要提前进行评估，看看你想要做的东西是否能够用现有模型实现，或者至少要关注模型可能达到的水平。但模型会随着时间推移而变化，产品也会变化。如果你没有一个良好的评估框架，甚至没有回归测试评估，你最终可能会发布一款产品，但三个月后，用户会觉得“产品以前很好用，但现在好像出了问题，不再满足需求了”。而你却不确定是模型变了，还是产品设计变了，还是引入了不同的功能，或者是系统提示变得更长了。在很多方面，这都是我做过的最复杂的产品开发工作。

主持人： 我曾在伦敦采访过OpenAI的Sam Altman。他说，作为一家初创公司，他们的乐趣之一是可以更快地发布产品，不必追求完美。但随着公司规模扩大，每次发布都承受着越来越大的压力。你如何看待“发布不必完美，先让用户用起来”的理念，以及现在Anthropic已经是一家拥有数百万用户的巨型公司，你作为产品负责人，又是如何考虑这个问题的？

Mike Krieger： 我经常思考这个问题，尤其是在我们有不同的产品界面和受众，他们对稳定性的期望和对前沿技术的渴望都不一样。

例如，在API产品中，人们重视的是可预测性和稳定性，以及选择更面向未来的技术。所以，API产品可以采用“选择加入”（opt-in）的方式。我记得我们推出了提示缓存（prompt caching）功能，这能为用户节省大量成本。最初，我们通过一个beta header让用户选择加入。我们在API方面做的很多事情都是以这种形式进行的。但如果你把这种方式用于面向客户或更偏消费级的产品，让用户“选择加入”就显得很逊色了。你肯定希望能够迭代发布，进行实验，你不想完全破坏用户体验，但你可以获得更多的实验许可。

然后，我们还有企业客户，他们在企业环境中使用Claude for Work。我认为，AI在企业中的应用仍然处于早期阶段。所以，你可以比那些成熟的公司（比如Salesforce，我不知道他们每年发布多少次，但很多这类公司一年只发布两到三次，而且通常围绕着大型活动进行）更灵活一些。我们离那种发布节奏还很远，我们仍然发布得很快，但说实话，我们仍在寻找平衡点，比如是每月发布一次？还是尽可能频繁地发布？或者采用某种管理员选择加入的机制，但这也会增加复杂性。所以，这是一个很好的问题。我认为，关于发布的“生猛程度”和发布速度，我们还在积极讨论中。我们希望尽快将新功能推向市场，因为你不确定用户会如何接受，你需要不断学习。但随着知名度的提高，以及越来越多的人开始依赖你的产品来完成工作流程，你就不能再像以前那样随意对待发布了。

AI竞争格局

主持人： 我们是否正处在“产品营销噩梦”之中？ 我的意思是，这周DeepSeek发布了新模型，OpenAI也发布了新模型，Anthropic也发布了新模型，MRA在10天前也发布了新模型。几乎每天都有新发布，世界可能会变得麻木。你是如何看待这种情况的？这会如何影响你对产品发布和信息传递的思考？

Mike Krieger： 是的，现在的情况比以前复杂得多。在Instagram，你需要注意的大事件是提前就已知的，比如WWDC大会周，或者9月份的iOS发布会，或者其他大型节日。从产品营销的角度来看，要容易得多。现在的情况让我想起“Crossy Road”（一款游戏）， 你需要像过马路一样，观察来往的车辆，找到发布产品的“窗口期”。 “好吧，车开过去了，现在有个空隙，明天发布吧，或者现在发布也行。但是，哦，现在又听到传言说……”现在的情况要困难得多。我也从其他实验室的朋友那里听说，大家都在试图解读“茶叶（行业内的各种小道消息）”，看看“现在风平浪静吗？现在可以发布吗？或者我们下周二发布怎么样？”。这需要一种完全不同的方法。

我必须赞扬我们的产品营销团队，因为他们不得不转变思路。以前， 我们发布Claude 3.7 Sonnet，周一发布，周日晚上9点才最终确定博客文章，这在营销角度来看不是最佳实践。 我们还在周日向媒体记者做简报。感谢那些在周日和我们一起工作的人们。但那时已经是所有工作都完成、准备就绪、可以发布的时候了。所以，这需要快速反应和灵活应变的能力。甚至包括模型卡、评估报告、对比表格等，这些东西中包含的数据，可能是在前一周发布的模型的数据（比如Grok-3，就在一周前发布）。所以，这需要完全不同的应对方式。

主持人： 当Grok-3发布时，Anthropic和OpenAI的每个人都会想“糟糕，他们又超过我们了”，或者“太棒了，我们赢了”吗？

Mike Krieger： 我认为，这需要一种心态，我经常试图提醒团队， 模型发布是会不断发生的，在任何时候，你都可能会经历“领先-落后-又领先”的循环。 你必须适应AI领域的这种节奏，不能因为一次发布就过于沮丧。当然，不可避免地，有时你会很幸运，你发布的产品或模型在两三个月内都能保持领先地位，但有时可能只有一周。你不能对这两种情况都反应过度。你不能安于现状，也不能过于沮丧。

我认为真正有用的是，展示一张图表，我几乎在每次销售会议上都会展示这张图表， 它展示了从Anthropic成立到今天的里程碑。 在任何时间点，你都可以说“哇，Claude 2看起来已经很落后了”，或者“Claude 3是最先进的”，但很快又会被超越。你需要关注的是长期发展轨迹，并相信你将持续进步。这是第一点。

第二点，要提醒自己，如果每个人每天都仅仅因为评估指标的变化而切换模型，那将是一件非常疯狂的事情。这不仅对你的用户群来说是疯狂的，而且也会让整个行业变得更加疯狂。随着时间的推移，你会逐渐认识到，人们部署模型时，并不仅仅是简单地使用模型，他们还会进行微调，或者进行大量的定制工作，以使模型非常适合特定的用例。模型切换不是一夜之间就能完成的事情。你仍然是模型选择器中的三四个选项之一。例如，在编码环境中，你仍然有机会。但这确实需要一种心态，我不知道是需要找到一种冥想式的、抽离的角度，还是仅仅是习惯于被超越，或者两者兼而有之。但可以肯定的是，每次有模型发布，我猜每个实验室都会关注直播，查看评估指标，然后意识到“好吧，我们有工作要做了”。

主持人： 我认为品牌是最重要的。就像你说的，人们不会每天都切换模型， 他们会说“我是Claude用户”，或者“我是ChatGPT用户”， 他们已经对 他们使用的模型产生了认同感。你同意这种说法吗？ 还是认为这太肤浅了？

Mike Krieger： 我同意这种说法，尤其是在消费级产品方面。我最近在读Ben Thompson的文章，他经常邀请Nat Friedman和Daniel Gross参加节目，他们也谈到有些人是Claude用户，有些人是ChatGPT用户。我认为这种现象确实存在，用户会喜欢某个模型的个性、界面设计或整体氛围感。这让我想起了我们与Snapchat多年来的竞争，以及更早之前，人们会推出新的产品，比如“Instagram，但只面向高端摄影师”，或者“带有一些额外功能的Instagram”，或者“每天只能发一张照片的Instagram”，比如BeReal。

我有一个虚假的公式（我显然不是Anthropic的数学家）， 社交网络是由产品形式（format）、受众（audience）和氛围感（Vibes）组成的。 对于Instagram来说，产品形式包括Stories、Feed，后来又有了Video；受众最初是喜欢复古风格的摄影师，后来扩展到对视觉叙事或视觉媒体感兴趣的任何人；但即使我们的产品形式与Snapchat甚至Facebook更相似，Instagram的氛围感也截然不同。我不知道AI产品的虚假公式是什么，但我认为它与社交网络的公式有某种相似之处。其中， 模型个性可能是其中一个因素，产品脚手架的规范性（scaffolding prescriptiveness）可能是另一个因素，然后就是氛围感 。氛围感很难衡量，但它绝对存在。

主持人： 当我们有这么多不同的模型和供应商时，开源是一个非常可行的选择。 蒸馏（distillation）技术是否被妖魔化了？ 如果蒸馏技术最终能推动领域进步，即使在实验室内部，假设每个实验室都在使用蒸馏技术，能够将高端模型的知识转移到低延迟、更经济的模型中，难道不也是非常有价值的吗？

Mike Krieger： 我认为蒸馏技术有趣的地方在于：第一，我们是否希望任何国家都能从其他国家的模型中蒸馏出模型？我个人的答案是否定的。我认为，随着AI能力的增强，从国家安全的角度来看，对这个问题进行深思熟虑是有价值的。第二，为了让技术进步以当前的速度持续下去，并实现长期可持续发展，实验室需要能够将所有的训练和创新商业化。我认为找到合适的商业模式至关重要。像Llama这样的开源模型，他们能够从自己的研究、数据摄取和训练中做到这一点。所以我认为，蒸馏技术并非解锁这些能力所必需的，而且还会带来其他问题，甚至包括服务条款方面的问题。

主持人： ** Llama的发布是否表明模型本身没有价值，所有价值都在于数据？**因为Facebook愿意免费发布Llama，是因为他们知道没有人能复制他们拥有的数据？这是不是说明了这一点？

Mike Krieger： 这是一个有趣的问题，值得思考。Llama的质量是否归功于他们可以（我不知道他们是否公开承认，但他们显然可以）使用Instagram和Facebook等的数据进行训练？Gemini是否因为能够使用YouTube的数据进行训练而表现更好？我更清楚地看到Gemini从中获益。例如，每当他们展示出色的视频理解演示时，我就会想，他们可能拥有世界上最大的视频存储库，并且可以训练大量视频数据。但在Facebook方面，这一点不太清楚。我从未听人说过“Llama非常擅长生成在社交媒体上表现良好的内容”。Llama似乎只是一个通用的模型。 所以，这又回到了我们之前的对话，价值在于你的团队有多优秀，你是否拥有所需的基础数据，以及你的模型在实际用例中有多有用 。后者才是最重要的。

我真希望我一开始就强调这一点，因为撇开评估指标不谈，评估指标对于内部研究和持续改进非常有用，但它们并不能说明模型是否优秀，是否能胜任特定任务，或者即使模型擅长某个任务，它是否只在非常狭窄的场景中表现出色，还是创业者可以依赖模型作为产品中的“代表”。所以，我认为对于实验室来说，价值在于团队，在于模型在真实世界中执行正确操作的能力，并且要避免过多的不确定性，以免变得不可靠。

Anthropic 大转向：不再只做模型！押注一方应用，决胜 AI 下半场 | CPO Krieger 20VC揭秘战略新重心

正文

基础模型今天已经商品化了吗？

创业公司应该为当今的模型构建还是为未来的模型构建

为什么模型会变得更加不同而不是更加相似？

未来人类数据还是合成数据会更加突出

模型质量与用户体验的关系？

AI竞争格局

我们是否低估了中国的人工智能能力

请到「今天看啥」查看全文

Anthropic 大转向：不再只做模型！押注一方应用，决胜 AI 下半场 | CPO Krieger 20VC揭秘战略新重心

正文

(adsbygoogle = window.adsbygoogle || []).push({}); 基础模型今天已经商品化了吗？

创业公司应该为当今的模型构建还是为未来的模型构建

为什么模型会变得更加不同而不是更加相似？

未来人类数据还是合成数据会更加突出 (adsbygoogle = window.adsbygoogle || []).push({});

模型质量与用户体验的关系？ (adsbygoogle = window.adsbygoogle || []).push({});

AI竞争格局

我们是否低估了中国的人工智能能力

请到「今天看啥」查看全文

基础模型今天已经商品化了吗？

未来人类数据还是合成数据会更加突出

模型质量与用户体验的关系？