专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
筑龙电气  ·  变压器台数与负荷率,这些要点你掌握了吗? ·  16 小时前  
知识星球精选  ·  全网最好用的数据分析工具箱,限时优惠加入! ·  18 小时前  
常州日报  ·  “常”立潮头 ... ·  2 天前  
FDA食安云  ·  一张表格搞懂方法验证和确认的区别 ·  3 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

Anthropic 大转向:不再只做模型!押注一方应用,决胜 AI 下半场 | CPO Krieger 20VC揭秘战略新重心

Dots机构投资者社区  · 公众号  ·  · 2025-03-05 08:15

正文

点击⬇️ 图标 关注 抓住你的灵感💡瞬间



作为一名身处AI浪潮之中的从业者,我强烈推荐 Harry Stebbings 在 20VC 播客上对 Mike Krieger 的这期访谈《Where Will Value Be Created in an AI World?》。Krieger 不仅透露了不少Anthropic 的产品战略思考,也为创业公司如何在在 AI 驱动的世界中挖掘价值真正蕴藏的地方提供真知灼见。


AILin师傅昨天一直在测 试Claude 3.7 sonnet 的应用 ,确实强得可拍。如果你也打算在模型生态上做一些应用。我还有个小建议, 你还可以结合张小珺Jùn|商业访谈录最新一期《95.对肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》,一起服用



相信你将拥有模型厂商和应用层创业者的双重视角,助你在快速变化的AI市场找到自己的生态位。



下面是 Mike Krieger 的这期访谈《Where Will Value Be Created in an AI World?》的takeways:

  1. Anthropic 的目标不仅仅是成为一个 “模型提供商” ,而是成为客户的 “AI 合作伙伴”。 目标是构建更深度、更长期的合作关系,而非 API 的 “tokens in tokens out” 交易。

  2. 重视第一方应用 (First-Party Product) 的价值:加速学习、品牌建设、构建持久护城河。 Anthropic 认识到 “first-party products” (第一方应用) 对于 AI 公司的战略价值,并开始加大投入。 这不仅仅是为了增加收入来源,更是为了 加速学习、提升模型能力、建立品牌忠诚度、以及构建更强的竞争 护城河。

  3. Day One” 心态与长期主义:AI 仍处早期,长期价值创造远大于短期竞争。 Krieger 反复强调 “we are in like day one around is AI an indispensable part of most people's work” (我们仍然处在 AI 成为大多数人工作中不可或缺的一部分的 “第一天”)。

  4. 平衡 “生猛” 创新与稳健可靠:在快速迭代与用户信任之间寻求微妙平衡。 不同于一些初创公司可以更激进地追求快速发布和 “move fast and break things” 的策略, 也不同于大型企业过于保守和缓慢的发布节奏, Anthropic 试图在两者之间找到 微妙的平衡点。 探索 “opt-in” 机制等灵活的发布方式,以适应不同用户群体的需求。

  5. 聚焦 “Agentic Workflow” 自动化: Claude Code 的核心价值在于提升开发流程效率 ,而非取代 IDE。他们更关注 AI 在 代码理解、文件查找、代码编辑、任务委托、自动化测试、翻译 等方面的应用, 这些都是软件开发流程中耗时且重复的任务。

  6. 模型身份认同崛起:AI 模型正超越单纯的功能性 ,通过独特的个性 (Personality)、用户体验脚手架 (UX Scaffolding) 和氛围感 (Vibes) 构建品牌般的身份认同,塑造用户连接与选择的新格局。

  7. AI的 “智能引导者” 形态: AI 将超越 “工具” 或 “助手” 的局限 ,突破优秀的提示词工程的限制,进化为 “智能引导者”, 主动洞察用户需求, 指引方向, 辅助决策, 成为用户达成最重要目标的关键伙伴。


那我们开始欣赏这期AILin师傅精心编译的万字访谈稿吧!


基础模型今天已经商品化了吗?

主持人: Mike,兄弟,很高兴你能来参加节目。我刚刚散步的时候,把你在过去一年里做的所有节目都听了一遍。就像我之前跟你说的那样,我不想用“你是怎么入行的?”这种老套的问题开场。

主持人: 我想以一个非常有挑战性的问题开始:作为一名风险投资人,我今天必须判断未来的价值在哪里。但坦率地说,环顾当今世界,我真的不确定。所以我想问您的是, 展望未来,在接下来这十年由AI驱动的时代里,价值将在哪里产生? 这绝对是个好问题,我经常从创业者那里听到各种不同版本的这个问题。他们从纯粹的创业者,到现在经营一家在某种程度上赋能新创公司的企业,或者帮助他们发展壮大。他们经常问我:“我能构建什么,才不会与Anthropic或类似的大型实验室直接竞争?”

Mike Krieger: 我没有完美的答案,因为这有点像是在预测未来。但我感觉, 最有价值的领域将是那些你拥有差异化市场策略(GTM)、对特定行业或特殊数据具有独特知识的地方 ——理想情况下,最好能同时具备两到三个这样的优势。例如,金融、法律或医疗保健领域的公司。特别是医疗保健,我接触之后发现它极其复杂,就像一团乱麻。前期工作并不性感,也不是在加速器或短时间内就能完成的。但正是这些前期积累和基础工作,才能在这些领域产生持久的价值。然后,你可以利用基础模型的优势,根据需要进行微调或进行AI优化。但真正能让你立足长远、保持竞争力的,是在这些领域销售的能力,是对这些领域的独特理解,以及随着时间的推移,在这些领域不断改进的能力。


创业公司应该为当今的模型构建还是为未来的模型构建

主持人: 你提到“前期积累”,还谈到差异化的GTM和数据源。那么, 下一代AI浪潮,更有利于那些已经拥有这些优势,并能应用AI的现有垂直SaaS公司呢?还是更有利于那些在这些领域从零开始创建的新公司? 哪种情况更多?

Mike Krieger: 这是个很好的问题。我认为两者都有机会。从更高的层面来说, AI和产品设计的关键在于,你必须在展示未来愿景和利用模型当前能力之间,保持微妙的平衡。 因为你需要为三个月后的模型能力进行设计,现在的技术发展速度太快了。但同时,又不能过度承诺而交付不足,因为这会严重破坏信任。 如果你是一家初创公司,你可以稍微多做一些“过度承诺”,因为早期用户和尝鲜者更愿意尝试,容忍度也更高。但如果你是一家现有的垂直SaaS公司,你说“我们增加了AI功能”,用户试用后却发现“没那么好”,或者觉得“它应该能做更多事情”,或者“你说能做30件事,结果只能做两件”,那就很糟糕了。 我认为这两类公司面临着非常不同的挑战。对于前者(现有SaaS公司),你已经有成熟的产品和用户习惯,你需要预判趋势,但又不能疏远现有客户。我认为我们可以深入探讨一下,有一些好的模式可以做到这一点。对于初创公司来说,你可能还没有数据,或者正在争取最初的标杆客户。你的差异化不在于已建立的关系,而在于描绘未来愿景,并找到快速交付价值的方法,让那些愿意在你身上下注的公司看到希望。

主持人: 你刚才提到了初创公司要“为未来的模型构建产品”。现在这个时期非常具有挑战性,因为初创产品的质量很大程度上取决于模型的质量。模型的任何变化都可能对初创公司的产出产生巨大影响,无论是代码软件还是法律平台等等。那么, 初创公司应该基于今天的模型来构建,还是应该基于我们对未来模型的预测来构建?

Mike Krieger: 这真是个好问题。我从很多人那里听到, 他们的创业公司直到Claude 3.5 Sonnet或类似的突破性模型出现才真正起飞。 一些创业者告诉我,在某个模型取得突破之前,他们的公司根本算不上公司。比如,模型的准确率从95%提高到99%,对某些行业来说,这就足够接近完美了;或者从70%提高到90%,这种代际飞跃非常关键。那么,如何判断何时会出现这种飞跃呢?有些创业者在特定领域碰壁多年,无论是在帮助人们编写代码、进行法律分析,还是在医疗保健等领域。他们可能拼凑(我用“拼凑”可能有点轻描淡写了,应该说是精心组装)了一套方案,其中可能涉及多种工具。但这套方案要么价格上没有竞争力,因为它需要使用Opus级别的高端模型,而这又无法得到底层业务的支持。

但即使如此,这些努力仍然是有价值的,因为当更强大的模型出现时,你就不是从零开始了。 通常,那些从模型代际升级中获益的公司,并不是那些在模型发布当天才突然起步的公司,而是那些一直在该领域深耕的公司。 以Cursor为例,有人给我展示了Cursor创始人在Hacker News上提交的帖子列表,他们最终取得了突破,但这并非他们的第一个产品或第一次迭代。他们一直在尝试和努力,时间可能不短。所以, 他们的成功并非仅仅由模型的快速进步所驱动,而是建立在背景知识、经验积累以及对该领域痛点和成功经验的理解之上,从而让模型能够真正发挥作用。 所以,更简洁地说,不要等待模型变得完美,而要积极探索这个领域,对当前模型的局限性感到沮丧,然后积极尝试下一代模型。这样,你就能感觉到,你终于可以实现你脑海中构想的东西了,只要模型再强大一点点。


为什么模型会变得更加不同而不是更加相似?

主持人: 兄弟,我必须问一个问题。你提到了差异化的GTM和差异化的数据。然后你说,现在有这么多不同的模型发布,而且速度如此之快。我想知道, 如果模型层不具备差异化的数据优势,或者差异化的GTM优势,那么模型层本身还有价值吗?你是怎么看这个问题的?

Mike Krieger: 关于模型层,特别是基础模型层,我认为有三个值得长期投入的领域: 第一是人才 。我知道人才很难量化,人才密度到底意味着什么也很难说清。但人才会吸引人才,对吧?你会成为一个磁场,特别是当人才围绕着一个共同的使命或愿景凝聚在一起时。我在Anthropic就看到了这一点。我热爱我们的研究团队,感觉每个月我们都能迎来一些重要的新成员,他们可能来自其他实验室或学术界,加入我们。这是一个你必须培养和维护的优势,因为人才流动性很大,他们可以自由选择。你必须保持最初吸引他们的东西,但这非常重要。因为要保持领先地位,需要的不仅仅是量的积累,还需要找到正确的突破口。这是第一点。


第二点,我认为 模型随着时间的推移会变得越来越不同,而不是越来越相似 。当然,有很多相似的基准大家都在关注。但Claude就是Claude,GPT就是GPT,它们各有优缺点。 这不仅体现在性格和语调方面,也体现在这些模型真正擅长的领域。 对我们来说,编码显然是一个非常重要的垂直领域,我们一直在努力。这并非偶然,我们也并非仅仅满足于“模型擅长编码”就止步不前。 我们看到市场对代码模型的需求,看到这么多公司现在依赖Claude模型进行代码编写或智能规划,这激励着我们去思考下一代模型应该如何发展,从强化学习的角度来看应该怎么做。 所以,第一是人才,第二是专注和模型特性,随着时间的推移,你会深入发展这些特性。

第三点,DeepSeek发布时,我被问了很多关于DeepSeek的问题,比如“DeepSeek对你们意味着什么?”。我认为, 从技术层面来说,我们可以从他们正在做的事情中学到一些东西。但从市场策略和市场地位的角度来看,DeepSeek几乎没有影响。 因为我们与公司建立的合作关系,并非简单的API调用,不是他们为了换取输出令牌而发送输入令牌。而是“嘿,我想成为你长期的AI合作伙伴,我想帮助你与你的应用AI团队共同设计产品,我想与你一起畅想未来,我想不仅仅考虑你的API,还想考虑Claude for Work”。 这更像是一家公司在提供AI伙伴关系,而不仅仅是AI模型。

我认为,反过来看失败模式可能更有助于理解。失败模式包括: 安于现状,不留住最优秀的人才,仅仅认为模型在基准测试中取得渐进式改进就足够了,以及将API仅仅视为一种用金钱换取智能的方式,而没有考虑如何成为更深度的AI合作伙伴 。如果你无法做到这三点,我认为你就有麻烦了。

主持人: 我想在稍后深入探讨编码方面。但现在我必须问一下,当我们审视进步的阻碍或障碍时,你认为 今天最大的阻碍是什么? 因为在这个问题上,我从不同的人那里听到了截然不同的观点,无论是Alex Wang还是Grok的Jonathan Ross。阻碍是算力?数据?算法?还是让模型训练环境更好地匹配真实世界的挑战,而不是单次交互的挑战?

Mike Krieger: 我认为是后者,即 改进模型训练环境,使其更好地反映真实世界的复杂任务 ,而不仅仅是独立的、单次的评估。我知道Alex也在思考这个问题,因为我们讨论过智能行为的评估,这只是我所说的更广泛问题的一个具体方面。即使在软件工程领域,软件工程师的工作也不仅仅是编写代码,还包括理解需要构建什么、与产品经理一起制定时间表、深入理解需求和用户用例,然后以可测试和迭代的方式交付成果,并从最终用户那里获得反馈(如果他们构建的是面向公众的产品)。这是一个复杂的工作流程,目前还没有合适的评估方法。有趣的是,我们把最常见的软件工程基准称为“SWE-bench”(软件工程基准),但实际上成为一名优秀的软件工程师,远不止于查看一个PR、提交一个PR、然后等待批准。因此,构建能够更好反映真实工作环境的评估和环境至关重要。

我们在Anthropic内部也在大量思考办公室专业人士的使用场景,这可能是未来模型能够极大赋能的领域之一 。但目前还没有人真正很好地评估这方面。在研究领域,我们开始在评估方面做得更好,例如“人类最终考试”(Humanity's Last Exam)这类极其复杂、多步骤推理的评估。但目前还没有一种评估方法,能够很好地模拟“我入职一家新公司,快速理解我的角色、组织架构、人际关系、以及在哪里找到所需信息,然后融入到公司的日常运转中”。这是一个难以捕捉的环境。因此,对我来说,弄清楚如何更好地分解这个问题,或者从整体上思考这个问题,是至少在模型进步的一个方面——即模型如何从擅长极其狭窄的任务,转变为更通用的、有用的协作者——所面临的最大阻碍。

未来人类数据还是合成数据会更加突出

主持人: 在我们深入探讨数据方面的专业产品之前,我想问一个问题。我最近采访了来自MC的Ad Deason,他们最近完成了一轮大规模融资。我问了他一个问题,也很想听听你的看法: 当我们展望模型中数据的未来时,合成数据是否会越来越多地叠加累积?还是人类数据仍将是推动模型进步的主要数据来源?你是怎么看这个问题的?

Mike Krieger: 我认为,为了改进模型,你需要一个方案,或许 首先用原始的人类数据来引导模型,然后生成所有这些合成环境,让模型可以在其中探索和寻路。

Claude这周一直在玩宝可梦,这对于我们的研究和工程团队来说,是一个有趣但有点分散注意力的消遣。大家都在关注Claude玩宝可梦的直播。我认为游戏是一个有趣的例子,你可以想象在同一个游戏中进行许多不同的运行,并设置一些约束和规则。但当问题空间不如“你是否走出了常磐森林?”(我没玩过宝可梦,只是看直播学的)那样明确时,情况就会变得更加复杂。但能够采用黄金路径,并综合各种方法仍然很重要,这样你才能思考模型如何在不确定性中进步。

所以我认为这绝对需要混合方法,最好的模型将来自优秀的人类数据和合成数据的结合。 例如,对于代码模型来说,需要有良好的基础代码和示例,但也要能够探索各种各样的路径。另一个仍然被低估的部分是,如何衡量和评估模型的性格,以及如何获取性格数据。 我用一个非常宽泛的词——“氛围感”(Vibes)来形容。模型的“感觉”到底是什么?我们实际上并不清楚,直到我们真正坐下来体验它。

在某种程度上,这是一个很好的特性,因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如,当我们从Claude 3.5升级到3.7时,人们可能会说“Claude似乎更友好了,但也更笨了”,或者“Claude似乎更愿意回答我的问题了,但我希望它在创意写作方面表现更好”。这些东西很难评估。这又回到了数据问题。因此,我认为重要的是,既要有关于这些更软性技能的数据,也要有评估这些技能的方法。

主持人: 我发现一件很奇怪的事情,我们现在可以选择使用哪个模型。你可能会说,当然可以,因为它们各有专长。 但当我展望未来三到五年,我认为你不会再需要选择使用哪个模型了,就像你不会选择使用哪个谷歌一样。 我是完全错了,还是完全没抓住重点?

Mike Krieger: 不,你没有错。我喜欢一个来自人机交互领域的概念,你可能听说过“泄漏的抽象”(leaky abstractions)这个术语。对于软件构建者来说,我们试图完美地封装所有复杂性,隐藏在一个小小的“外壳”之下,让用户无需考虑任何底层细节。但现实是,目前大多数AI产品的设计都存在“泄漏的抽象”问题。比如,用户需要选择模型,这根本不应该发生。为什么要用户选择Opus、Haiku或Sonnet?大多数人根本不明白它们之间的区别。或者,如果你打开OpenAI的模型选择器,里面有很多模型,每个模型都有其存在的理由。但总体体验却是,为什么要我选择这个而不是那个?这个功能在这里可用,但在那里不可用。我们自己也深受这个问题困扰。模型选择是第一个“泄漏的抽象”。

第二个是,一旦你理解了这些模型的构建方式,你就会知道它们会积累上下文,每次对话都会重放完整的上下文,以便进行下一次推理。这导致了每次对话都不同的情况。我总是想到,当你与同事交谈时,你们可能有不同的邮件往来,但在所有这些邮件背后,仍然是同一个同事。如果你提到他们最喜欢的球队,或者你们一起参与过的项目,他们不会说“我不知道你在说什么”,或者“我需要去检索我的记忆”。你们之间存在着一些共享的基础知识。这是另一个“泄漏的抽象”,我们迫使用户去理解模型的工作方式,但我不认为用户需要理解这些。

最后一个是提示工程(prompting)。尽管提示工程已经发展了很多,我们也做了很多工作来优化提示,将简单的人类提示转化为模型最优的提示。但我希望 提示工程对用户来说是完全透明的,而不是用户需要主动参与的事情 。如果模型对问题缺乏清晰的理解,或者需要更多帮助来理解问题,模型应该通过对话来澄清,而不是让用户去区分谁是优秀的提示工程师,谁不是。现在,提示工程的差距正在逐代缩小,但我希望我们能进一步消除这个差距。

模型质量与用户体验的关系?

主持人: 你如何 看待模型质量与产品用户体验(UX)之间的关系 ?以及如何权衡这两者,并理清它们之间的关系?

Mike Krieger: 你不能再将两者分开看待了。我认为,要成为一名优秀的UX设计师,就必须同时考虑模型质量。就在通话前,我还在参加一个产品评审会议。我回想起Instagram的产品设计会议,那时我们讨论的是像素、一些合成数据,或者真实数据,比如用我的Feed数据重新格式化成我们提议的UX界面。那时,产品设计中没有太多不确定性。你把产品发布出去,人们可能会以某些方式使用它。 但如今,设计师、产品经理,尤其是工程师,都需要思考:“我实际上是在围绕一个根本上不确定的系统设计脚手架和产品。” 这意味着模型质量、提示工程等所有后端的东西,都成为了产品设计的一部分,并且会对产品产生直接影响。

举个例子,你可以提示Claude是否要提出后续问题,这可能在产品的某些部分是你想要的,但在其他部分则不然。你也可以提示Claude是否要花更多时间思考问题,进行更多推理。这些都是你在产品设计前期需要做出的决策,它们会在实际产品中体现出来。

另一方面,正如我们之前讨论的,无论是创业公司的创始人,还是传统的B2B SaaS公司,都需要理清模型的发展方向、模型的当前能力以及用户的需求。这同样适用于你的产品设计。你需要提前进行评估,看看你想要做的东西是否能够用现有模型实现,或者至少要关注模型可能达到的水平。但模型会随着时间推移而变化,产品也会变化。如果你没有一个良好的评估框架,甚至没有回归测试评估,你最终可能会发布一款产品,但三个月后,用户会觉得“产品以前很好用,但现在好像出了问题,不再满足需求了”。而你却不确定是模型变了,还是产品设计变了,还是引入了不同的功能,或者是系统提示变得更长了。在很多方面,这都是我做过的最复杂的产品开发工作。

主持人: 我曾在伦敦采访过OpenAI的Sam Altman。他说,作为一家初创公司,他们的乐趣之一是可以更快地发布产品,不必追求完美。但随着公司规模扩大,每次发布都承受着越来越大的压力。 你如何看待“发布不必完美,先让用户用起来”的理念,以及现在Anthropic已经是一家拥有数百万用户的巨型公司,你作为产品负责人,又是如何考虑这个问题的?

Mike Krieger: 我经常思考这个问题,尤其是在我们有不同的产品界面和受众,他们对稳定性的期望和对前沿技术的渴望都不一样。

例如,在API产品中,人们重视的是可预测性和稳定性,以及选择更面向未来的技术。所以,API产品可以采用“选择加入”(opt-in)的方式。我记得我们推出了提示缓存(prompt caching)功能,这能为用户节省大量成本。最初,我们通过一个beta header让用户选择加入。我们在API方面做的很多事情都是以这种形式进行的。但如果你把这种方式用于面向客户或更偏消费级的产品,让用户“选择加入”就显得很逊色了。你肯定希望能够迭代发布,进行实验,你不想完全破坏用户体验,但你可以获得更多的实验许可。

然后,我们还有企业客户,他们在企业环境中使用Claude for Work。我认为,AI在企业中的应用仍然处于早期阶段。所以,你可以比那些成熟的公司(比如Salesforce,我不知道他们每年发布多少次,但很多这类公司一年只发布两到三次,而且通常围绕着大型活动进行)更灵活一些。我们离那种发布节奏还很远,我们仍然发布得很快,但说实话,我们仍在寻找平衡点,比如是每月发布一次?还是尽可能频繁地发布?或者采用某种管理员选择加入的机制,但这也会增加复杂性。所以,这是一个很好的问题。我认为,关于发布的“生猛程度”和发布速度,我们还在积极讨论中。我们希望尽快将新功能推向市场,因为你不确定用户会如何接受,你需要不断学习。但随着知名度的提高,以及越来越多的人开始依赖你的产品来完成工作流程,你就不能再像以前那样随意对待发布了。

AI竞争格局

主持人: 我们是否正处在“产品营销噩梦”之中? 我的意思是,这周DeepSeek发布了新模型,OpenAI也发布了新模型,Anthropic也发布了新模型,MRA在10天前也发布了新模型。几乎每天都有新发布,世界可能会变得麻木。你是如何看待这种情况的?这会如何影响你对产品发布和信息传递的思考?

Mike Krieger: 是的,现在的情况比以前复杂得多。在Instagram,你需要注意的大事件是提前就已知的,比如WWDC大会周,或者9月份的iOS发布会,或者其他大型节日。从产品营销的角度来看,要容易得多。现在的情况让我想起“Crossy Road”(一款游戏), 你需要像过马路一样,观察来往的车辆,找到发布产品的“窗口期”。 “好吧,车开过去了,现在有个空隙,明天发布吧,或者现在发布也行。但是,哦,现在又听到传言说……”现在的情况要困难得多。我也从其他实验室的朋友那里听说,大家都在试图解读“茶叶(行业内的各种小道消息)”,看看“现在风平浪静吗?现在可以发布吗?或者我们下周二发布怎么样?”。这需要一种完全不同的方法。

我必须赞扬我们的产品营销团队,因为他们不得不转变思路。以前, 我们发布Claude 3.7 Sonnet,周一发布,周日晚上9点才最终确定博客文章,这在营销角度来看不是最佳实践。 我们还在周日向媒体记者做简报。感谢那些在周日和我们一起工作的人们。但那时已经是所有工作都完成、准备就绪、可以发布的时候了。所以,这需要快速反应和灵活应变的能力。甚至包括模型卡、评估报告、对比表格等,这些东西中包含的数据,可能是在前一周发布的模型的数据(比如Grok-3,就在一周前发布)。所以,这需要完全不同的应对方式。

主持人: 当Grok-3发布时,Anthropic和OpenAI的每个人都会想“糟糕,他们又超过我们了”,或者“太棒了,我们赢了”吗?

Mike Krieger: 我认为,这需要一种心态,我经常试图提醒团队, 模型发布是会不断发生的,在任何时候,你都可能会经历“领先-落后-又领先”的循环。 你必须适应AI领域的这种节奏,不能因为一次发布就过于沮丧。当然,不可避免地,有时你会很幸运,你发布的产品或模型在两三个月内都能保持领先地位,但有时可能只有一周。你不能对这两种情况都反应过度。你不能安于现状,也不能过于沮丧。

我认为真正有用的是,展示一张图表,我几乎在每次销售会议上都会展示这张图表, 它展示了从Anthropic成立到今天的里程碑。 在任何时间点,你都可以说“哇,Claude 2看起来已经很落后了”,或者“Claude 3是最先进的”,但很快又会被超越。你需要关注的是长期发展轨迹,并相信你将持续进步。这是第一点。

第二点, 要提醒自己,如果每个人每天都仅仅因为评估指标的变化而切换模型,那将是一件非常疯狂的事情。这不仅对你的用户群来说是疯狂的,而且也会让整个行业变得更加疯狂。 随着时间的推移,你会逐渐认识到,人们部署模型时,并不仅仅是简单地使用模型,他们还会进行微调,或者进行大量的定制工作,以使模型非常适合特定的用例。模型切换不是一夜之间就能完成的事情。你仍然是模型选择器中的三四个选项之一。例如,在编码环境中,你仍然有机会。但这确实需要一种心态,我不知道是需要找到一种冥想式的、抽离的角度,还是仅仅是习惯于被超越,或者两者兼而有之。但可以肯定的是,每次有模型发布,我猜每个实验室都会关注直播,查看评估指标,然后意识到“好吧,我们有工作要做了”。

主持人: 我认为品牌是最重要的。就像你说的,人们不会每天都切换模型, 他们会说“我是Claude用户”,或者“我是ChatGPT用户”, 他们已经对 他们使用的模型产生了认同感。你同意这种说法吗? 还是认为这太肤浅了?

Mike Krieger: 我同意这种说法,尤其是在消费级产品方面。我最近在读Ben Thompson的文章,他经常邀请Nat Friedman和Daniel Gross参加节目,他们也谈到有些人是Claude用户,有些人是ChatGPT用户。我认为这种现象确实存在,用户会喜欢某个模型的个性、界面设计或整体氛围感。这让我想起了我们与Snapchat多年来的竞争,以及更早之前,人们会推出新的产品,比如“Instagram,但只面向高端摄影师”,或者“带有一些额外功能的Instagram”,或者“每天只能发一张照片的Instagram”,比如BeReal。

我有一个虚假的公式(我显然不是Anthropic的数学家), 社交网络是由产品形式(format)、受众(audience)和氛围感(Vibes)组成的。 对于Instagram来说,产品形式包括Stories、Feed,后来又有了Video;受众最初是喜欢复古风格的摄影师,后来扩展到对视觉叙事或视觉媒体感兴趣的任何人;但即使我们的产品形式与Snapchat甚至Facebook更相似,Instagram的氛围感也截然不同。我不知道AI产品的虚假公式是什么,但我认为它与社交网络的公式有某种相似之处。其中, 模型个性可能是其中一个因素,产品脚手架的规范性(scaffolding prescriptiveness)可能是另一个因素,然后就是氛围感 。氛围感很难衡量,但它绝对存在。

主持人: 当我们有这么多不同的模型和供应商时,开源是一个非常可行的选择。 蒸馏(distillation)技术是否被妖魔化了? 如果蒸馏技术最终能推动领域进步,即使在实验室内部,假设每个实验室都在使用蒸馏技术,能够将高端模型的知识转移到低延迟、更经济的模型中,难道不也是非常有价值的吗?

Mike Krieger: 我认为蒸馏技术有趣的地方在于:第一,我们是否希望任何国家都能从其他国家的模型中蒸馏出模型?我个人的答案是否定的。我认为,随着AI能力的增强,从国家安全的角度来看,对这个问题进行深思熟虑是有价值的。第二,为了让技术进步以当前的速度持续下去,并实现长期可持续发展,实验室需要能够将所有的训练和创新商业化。我认为找到合适的商业模式至关重要。像Llama这样的开源模型,他们能够从自己的研究、数据摄取和训练中做到这一点。所以我认为,蒸馏技术并非解锁这些能力所必需的,而且还会带来其他问题,甚至包括服务条款方面的问题。

主持人: ** Llama的发布是否表明模型本身没有价值,所有价值都在于数据?**因为Facebook愿意免费发布Llama,是因为他们知道没有人能复制他们拥有的数据?这是不是说明了这一点?

Mike Krieger: 这是一个有趣的问题,值得思考。Llama的质量是否归功于他们可以(我不知道他们是否公开承认,但他们显然可以)使用Instagram和Facebook等的数据进行训练?Gemini是否因为能够使用YouTube的数据进行训练而表现更好?我更清楚地看到Gemini从中获益。例如,每当他们展示出色的视频理解演示时,我就会想,他们可能拥有世界上最大的视频存储库,并且可以训练大量视频数据。但在Facebook方面,这一点不太清楚。我从未听人说过“Llama非常擅长生成在社交媒体上表现良好的内容”。Llama似乎只是一个通用的模型。 所以,这又回到了我们之前的对话,价值在于你的团队有多优秀,你是否拥有所需的基础数据,以及你的模型在实际用例中有多有用 。后者才是最重要的。

我真希望我一开始就强调这一点,因为撇开评估指标不谈,评估指标对于内部研究和持续改进非常有用,但它们并不能说明模型是否优秀,是否能胜任特定任务,或者即使模型擅长某个任务,它是否只在非常狭窄的场景中表现出色,还是创业者可以依赖模型作为产品中的“代表”。所以,我认为对于实验室来说,价值在于团队,在于模型在真实世界中执行正确操作的能力,并且要避免过多的不确定性,以免变得不可靠。

我们是否低估了中国的人工智能能力







请到「今天看啥」查看全文