专栏名称: Founder Park
来自极客公园,专注与科技创业者聊「真问题」。
目录
相关文章推荐
爱可可-爱生活  ·  对这种机器完全没有抵抗力 ... ·  4 天前  
爱可可-爱生活  ·  几篇论文实现代码:《HandDiff: ... ·  5 天前  
51好读  ›  专栏  ›  Founder Park

拾象科技李广密:大模型竞赛格局已定,2025年的竞争是争夺下一个Google

Founder Park  · 公众号  · 科技媒体 AI  · 2024-12-30 19:05

主要观点总结

这篇文章是对谈形式,拾象 CEO 李广密和财经作者张小珺对2024年大模型领域的变化和2025年的AI行业发展做了详细的梳理和预测。他们讨论了LLM竞赛的格局、AI应用的发展,以及未来的软件形态。李广密强调了AI对于编程、搜索、推荐等任务的重要性,并预测了agent的落地以及AI带来的生产力提升。张小珺则探讨了ChatGPT等产品的商业模式和未来发展。

关键观点总结

关键观点1: LLM竞赛格局和未来发展

李广密指出,2024年LLM竞赛格局基本确定,并预测到2025年agent的落地和AI生产力的提升。

关键观点2: AI应用的重要性和未来发展

张小珺讨论了AI应用的商业模式和未来发展,强调了AI对于编程、搜索、推荐等任务的重要性。

关键观点3: 未来软件形态和agent的落地

李广密预测未来软件将更民主化、更新形态,并强调了agent的落地和生产力提升。

关键观点4: AI的商业模式和未来发展

张小珺探讨了ChatGPT等产品的商业模式和未来发展,并强调了未来AI应用的互动性。

关键观点5: AI对工作和生产力的影响

李广密和张小珺都认为AI将改变知识工作者的自动化,提升生产力,并带来新的软件生态。


正文

编辑注:这篇对谈是拾象 CEO 李广密和财经作者张小珺的 AI 行业年度观察和预测,对于 2024 年大模型领域的变化,以及 2025 年的 AI 行业的发展,都做了详细的梳理和预测。

2024 年的 LLM 竞赛是算力、模型和应用三条线并行。正如我们在 2024 年跨年对谈中所预测的,上半年,LLM 竞赛格局基本确定,到了下半年,随着 Sonnet 3.5  经验的 coding 能力、 o1 模型以及 RL 范式的接连出现,LLM 不再是单一的基建竞赛,LLM 的应用范围在扩大、对现有工作流改造的深度不断增强。

2025 年的核心主线一定是 coding 和 agent。Andrej Karpathy 在 2017 年提出了 Software 2.0 的设想:1.0 时代的软件是把结构化、规则化的工作进行数字化封装,2.0 时代的软件则对 domain knowledge 和工作流进行封装重组,背后变化是如何更加动态地编排软件。这一预想一定会在 2025 年被落地,Agent、multi-agents 不仅会带来新的软件,也会对生产力任务进行重组。

互联网最本质的是对信息的重组,「Google」是在「分发」这件事上最具代表性的符号,我们认为,今天 AI/LLM 的竞争同样也是一条超越 Google 之路:底层模型及其上层的超级应用是对 token 和智能的重新分发,以 ChatGPT、Perplexity 、Devin 为代表的应用最终将走向所有信息、内容甚至任务的 All-in-one 的分发容器。

点击关注,每天更新深度 AI 行业洞察

01 

大模型产品竞赛的目标:

争夺下一个 Google

张小珺:今年的跨年特辑我们还是从 AI 界明星中的明星 OpenAI 开始聊起。关于 OpenAI,我听到过两种说法:一种说法是,他们是一个期货公司,随着预训练 scaling law 的金矿挖完,他们的领先技术也到头了;另一种说法是,不能低估 OpenAI 的实力,它是一个了不起的公司,还藏了很多牌。你怎么看这家公司?过去 6 个月认知有没有发生过变化?

李广密:ChatGPT 官方公布的 WAU 周活已经过 3 亿了,对应 5-6 亿的月活,明年这个时候可能 10 多亿月活,这个增速是全球所有科技产品当中,历史最快的,还超过了 TikTok 之前的增速。TikTok 大概用了 4-5 年时间做到 5 亿多月活。

确实 ChatGPT 营销或 hype 因素存在,但背后意味着什么?最本质的问题和认知变化最大的是「下一个 Google」,ChatGPT 是在往下一个 Google 方向走,无论 Anthropic、xAI、Perplexity,甚至国内的豆包、Kimi,还是做 coding 的 Cursor、Devin,虽然大家形态有差异,从不同的路径发散,最后都是殊途同归,收敛在下一个 Google 的叙事下。AI 公司的对手和目标并不只是 ChatGPT,而是如何 beat Google,这是最大的牌。我也不觉得 OpenAI 会刻意藏什么牌,下一个 Google 就是一张明牌,比拼资金、GPU、人才、产品、品牌的综合能力。

张小珺:这个很有意思,因为它回答了一个非常重要的问题:基座大模型和基于基座大模型的这一波产品,他们到底在争夺着什么?

李广密:争夺下一个 Google

怎么理解下一个 Google?如果大家来硅谷的话,一定要去逛计算机历史博物馆,转完一圈就很能理解计算架构和信息分发这一主线是怎么演变的。最早,是雅虎的门户模式:人工编辑、 listing,最小单元是网页。门户模式只能 listing 头部的网页,所以非常有限。后来,出现了 Google index,网页用关键词搜索的模式,重新组织了信息分发。

红杉美国最早投了雅虎,后来投了 Google。Mike Morris 当时有一次分享提到,最早希望 Google 能帮雅虎更好覆盖长尾网页的内容,因为长尾的内容是只能通过关键词模式被启动触发的,这就需要对整个互联网做 index。这里很有意思的是,做门户的人当时都觉得 Google 这种关键词搜索是做不大的,但 Google 也是从雅虎的边缘市场做起来的。一定要重视边缘市场起来的公司,往往伟大公司都是从边缘市场做起来的。

顺着信息分发往下讲,信息分发中间有一个演变叫推荐引擎,根据用户的行为做投票。其实,人是变得更被动了一些,AI 更主动做推荐,最小单元从网页变成了内容。

字节也一直在超越 Google 的路上。这两年开始了搜索和推荐融合的一体化,从小红书这个产品能看到一些影子。小红书非常有意思,包含了社区、信息流推荐、短视频、图文、多模态,目前已经高质量的搜索引擎,这个融合了搜索推荐问答的形态,未来做任务一体化会更有意思。

今天的大模型,最小单元比网页更小,最小化的原子是 token。Token 背后是人类几千年抽象的智能,因此,大模型是重新组织了智能,未来会以 agent 或做任务的形态输出。最后会是一个任务引擎,完成 Task Automation。未来,ChatGPT 融合了搜索、推荐、问答、做任务等等功能,而不只是目前的形态。过去几十年,互联网把零售和线下的东西搬到了线上,未来,人类更多的工作流和任务会走向最佳实践进行自动化。

目前 ChatGPT 形态太初级,未来一定是融合性的产品,模型也会更主动,像一个助理。模型也可以在后台一直长时间思考,比如几小时、几天,甚至更长。人类目前学会东西后,会实时更新了自己大脑,模型后面学到人类的新知识,也可以实时更新到自己的神经网络里面。此外,模型的学习效率有可能比人还要高。

张小珺:你刚才说未来会以 agent 或做任务的形态输出,我目前还在想,要是有一个会做饭的机器人就好了,它可以通过预训练学会各种各样的菜谱,做做饭的任务。你觉得它能做到吗?

李广密:是能做到的。但厨师的最佳实践是没法被传承的。如果 AI 的学习效率变得很高,它能把顶级大厨的手艺学回来,那最佳实践就被抽象成了算法,大厨的 task automation 就完成了。但前提是要有反馈,什么样的菜做出来比较好吃?这是一个奖励模型。

张小珺:这个奖励模型还是一个封闭系统,是相对好给出的?

李广密:这个应该比较简单,但是难在机器人难做。

张小珺:你除了提到 OpenAI,还提到另外两家公司,一个是 Anthropic,一个是 Perplexity。它们目前长得和 OpenAI、和 ChatGPT 是很不一样的,但他们也都在争夺下一个 Google 这张牌吗?

李广密:是的,大家都在计算架构和信息分发这条主线下,都是同一个技术杠杆,因此都是殊途同归的。虽然形态和商业策略肯定有差异,但 OpenAI 正在把自己变成一个 killer app,也是目前唯一的 killer app,在 C 端一骑绝尘。但 Anthropic 正在走向一个 AI 时代的 OS 操作系统的路径,站住了 coding、协议,尤其是最近发布 MCP 的 context。

Perplexity 最大的创新是重新定义了 AI 搜索形态,其实是 AI 在帮用户使用搜索引擎,Perplexity 其实是一个 agent,用户可以围绕一个主题一直追问、互动。互动是很关键的,AI 可以和整个互联网网页互动了,而不只是一个静态的网页和内容的输出。产品层面,最终大家都会变成任务引擎,或任务容器。这个任务引擎是我逻辑中下一个 Google 的幻想。

张小珺:任务容器和任务引擎是一个概念吗?以前大家会叫内容容器,今天是用任务来替换内容?

李广密:还是一个概念,主要是因为目前还不好去定义它的具体形态。其实今日头条就是一个内容容器,微信也是一个内容容器,它们也都是一个浏览器。未来 AI 最大的趋势是做任务、完成任务,尤其是有经济价值的任务。

以前生成的最大的是内容,未来 AI 生成最大的是任务、agent、工作流。比如,我目前研究二级公司的股票,我怎么去寻找信息、处理信息,怎么去沟通、拆解?AI 可以帮我 automate 出来一个投研的 workflow,而不是几十个人在帮我开发 workflow,这就是我的一个投研的 workflow agent。

张小珺:争夺下一个 Google,一定是需要自己自研基座大模型吗?有可能在别人的模型上盖房子吗? 

李广密:我更相信端到端、full stack 策略的胜算更大,当然这样的要求,投入的资源也很大。即便看 Perplexity 现在发展很好,它其实很难向下大幅改动模型,或搜索的 index。但 Google 的端到端优化能力是很强的,可以向下改 TPU,改 Transformer。端到端优化是非常重要的,Apple、Tesla、微软都是端到端 Full Stack 的公司,微软从 OS 向上做了 office 这些 killer app。但这也不代表 OS 公司一定能做好 killer app,微软也没有做好浏览器或者搜索这两个 killer app,这个问题其实不绝对,存在即合理。


02 

ChatGPT 如何跑通商业模式

张小珺:ChatGPT 的 C 端为什么增长这么快?

李广密:从第三方数据也能看到,ChatGPT 从第二季度开始明显加速。尤其是在 GPT-4o 发布之后,单个季度能涨 1.4-1.5 亿 MAU。

我自己的感觉:最大的变化是 ChatGPT 放开了不用注册就可以使用的权限,背后是模型的 inference cost 降到了很低,不然一般模型公司是吃不消的。此外,OpenAI 又推出了语音模式、推出了 o1,背后其实还有模型能力的提升。ChatGPT 用户数据量比较大,大量的用户在用的情况下,用户偏好数据、用户投票会让整个用户体验变好。

张小珺:从商业模式上,ChatGPT 应该做广告吗?

李广密:如果我是 Sam,我一定会做广告,但 ChatGPT 不一定适合做广告。这个问题本质是商业效率的问题,我们可以简单算个账:ChatGPT 是一个典型的工具类产品,工具类产品付费率到 5% 已经是非常优秀了。ChatGPT 的付费用户是 20 美元一个月,按 5% 的付费率,一个 MAU 就是 1 美金,剩下 95% 的人其实是不付费、不贡献商业收入的。但我感觉 ChatGPT 付费率肯定到不了 5%,大概是 0.5-0.6 美金每个 MAU。

每个 MAU 横向对比,互联网产品如抖音、淘宝、微信都是几百亿美金甚至千亿美金营收的产品,10 亿的月活,每个 MAU 每年就是 100 美金,每个月就是 8-10 美金。所以传统互联网产品比 ChatGPT 的变现效率是高出 10-20 倍的。

虽然 ChatGPT 现在有 200 美金,甚至 2,000 美金的定价,但如果定这个价格,付费率肯定也是会下降的。第一,能付 200 美金或者 2,000 美金的人很少,第二,也存在竞争问题,因为 Claude、xAI、Google 都在后面,竞争问题的存在使得很难定过高的价格。

AI 的商业变现效率这个问题是很关键的,不然后端成本每年 5-10 倍的上涨,但前端带不来营收,是不能持续的,历史上任何的伟大公司背后都有一个极强的商业模式驱动。

张小珺:这两年每百万 token 的成本是在下降的,为什么说后端成本有每年 5-10 倍的猛增?

李广密:是的,这个是符合咱们之前预测的,token 这 1-2 年应该降了十几倍。后端成本猛增主要还是买 GPU。其实去年大家手上的卡是不多的,今年全球第一梯队公司才到了 10 万张卡,但 10 万张卡是不够的。有可能到一个量级之后不再猛增,但现在还在一个高速猛增的阶段。

张小珺:为什么 Chatbot 不适合做广告?

李广密:Google search query 里面 40-50% 都是导航类的 query,一个关键词来了,Google 就直接给你导航到某个网页,例如电商、娱乐、旅游、订票,广告主是通过网页提供服务的,Google 导航过去就能赚到钱,这个商业模式是非常好的。抖音、淘宝的商业模式和 Google 也是一样的,都是搜索、广告系统,这个商业模式效率是很高的,因为有巨大的规模效应。

Chatbot 目前的 queries 中,导航类的 queries 是非常少的,大部分都是问答类的 query。对应传统搜索引擎中,只有 4-5% 的是知识问答,Google 过去也一直能没能把这 4-5% 的知识问答 query 商业化。目前为止,ChatGPT 还是没有本质上影响 Google 的基本盘。因为广告主还是不会来 ChatGPT 投广告获取流量。

张小珺:ChatGPT 未来怎么挣钱?

李广密:一方面,最大规模付费的来源还是来源于商户。因为商户是广告主最能 scalable 的对象,广告主要对消费者提供服务。另一方面是要探索新的商业模式,比如说按照任务付费,最后按照任务完成率付费。

电商是按交易付费的。过去,互联网电商最核心的一个指标叫 GMV,订单转化率。AI 时代最关键的北极星指标是任务完成率,本质上要完成有经济价值的任务。只要价值足够厚了,肯定还会有全新的商业模式出现的,按照 value-based 去 pricing。例如抖音,催生了新的商户,内容创作者如果能创造内容本身,这就是服务了,未来新的服务可能就是大量的应用软件或者 agent 提供解决各类任务。

张小珺:你怎么看 OpenAI 人才流失的问题?

李广密:组织能力出了一些问题。ChatGPT 目前的成功,很大程度依赖 OpenAI 最早非常强、非常领先的 research 能力。早期技术遥遥领先带来了心智和品牌的红利。

但 OpenAI 过去一到两年并没有很好的接住技术红利,最典型的两个地方是搜索和 coding,搜索和 coding  OpenAI 目前都不是明显的第一名。

搜索是很重要的,因为是一个高频、高粘性的 feature,ChatGPT 自己竟然没有做很好,是非常不应该的,给 Perplexity 留了完整两年的窗口,不然 Perplexity 也不会做这么大。而 coding 能力还是被 Anthropic Claude-3.5-Sonnet 反超了。最开始我以为 OpenAI 不太重视,但过去半年了还没完全追上,导致 coding 里大量的开发者已经迁移到 Claude-3.5-Sonnet 生态了。因此 OpenAI 肯定是组织出了一些问题的,那么多老人都离开了,不是一个很好的事情。

大家都说 Google 的组织问题很大,但 OpenAI 的组织问题其实也很大。

张小珺:Chatbot 现在这个产品形态会是一个过渡性的产品形态吗?还是最终的形态?如果是过渡,未来会有什么新的形态?

李广密:Chatbot 大概率还不是提取智能最有效的交互方式,但是目前唯一有效的形态。因为 chatbot 的适用范围广、兼容性强,未来肯定还是需要更不一样的形态的。目前,大模型的智能水平已经挺高了,比如我幻想我的面前就是一个 AI 浏览器,或者一个巨大的白板、一个任务看板,很多的任务都在上面运行,有 Todo list 、各种图表,只需要我来确认和指导下一步怎么做,围绕某个 topic 可以无限的展开。

还是需要一个好的产品形态来降低用户的门槛,今天,ChatGPT 对话门槛是比较高的,有时候我面对 ChatGPT、Claude,我不知道怎么提问。如果模型能更主动的告诉我如何提问,我会更容易的下手。例如现在我们下载抖音、小红书,就能直接用起来,因为系统会主动给用户推荐。单一的 chatbot 大概率不是 AI 的最终形态,模型可以更懂用户的需求,不需要跟用户对话,就可以猜到用户的意图。比如,让模型阅读我过去几个月 Chrome 里面的浏览记录,它就有了更多的上下文的 context,这样就会更懂用户了。

今天,chat 的形态其实是限制了上下文的长度的,一定程度上降低了模型的智能,长期来看,越聪明的模型越不需要跟人对话,AI 未来需要自动的采集用户的行为信息、上下文,变得更加主动,像抖音和淘宝主动给我推荐商品一样。

张小珺:仅是对话这个产品本身,而是它也是提取智能的一种方式,这个很有意思。

李广密:它有 context,context 是一个特别重要的东西。

张小珺:OpenAI 把技术有五个分级,第一级就是现在的 Chatbot 聊天机器人,用自然语言进行对话的人工智能。第二级是推理者,大概是 o1 这种可以解决人类级别智力性的问题。第三级是 agents 智能主体,它能够有代表用户采取行动。第四级是创新者,第五级是组织者。你怎么看这个分级?它会是产品形态演变的一个主要线索吗?

李广密:我觉得这个分级标准非常好,应该把它作为一个主线的线索去思考产品形态演变。现在我们可能处在 Level 2 和 3 之间,所以明年最期待的是 agent 落地。

我觉得还有两个思考角度,第一个角度,可以画一个企业的组织架构图,AI 的能力是从下往上一直进化到 CEO 那一层。另外一个角度,是再把企业内部的能力做拆分,比如编程能力、设计能力、沟通能力、销售、寻找和处理信息的能力、数据分析能力,AI 也会横向逐个替代掉。一个是从下往上替代,一个是横向替代,对应这五个分级。短期做到替代一个企业的 CEO 层面还是比较难的,但两年左右的时间做到一个 manager 水平是有可能的。

张小珺:Managers 能等同于 agent 吗?

李广密:长距离、多步推理任务如果能落地,那就会超过 90% 的 manager。我觉得 25-26 年是看得到的。

张小珺:这些 AI 如果进入组织的话,它是跟人配合工作还是能够独立完成工作?

李广密:肯定还是需要人配合的,但是它能完成任务的数量会大幅提升。

张小珺:刚才提到要模型更主动,能增加人的互动,也能够帮助 AI 提取智能。怎么让模型更主动呢?

李广密:一方面是产品形态怎么设计的更好?可能的形态是个人助理或超级助理这个形态,助理是更主动的。更重要的是技术架构,尤其是 context。

我觉得 99% 的从业者目前都只盯着模型的生成能力或者 coding 能力,但更加核心的是 context 的采集能力。如果没有 context 的同步,绝大多数的任务成功率都非常低的。context 是非常重要的,绝大多数人可能还没意识到。例如,再厉害的主任医师,如果没有体检报告、健康数据、检查报告,也很难跟聊几句就下诊断。

Context 就是各种背景上下文信息。这是一个关键的暗线。之前的暗线可能是 RL、cost,而今天的暗线愈发清晰是 context。

张小珺:相当于谁能获得更多的 Context,谁的智能水平提升就会更快。Context 可以展开讲讲吗,以及 context 可以通过什么形式获得?

李广密:有一个简单的比喻:Context 是新时代的支付。之前红杉中国投电商的时候有一个非常精辟的认知:电商的两翼是物流和支付,这是两个最基础的商业基础设施。如果没有这物流和支付,其实网购体验会非常差,买东西的成功率是非常低的。

AI 的模型帮用户做任务的成功率的高低不完全取决于模型的生成或者 coding 能力,更取决于 context 是否充分的同步了。例如,要做一个个人的 agent、网页,用户很难告诉模型各种 prompt,描述半天也没办法把个人 agent 或者网页做好。但是如果同步用户的个人知识库、个人的软件信息,AI 还可以用搜索引擎去搜网上相关的信息,这样做个人的 agent 或官网是更容易成功的,因为它有更多的数据、context。纯语言 prompt 成功率是很低的。

此外,context 获取数据同步应该是自动化的,而不完全是通过人工 prompt。比如我们有一个 claude bot 在 slack 里面,一直默默的跟踪我们怎么做投研、怎么讨论各种话题、怎么找信息,怎么与人沟通。某一天,我再交给它一个任务,它有各种上下文,沟通成本就非常低了。时间长了后,让它帮我做一个怎么做投研的 workflow,它就可以自己总结出来,这就是慢慢沉淀投研的最佳实践工作流。

张小珺:这种情况下用户个人隐私问题怎么办?

李广密:目前,我们所有的数据都在互联网上,我们会真的关注隐私吗?1% 的用户会关注隐私,但是 99% 的用户会被效率和能力吸引。滚滚大势,阻挡不了。

张小珺:如果 AI 是中心化的 AI,他也知道你的信息,也知道我的信息,他会把我的信息告诉你吗?

李广密:所以我认为新时代的安全机会很大。

张小珺:如果 AI 的生成能力增强了,未来会生成什么?

李广密:这是一个非常值钱的问题,我的答案是新时代的软件。移动互联网增加最大体量的数据是内容,智能手机可以随时的创作、消费内容。AI 时代最大的增量数据是软件。而软件的本质是什么?软件的本质是人类行为的自动化,企业软件是那些最佳的工作流的自动化。未来的软件的开发应该是怎么样?未来的软件的开发范式又会是怎么样?

张小珺:SAP 这些公司价值在哪里?

李广密:SAP 是过去几十年整个生产制造业的最佳实践的工作流自动化,分发给了低效率的地方,这个最佳实践的自动化是 SAP 重要的用处。但是人类还有特别多的行为、最佳实践是没有被自动化的,这会是未来增加的巨大增量。


03 

下一个 Google 可能是超级助理

张小珺:未来的软件会是什么样子?

李广密:过去,软件是人为主动定义的,定义一个通用的需求之后交给外包团队去开发,就像传统导演拍电影。未来,软件不一定是人为主动去定义创造,而是日常的 context 自动同步给模型,它自动化的生成软件。比如,AI 知道我日常怎么做投研信息,他就帮我 automate 整个过程,我还可以 share 给我的同事。今天,不可能有一个几十人的开发团队专门帮一个人去开发,因为只有单一用户自己在用,投入产出比就不够高。

之前播客也有聊到,未来的软件生成,会不会像目前的短视频内容创作一样,门槛非常低?有很大概率,我们自己也不知道这个任务怎么完成,就像平时我交给同事做任务,同事和 AI 都是自己做了很多探索,有自己的规划,都能更有效的探索出来一个更好的工作流。有一个很值得思考的一个问题:如果 2025 年 AIcoding 能力变强 5 倍、10 倍、30 倍,软件开发效率提升 10 倍,软件生产成本大幅的降低,会有哪些机会?

张小珺:当一个软件面向给普通的消费者的时候,它可能不叫软件?

李广密:对,这里需要好的产品形态定义。agent 到来,coding 能力变强了,需要一个非常重要的产品形态接下来。2011 年的时候,我们去投推荐引擎,投推荐引擎本身是无法赚钱的,但是我们要投信息流产品,最早的今日头条,还有后面的抖音。

过去没有做机器学习和推荐的公司,都没有成为大公司。但不能外专门为了投 coding 去投 coding,而是投 coding 这个能力象限下,未来可能出现的产品形态。推荐引擎造就了信息流产品,coding 未来会造就什么?一方面是服务传统的软件开发,另一方面是更民主化、更新的形态的产品。现在需要一个天才来定义新的产品形态,就像之前字节定义出来信息流产品的人是绝对的天才。

张小珺:《流浪地球 2》里面刘德华饰演那个角色用 AI 重写了底层操作系统,这种科幻电影场景里面是不是也会实现?

李广密:它发展到你说的第五级了,那个架构逻辑复杂度是非常高的。

张小珺:Coding 和下一个 Google 是一件事吗?

李广密:是同一件事,殊途同归。因为背后的技术底层都是一样的,都是一个任务引擎,完成各类任务的自动化。

张小珺:为什么大家在一个新的时代要想的就是下一个 Google,Google 对于互联网时代意味着什么?

李广密:下一个 Google 不是 Google 本身,也不是搜索引擎本身,而是重新组织信息本身。过去,门户组织信息,搜索引擎又重新组织了网页,推荐引擎再次重新组织了信息。未来,重新组织信息和 token 变成了大模型这个引擎。

重新组织 token 背后本质是智能,代表的任务是生产力。淘宝重新组织了商品,下一个 Google 不是做 Google 本身,而是做一个更高效率的东西,解决更厚、更深的问题,提供更大的价值。

张小珺:搜索、coding 有独立存在的机会和必要吗?如刚才所说,ChatGPT 应该是统一的任务引擎、巨大的任务信息重组产品,那搜索和 coding 还有独立成为入口的必要性吗?

李广密:不绝对,存在即合理。微软做了 Windows,那么上面的  killer app 都应该做好,比如 office、浏览器。但是浏览器、搜索都是 Google 做得更好,因此我觉得不完全绝对。掌握 OS 的公司有更强的竞争力,可以端到端优化。微软有企业级的关系,又做了 Azure 云,它是更有优势的。当下,Perplexity 和其它的 coding 公司本质上没有和底层拉开差距,而且过于依赖底层。现在很难下绝对判断,甚至有可能 Claude 未来就是一个 coding model,往上做 coding agent、做 Devin。如果目前的 GPT、Claude 不做 Devin,肯定又是巨大的战略失误。

张小珺:你对 OpenAI 的认知有没有发生过变化?现在的认知是基于最近发生的事情,还是从第一天就这么认为?

李广密:我更多是从投资或商业视角来看。

第一,这个公司的投资回报率怎么样?之前我认为 OpenAI 是 AI lab,但是今年下半年 ChatGPT 用户增长这么大,开始能算账了。但现在 1,570 亿美金的估值下,看不清楚 upside 有多大。虽然可以拍脑袋说它可能是万亿美金的公司,但现在还是很难有 fact、商业模式、计算财务模型去算账。

第二,从技术革命演变的角度,认知是在变化的。之前我们每期播客,我都觉得智能和模型最重要,其他都不重要。但未来两年,AI 应用端的落、 agent 落地,是非常重要的,最领先的三四家模型可能在模型层面拉不开绝对的差异了。OpenAI、Anthropic、Google 的模型都不错,Llama、xAI 还在奋力的追赶,但追上来难度也不高,还是要能做出应用差异化。

Anthropic 的  Claude-3.5-Sonnet 模型出来之后,能力和口碑已经超过了 GPT-4o,Claude 的 c 端和 b 端都涨得非常多,但依然还很难翻盘 ChatGPT。ChatGPT 的 c 端心智和品牌效应壁垒太强了。我们身边 90% 的人已经分不清楚哪个模型好了,模型已经比 90% 的人寻找信息和处理信息的能力更强。

张小珺:行业里掌握最前沿认知那一批人,对于模型能力、产品的构想,是跑着跑着刚认知到的,还是从第一天就看到了趋势?

李广密:绝大多数人是跑着跑着刚认知道的,也有极少数人有自己一直的坚持。Anthropic 的 CEO Dario 很早之前就提出 coding 非常重要,不排除 Claude 就是一个 coding model。他一直很重视的就是 agent 落地,而不是 c 端产品。Dario 认为 c 端产品对推动 AGI 是没有太多帮助的。今天,Dario 现在的认知肯定也会发生变化,可能觉得 c 端也挺重要的,但他自己是个科学家,做 c 端消费级产品的 sense 没那么好。此外,ChatGPT 品牌效应又很强,因此很难翻盘反超的。我们很难预测未来,但可以有自己的信仰和 bet。每个人和每个公司都有不同的信仰或者不同阶段最重要的 bet。

张小珺:我们目前有一个特别重要的关键词叫做 agent 落地,但是我对这个词没有什么画面感,它和目前我们看到 c 端产品是不一样吗?

李广密:Agent 是需要形态的。Perplexity 就是帮用户使用搜索引擎的 agent,Devin 是更好的帮用户用好模型做任务的 agent,这是目前相对有一定 agent 雏形的产品。而上一次播客时,我觉得还没有任何能称得上 agent 雏形的产品。Devin 的出现属于 agent 的真正雏形了,大家可以多看看 Devin 的 Demo。

张小珺:OpenAI 的领先优势是放大的还是缩小的?

李广密:局部放大,局部缩小。ChatGPT 的 c 端,最大的壁垒已经不再是模型或者技术层面了,而是品牌或者心智。这是比技术或者模型壁垒更高的。Claude 模型虽然有些能力比 ChatGPT 要好,但是很难反超,因为品牌是更强大的壁垒,ChatGPT 领先第二名 10 倍甚至更多的数量级。这个领先优势还是放大的,因为明年做到可能 10 亿的 MAU 了。预训练模型的领先优势是缩小的,因为天然的收益空间在变小,最主要的原因是公开互联网的数据快用光了,20-30t 是 text 文本的极限了。

但背后的创新体系领先优势是放大的,就像好莱坞工业化的电影体系,预训练环节可能就是 OpenAI 拍的一部电影,而 o1 又是一部电影,OpenAI 能持续的在智能这条线下做出新东西。这个是其他大公司不太具备的,即便告诉我们这个电影具体怎么拍,我们也不能完全复现结果。创新的工业体系是最难的,这是 OpenAI 的内功。就像我们每天看足球,研究 c 罗怎么踢球的视频,把回放看很多次,自己有可能也踢不进那个球。

张小珺:OpenAI 到底会是下一个 Google,还是下一个网景、施乐?

李广密:都有概率。OpenAI 要变成一个真正伟大的公司是有一些必要条件的。首先它的架构重组要弄好,如果马斯克诉讼 OpenAI 只能保持非盈利,那人才肯定要流失。第二,OpenAI 要找到更高效率的商业模式,不然每年 5-10 倍的 CapEX 上涨是不持续的。组织问题会随着公司快速奔跑而解决,今天 OpenAI 的组织问题不比 Google 小。

张小珺:OpenAI 过去哪些期待过高,哪些期待不足?

李广密:我们脑子里能想到很多关键词:比如说 Sam 曾提到的:投入 7 千亿美金制造芯片、GPT-5、合成数据已被突破、AGI 的口号等、AGI 背后到底是什么不重要,重要的是在往这个方向走。这些关键词都期待过高了。但 Sam 对整个行业是好事情,因为给大家争取了更多的资源,从业者的薪酬翻了非常多,投入的资金也增加了很多倍。出色的人最早都是有争议的,乔布斯有争议,马斯克更有争议。只要哪天 OpenAI 真正成功了,Sam 的争议其实都会消去。

智能技术的价值现在是短期高估,长期低估。智能到底是什么?今天如果没有电,我们晚上就无法工作。智能能 automate 非常多的最佳实践,大幅提升人类的生产效率。

张小珺:从投资人的视角来看,ChatGPT 这个产品优秀吗?

李广密:从投资人经常看的指标上是挺优秀的。首先留存很好,品牌心智很强,从第三方数据来看,ChatGPT 的长期留存是非常好的,12 个月之后还有 50%。Database 的粘性很高,跟 Notion 差不多,只是目前没有数据飞轮、规模效应、网络效应,但后面是会有的。

还有一个投资人会经常关注的指标:DAU/MAU 的比例。这个比例不太高。典型的工具类产品是 15-20%,这个会决定用户一个月有几天打开产品。DAU/MAU 是 20%,意味着一个月 30 天中的 6 天是使用产品的。一个月有 6 天代开 ChatGPT,这个指标是不高的,而优秀的产品都是比较高的。微信的 DAU/MAU 差不多 1:1,抖音一个月用户会用 20 多天,小红书也是 20 多天,Google 搜索用户每月会用 15-20 天,甚至更多。怎么把 DAU/MAU 的比例提上去是很关键的。

另外,search 类产品用户每天打开了之后,衡量具体会用几次是很关键的。如果用户打开后只用个一两次,是非常差的。因为搜索没解决好问题,而 4-5 次是比较优秀的。未来怎么把使用频次和粘性提上去?还会不会有新的产品能打败 ChatGPT?

目前的心智来看,只是 chat 形态其实很难翻盘,需要通过一个全新的形态占住用户的心智。如果商业模式或产品形态问题不解决,目前的 AI 会偏向 SP 移动梦网的时代,还没有看到 iPhone。基础设施没有那么成熟、没有支付、没有物流、没有摄像头,就像是高中刚用手机的时候只有图文。但 SP 时代移动梦网的公司,在走向移动互联网时,没有一家转型成为大公司的,全是全新的公司,不管是字节跳动、美团、还是拼多多,而移动互联网公司都没有从上一波留下来。

张小珺:为什么 LLM 产品的数据飞轮一直比较差?

李广密:因为用户带来的数据平均质量比模型内在分布的数据质量差。模型预训练的数据质量很高的,但大部分用户是没有模型聪明的,那带来的噪音就会更多。

张小珺:当于自动驾驶做到一定水平了,但还在给它灌大量普通司机的数据,模型只能变差?

李广密:用户的数据更多代表用户的偏好数据,而不是能力数据。偏好数据不能提升能力。搜索、推荐,是整个人类在大规模投票,是更准确、更好看的,因为搜索引擎是偏好即能力,而大模型的能力是另外一种数据。

张小珺:既然 LLM 产品都想成为 Google 已经变成了一张名牌,那 Google 在这个过程中有能力阻止这件事情发生吗?

李广密:我对 Google 的判断也是一直是比较 mix 的。一方面,Google 手上的好牌其实非常多,TPU 代表无限的算力,安卓、Chrome 代表最强的分发能力,只是之前受限于两个问题:第一,组织问题,CEO 能力有限。第二,商业模式问题,因为目前 chatbot 里面的用户的 query 变现价值比较低,Google 这种大体量的公司大幅转向 chatbot 产品形态很难。但搜索和推荐,其实都是信息分发,那么下一个 Google 有可能是超级助理。

信息分发和超级助理的异同点是什么?信息分发是主线,助理也是主线,既会融合,也会竞争。助理是更主动、跟人更 close 的,有更多的 context,能占据用户的信任,更多的数据 access。但信息分发也是一个方向,助理也可以做信息分发,掌握信息获取的来源。但做信息分发的公司,比如字节、Google、Meta,也可以从信息分发走向助理。Apple 的 Siri 有可能也是一个助理,都是同一场仗。

有可能下一个 Google 是一个任务引擎,也有可能是一个助理形态,本质都是一样的。今天,我们还比较难定义出来助理产品背后的需求。但信息分发代表什么?人类最基础的需求就是要获取信息、娱乐,所以信息分发是一个基础的需求。但助理形态是哪些需求会被激发出来?这是未来两三年会能看到的。

张小珺:助理会在手机、电脑上吗?它还是一个 APP 吗?APP 的劣势是我要找到它、点开它。

李广密:大概率还是在手机和电脑上的,目前还看不到全新的、大众级的设备。

它可以帮用户使用工具,帮用户使用 APP,离用户更近。所以,Siri 的位置是特别好的,当然 Siri 的 context 窗口输入效率还不够高,可能还是屏幕的效率更高一些。例如目前我们面对面对话效率很高,但如果再代培一个白板、PPT 展示,效率会更高。我会感到一个特别的感触时刻:从命令行 DOS 时代,突然转到 GUI,这就是天才,定义出来 GUI 用户交互的界面。目前,我们把大模型看成一个新的计算机,需要一个更好的交互。Chatbot 肯定不是完全的 GUI,但它的好处是广泛兼容。


04 

AI 竞赛赛局盘点

张小珺:去年这个时候,大家认为大模型公司一定需要技术型的创始人,但目前这个事情不再被那么强调了,更需要的是一个超级产品经理?

李广密:超级产品经理如果不懂技术也是不行的。目前,AI 产品都是 post-train 环节决定的,未来的超级产品经理可能是从做 post-train 的人里面出现的。因为 post-train 决定了模型的各方面的性格、偏好,pretrain 训练出来,是一个差不多的模型,而 post-train 决定模型性格。在这个基础之上,需要对交互理解更深,理解什么样的交互效率会更高。如果我有一个白板、Todolist,是不是这个产品图形化的界面会更好?交互效率更高?不只是和 Chatbot 对话,有时候一图胜千言。

张小珺:下一个 Google,虽然不是 Google,你认为会是垄断公司吗?市场上会有一家还是多家?

李广密:我倾向于会有多家公司。今天,AI 产品还没有规模和网络效应,只有品牌效应。除非哪天跑出很强的规模效应。Google 当时的技术是遥遥领先的,后面又出现了很强的规模效应和网络效应,导致其超高的市场份额。

张小珺:今天,所有人都在打这场下一个 Google 的争夺战,目前到达了哪个阶段?场上的选手们分别积累了哪些优势、护城河?

李广密:红杉美国最近的一篇文章总结的很好:

• Google 是端到端、full-stack 的垂直整合。

• OpenAI 最大的壁垒是品牌,综合能力客观来说也是最强的。

• Anthropic 强在人才,是全球范围内最强的 AI lab,占领了 coding 和协议,和 Amazon 深度绑定,比较安全。Anthropic 可能是未来的 OS。

• xAI 数据中心建设很快,但问题是超大的集群是否有用?目前还无法回答。这也是 xAI 最大的 bet,万一赌错了,就要下牌桌。

• Meta 站稳了开源生态,实际上,Meta 会充分受益于 AI 应用端。

我比较看好 Amazon,它是全球最好的云厂商,和 Anthropic 关系,相比微软和 OpenAI 更健康。Amazon 要自研 TPU,确定性很高。可以看到,微软在向上做应用,Copilot 做得非常糟糕,但 AWS 向下做计算架构,这也是不同的 bet 相比起微软,我更喜欢 Amazon 一些。

今天看到的结果是微软过去两年做产品的能力非常糟糕,微软最早跟上了 OpenAI 的 hype,但自己的产品做得不好,微软作为大公司太慢了,Cursor 和 Devin 这种开发者产品都不应该从微软的手下溜走,但反过来说,微软还是最后的赢家,因为销售和绑定能力太强了。即使今天错过了机会,它不一定需要从 0 到 1 的开发,但最后通过收购或者抄袭同样可以领先。比如 Teams 和 Zoom,还有安全方面的 Okta,最终都可以追回来。

Apple 握着最好的牌,但还不知道怎么打。从估值角度,Apple 的股票一直不便宜,说明大家对它预期很高。

小公司层面,Perplexity 抢跑了,占住了一些品牌、心智效应,也有一定规模。每天用户搜索 Query 量级已经大概是 ChatGPT 的一半了,虽然对比的只是 ChatGPT 搜索的 query,不包含其他 query,但这个量级也不小。我认为 Perplexity 明年被收购的可能性很大,任何一个平台公司都不能错过搜索。搜索非常关键,第一,平台可以在前端收集用户意图,意图数据对于平台极其重要。第二,搜索会重塑后端的技术能力。

Cursor 、 Devin 这些面向开发者群体的产品同样是抢跑选手,产品做得非常好。这些公司和微软以及底层模型的关系非常重要,因为竞争威胁主要来自微软和两个模型厂商。

张小珺:现在看起来除了 OpenAI 的 ChatGPT,其他的大模型产品和明星项目都是抢跑型选手,可能会护不住自己的领地?

李广密:小公司的创业者一定要抢跑、跑得快。一定要形成规模效应或者网络效应,才能赢得竞争并形成壁垒。

张小珺:后期他们会需要和大厂绑定或者被收购吗?

李广密:这个问题并不绝对,有些需要绑定,有些不需要。

张小珺:你怎么看 OpenAI 和微软长期的关系?

李广密:可以称为同床异梦。双方都有不同的想法,不像 Amazon 和 Anthropic 的关系那么简单健康。微软和 OpenAI 分家的概率不小,如果分家了,微软自身的 AI 能力其实很差,所以会有麻烦。如果我是微软,我一定会投 Anthropic,这样反而更互补。

张小珺:但如果微软投了 Anthropic,可能会加速和 OpenAI 的破裂?

李广密:未来所有的模型都会部署到所有的云上。Anthropic 更像一个 OS 厂商,而微软的主线一直都是 OS。微软是可以承受搜索,比如 Bing 输掉,但 OS 是不能输的。

OS 和 OS 之间是相吸的。Windows 、Azure 和 AWS 两朵云、安卓和 iOS,其实都是 OS。模型就是新的 OS。OpenAI 和 Anthropic 是有分歧的,OpenAI 要做最大的 killer app,Anthropic 要做一个 OS。OpenAI 可能端到端都会做,killer app 也做,OS 也做,但可能不够专注,没办法做好 OS 本身。

张小珺:DeepSeek 是想走 Anthropic 那条路吗?

李广密:大家都没办法在 C 端像 ChatGPT 有强品牌心智,所以只能讲 Anthropic 的故事。DeepSeek 也不像 xAI 有很强的资源,那要么需要在某个能力上极其领先,比如 coding 和别的能力,或者在另一个新产品形态下变得更好。

张小珺:接下来我们来聊聊除了 OpenAI 之外的这几家公司的产品。你过去半年对于 Anthropic 有怎样的认知变化?

李广密:Claude-3.5-Sonnet 是专业开发者群体认为最好的群体。从 6 月 20 号发布 Sonnet 后,我身边很多人从 GPT 转向了 Sonnet,因为 Sonnet 的 coding 能力非常强。coding 对拉动 API 的营收增长是非常明显的。评估模型能力最核心的指标就是 coding,因为开发者不会撒谎,而是真金白银投票,coding 也是影响 reasoning 能力。我的总结是得 coding 者得开发者,得 API 消耗,有机会得到生态做 OS。

Anthropic 另一个好处是管理层非常稳定,不像 OpenAI 这样 drama。公司还持续从 OpenAI 挖人。未来一段时间还能看到更多高水平的人从其他模型公司转向 Anthropic,人才流动还是一个比较关键的信号。

张小珺:Anthropic 发布的 computer use 功能对于市场后续的影响是什么?

李广密:这个功能今天还有一些 demo 或者噱头为主的成分在。Anthropic 先发出来,占住先发的心智。今天其实准确率还不高,但提升比较快。Computer use 可以被理解为模型的 action、执行的环节,也可以说它是新的浏览器,或是任务执行器。Action 是每家模型公司必做的,只是 Anthropic 抢先发布了。此外,computer use 是多模态技术落地最重要的 case 之一,因为模型要理解后台的截屏、屏幕里面的信息。

我比较喜欢 Anthropic 的 Artifacts,它像一个新的 browser。Browser 可以理解为一个任务容器,用户看到的任何东西都可以编辑、拖拽。今天还是很初级的应用,但未来的空间非常大。

大家可以重视一下 Anthropic 新开源的 context 协议标准:MCP,它是协议层,长期影响会比较大。

张小珺:Anthropic 和 OpenAI 最大的差别之一是 Anthropic 对 c 端投入不是那么重视,他们接下来会加大对于 c 端产品的投入吗?

李广密:是的,Anthropic c 端确实比较弱,但是 c 端收入体量并不小。主要原因是管理层太过科学家背景,CEO Dario 之前不太重视 c 端,认为 c 端对于实现 AGI 没有太大帮助。今天来看确实帮助不大,但是对于分发模型有帮助,未来一定会被重视。

ANthropic 也开始投放广告了,但是科学家背景的管理层可能对 C 端产品的 sense 不强,加上 ChatGPT 太强了,还是很难翻盘。Anthropic 的 CPO Mike 之前是 Instagram 的产品负责人兼 CTO,Mike 还是现在 OpenAI  CPO Kevin Weil 的老板,可能他的产品能力比 OpenAI 更强一些,但是 ChatGPT 的心智和品牌效应确实更强。

张小珺:OpenAI 有很大的先发优势。你今天怎么认知大模型和 C 端产品的关系?

李广密:这几个 AI Lab 不一定能做出最强的 killer app,但想要 killer app 长期保持竞争力,还是需要端到端的垂直整合能力,向下优化成本、模型、模型架构等。模型变小后要优化模型数据的分布,甚至未来会向下优化硬件到芯片。端到端垂直整合是 killer app 长期要做的事情。

Anthropic 会更专注在 Agent。如何让 agent 落地是 Anthropic 在 bet 的事情,可能 agent 也会落地到 ChatGPT。OpenAI 今天最大的 bet 就是把 ChatGPT 的 C 端持续做大,做到 10-20 个亿,未来 OpenAI 的生态就长在 ChatGPT 上。

我觉得 ChatGPT 未来有可能成为全球最大的 killer app,DeepMind、Anthropic 未来可能成为全球最强的两个 AI Lab,Anthropic 也可能成为 AI 的 OS,在 OS 之上会长出新的软件、agent。我认为更重要的是 DeepMind 和 Anthropic 的两位 CEO 站在了人类的角度思考问题,比如 AI for Science 可能成为他们的 killer app。我更欣赏他们的愿景,比如消灭疾病、让人类寿命增加到 150 年。

张小珺:xAI 呢?

李广密:xAI 的团队刚超过 100 人,但 OpenAI 有 2,000 人,Anthropic 1,000 人,相比之下,xAI 的团队是非常精简的,可以说是人手不够用。估值过高后招人会变得困难,因为很多人会考虑股票的弹性空间。

xAI 是全球范围内最快部署上线 10 万卡集群的公司,OpenAI 或 Anthropic 都没有这么大的单一集群。马斯克还要上线更大的集群,所以 GPU 资源是非常充裕的,对训练是足够的。但本质问题是,不确定 GPU 超大集群是否会带来质变。Grok 今天还没有追上最新的 3.5 Sonnet 或者 GPT-4o,但进步速度非常快,这个公司成立很短的时间内训练了几代模型都非常成功,几乎没有失败。我认为下一代 Grok-3 或许可以追平最高水平,甚至反超,或者在某些能力上做得更好。

我认为 xAI 有两个大的 bet:

一方面是我们都看到的几十万卡集群,有可能带来新的能力涌现。但几十万卡集群到底是否有用,今天没有人知道,也没有人试过,试错成本太高。

其次是多模态,因为 FSD 已经被验证了。他们是相信多模态的,但坦白来说没有任何依据支持多模态可以提升智能。今天科学界的共识也是多模态不提升模型的智商,因为它信息密度比较低,单个像素的信息不会对智能带来任何提升,而且训练多模态的 infra 投入也比较大。大家在语言上投入太多,多模态上面投入占比较小,马斯克可能认为其他人再多模态上面的投入较少,如果给足投入会有更强的智能涌现。这也可能是 xAI 的一个 bet。

但 xAI 想胜出还是需要差异化,像 Anthropic 一样,从 coding 这类某个能力象限胜出。需要有差异化才能胜出,或者 xAI 直接把 Perplexity 收购了,专注做搜索。xAI 目标或许也不是 OpenAI,最后也是对标 Google 使用其他的形态做信息分发,和 Twitter 一起做更主动的推荐。xAI 最终注定是可以成功的,但有多大的 upside 还不清楚。

张小珺:什么时候能看到 xAI 这两个赌注的结果?

李广密:明年肯定能看到。

张小珺:你怎么看 Elon Musk 的公司?

李广密:他的公司今天有一些比特币化,不要算账,也算不清楚,算账就输了。马斯克的公司都是他的粉丝或者散户买单,更好听的说法是为梦想买单,因为传统机构很难做出财务模型过 IC。马斯克的位置对中美关系很好,也或许可以更好地处理 TikTok 的复杂问题,是中美关系更好的桥梁。如果 TikTok 安全着陆,它与 xAI 的深入合作对 xAI 未尝不是一件好事情。

张小珺:那么 Perplexity 呢?

李广密:其实 Perplexity 不是自己做搜索引擎,它没有自己的模型、index,而是能够帮助用户更好地使用搜索引擎这一工具。Perplexity 更像一个信息处理的 agent。复盘来看,Perplexity 有两个点做得比较好:第一,它真的把 AI search 的体验做好了,赢到了用户心智,第二,它重新定义了 AI 搜索的交互形态,可以追问、互动。Google 只是静态的导航,AI 这一代产品的互动性非常重要。

这一波技术浪潮下,我最喜欢的 AI native 产品就是 Perplexity 和 Cursor,还有 Devin。他们的共同点是预判对了模型进步的方向,所以接下来预判智能进步的方向非常重要。

张小珺:除了 Perplexity,另一个很火的 AI 应用产品 Cursor 呢?

李广密:Cursor 是成长非常快的产品。Claude-3.5-Sonnet 6 月份发布后,Cursor 7 月份就发布了,从 7 月到现在,它的 ARR 从 0 涨到了 7000 万美金,甚至更多,明年有希望做到 2-3 亿美金的 ARR。Cursor 的新一轮融资公布了,25 亿美金的估值,我觉得是合理的。coding 的产品形态需要快速迭代,之前 Github Copilot 是在补全下一个代码,现在 Cursor 可以补全下一个 action,明年或许就可以端到端的生成软件了。

张小珺:你刚才说了好几次的 Devin 怎么样?

李广密:我认为 Devin 是第一个真正意义上处理长距离复杂任务的 agent,具备了几个重要 agent 雏形的要素。第一,它可以在后台工作,第二,它可以做多步骤长距离的任务,第三,它可以在过程当中根据反馈做出自己的决策,第四,它可以使用工具,比如浏览器、搜索引擎等。明年或许最有价值的产品就是处理长距离、long-horizon 的 task。

张小珺:Mistral 呢?

李广密:我觉得 Mistral 不用太多关注了,他们预训练已经掉队了,后续只能在 Llama 的基础上做 post-training 更适合。


05 

2025 年关键预测

张小珺:25 年的跨年相比 24 年聊应用的篇幅比模型多出许多,你之前对 AI 大模型的很多预言事后都验证了,延续我们大模型季报的特色来聊聊对未来 25-26 年的一些关键判断。刚才聊到智能进步,方向非常重要。未来智能还会进步吗?25-26 年有哪些比较重要的方面?

李广密:智能百分之百会进步,只是它的智商可能不会像 80 提升到 120 这样迅速,可能是从 120 到 125-130 的提升,但更重要的是它可以干活了,我对 25-26 年最大的期待就是 agent 可以落地,尤其是长距离多步骤的任务,long-horizon task。

硅谷核心圈子的大佬级别的人物都在做类似的事情,比如 OpenAI 的 CTO Mira 离职后也在做 long-horizon agent。也可以类比 Perplexity,Aravind 当年离职后想做的是 RAG-based search。Long-horizon 的 task 落地是 agent 创业最核心的方向,包括最领先的模型公司,比如 OpenAI 和 Anthropic,都花了很大精力训练 long-horizon task。其实可以理解为做一个更复杂任务的 agent。

张小珺:做长期规划的智能体难点是什么?

李广密:要求的准确性非常高,对工程能力要求也很高。大家可以研究一下 Devin,他是一个作为长距离 agent 比较好的样板。

张小珺:明年 AI 应用会遍地开花吗?

李广密:我对明年 agent 落地或局部落地比较乐观。26 年会更大范围地遍地开花。Anthropic 的 MCP 和 Claude-3.5-Sonnet 模型都比较专注让 agent 落地,包括 OpenAI 的 post-training 团队也分了很大精力支持 agent 落地。OpenAI CTO Mira 的新公司也在做。

最近 Devin 产品的 demo 在看了朋友的体验后,我认为还是很惊艳的。Cursor 最近也发布了 agent 模式的产品,agent 是各个重要的 agent 公司明年发力的重点。

张小珺:明年除了 agent 很重要,还有哪些重要的关注点?

李广密:产品形态的探索,是否会有一个全新的交互界面?比如 chatbot 今天的形态没办法释放 o1 模型的能力,也不太适应摄像头、多模态的能力。

AI 最关键的基础设施到底是什么?当年电商最重要的基础设施是物流和支付,AI 时代新的商业基础设施是什么?是不是 context?今天,AI 的商业模式还停留在 SP 移动梦网的时代,依然是扣费模式,后面需要更强的商业模式覆盖后端成本。Cursor 虽然今天涨的快,但是它的 token cost 也很高,每个月要付几百万美金给到 Sonnet 和 GPT 模型。更强的商业模式是结果,本质还是是否能提供更大、更本质的价值。

各个垂直领域也比较重要,比如如何找到高质量、scalable 的数据,可能需要几千上万条高质量的任务,并对应 reward,这需要一些高水平的专家进行标注。

张小珺:这里自动驾驶是不是一个拥有相对完整、比较好的 reward model 的领域?

李广密:是的。自动驾驶是个非常典型,端到端都比较好的模型。但它的 action space 非常小,仅仅通过前后左右来判断安全。但语言和机器人的 action space 非常大,reward 就特别难定义。只要是在限定领域的 reward 都是比较容易定义清楚的。

张小珺:还有像自动驾驶这样的限定领域中比较好定义的场景吗?

李广密:量化、coding、数学。下一代模型也比较关键,无论是传说中的 GPT-5 Orion,还是 Anthropic 的 Claude-3.5-Opus,或者 Gemini 的更大模型,他们的能力提升幅度有多大。我觉得不用悲观,但也不要过度乐观。肯定智能会有提升,但是不会像以前从 80 提升至 120 这样的陡峭。

张小珺:陡峭的时候智能提升是快的?

李广密:o1 的天花板在哪里?o1 做完了可能会有 o2、o3,大规模 scale o1 到 o2 到底会怎么样?有时候,模型训练的收益来得快,但瓶颈有时来得也快。o1 可能是走向 AGI 的必经之路,但不知道是否会很快碰到天花板。如果 o1 这条路失败了,达到 AGI 可能还要再耽误几年。

张小珺:你怎么理解 o1 的天花板?

李广密:可以举个例子,今天全球 70 亿人,每天都在做任务,这 70 亿人每天产生的新的知识增量信息有多少?还是过去几千年祖先积累的知识更多?如果把 70 亿人持续探索和 inference 一整年的知识和信息加起来,如果比过去老祖先积累的多,本质上就代表人类可以用算力换数据,这件事情很伟大。说明合成数据是成立的,但如果 70 亿人忙碌一年没有产生新知识,没有任何增量信息,不如祖先积累的多,那 o1 可能很快就到天花板了。

我个人是相信 70 亿人一定可以产生更多的新知识的,只不过边际可能没那么陡峭。

张小珺:还有什么重要的问题?

李广密:还有两个重要问题。

• 第一,假设 coding 能力明年能提升 10-30 倍,软件开发的范式会有什么改变?新的软件生态会怎么样?未来的软件会怎么样?

• 第二,context 非常重要,我觉得大家还不够重视。

另外,还有很多科研问题值得探索,没有解决的问题依然很多。比如,模型架构上进行什么样的改变,可以让模型在后台持续思考?比如今天的一个问题,人类可以思考一周再给出答案。人类今天学到一个知识,实时更新了大脑的记忆,但模型今天还没办法实时更新,这点也有提升空间。

张小珺:你认为在明、后年 C 端产品重要吗?

李广密:我认为 C 端产品肯定也是重要的,比如谁能追上 ChatGPT 的规模?以 Chatbot 的形态主导的产品大概率不会成为下一个赢家了,需要有差异化的价值。核心指标可以看产品每周的活跃用户量,下一个做到大几千万,甚至 1-2 个亿的产品,可以拿到下一张船票。

张小珺:所以总结下来,未来两年的关键因素有非常多方面?

李广密:用户规模很重要,比产品形态重要很多。基础模型可能还会突破,pre-train 可能还会有半代到一代的提升,但大家在技术模型的突破重点都放到了 post-training 上。

数据也非常重要,我很期待有产品形成数据飞轮,挖到大量高价值的数据或者在合成数据上有所突破。包括 AI 公司所谓的组织能力如何快速迭代。模型也重要,产品也重要,未来产品的粘性也需要提升。

今天,ChatGPT 的时长、粘性、频次都不如 Google 和抖音,说明它承载的需求和可供挖掘的空间非常大。GPU 和人才也非常重要。真正懂 AI,并在一线干活的人非常少,而人才是非常关键的。很多 Lab 都在说人手不够,我觉得真正懂的几十个人非常分散,还没有特别集中。

张小珺:一年前你说大模型的秘密在三家公司:OpenAI,Anthropic 和 Google,现在怎么看?

李广密:今天大的格局依然是这样,只是人才确实有流动。之前,我们说做到 GPT-4 很难,但今天很多模型公司都做到了初代 GPT-4,但没有做到 GPT-4o 和 Claude-3.5-Sonnet 的水平。过去两年,模型能力的进步是非常陡峭的。两年内,模型进步的陡峭程度可能比人类进化 100 年的智力提升还要高。

端到端、 full-stack 是比较重要的,但创业公司没办法做到那么多。所以,创业公司就需要找到非常锋利的点,做出一根针捅破天的产品。

张小珺:两年内,你认为巨头之间会有什么大变化吗?

李广密:不排除微软投资 Anthropic。

张小珺:很多人说 scaling law 的魔法就要失灵了,你对 scaling law 持有什么样的观点,能不能解读一下最近 Ilya 发表的观点:pre-train data wall?

李广密:现在有几条 scaling law,Ilya 认为的 data wall 是预训练的数据瓶颈。互联网的数据是线性增长的,比如每月增加 1T 有效 token。但模型预训练需要的数据是指数级增长的。我们上一期播客已经隐晦地提了这件事情,但 Ilya 今天公开说了。

预训练今天看是 100% 遇到困难了,无论是 GPT-5,Claude-3.5-Opus,Gemini Ultra 等。预期不一定会非常高,但也不差。不确定这是永久性问题,还是短期问题。有些人很悲观,有些人很乐观。

今天的瓶颈一定不是计算或者架构问题,主要还是数据问题。互联网上,能用来提升智商、用来大规模训练的数据可能就 20-30T,每个月增加不到 1T 就到极限了。但有的人会乐观地觉得现有数据的量化挖掘空间还很大,需要提高 data efficiency。比如,人类学习一个知识只需要 5-10 条样本,但模型需要几千、上万条才能学会。25-26 年能不能让模型学习效率提升。其次,整个互联网上的数据占到人类智慧的 5-10%,如何让更多的人类智慧灌入模型中?这可能需要一个天才设计的交互系统。推荐算法、推荐引擎已经把人的偏好数据沉淀在模型中了,但人的智能如何更好地被沉淀在模型中?

OpenAI 遇到这个问题比较早,但是到今天也没有完全放弃 pre-train,只是把 pre-train 和 post-train 重新整合了,现在叫 fundamental research。GPU 分布也会有变化。之前,大家做 pre-train,pre-train 和实验可能会占到整个 GPU 分布的 80-90%,未来可能 pre-train 和 post-train 占到了 1:1 的关系。Tier-1 的公司都不能放弃 pre-train,因为这还会有提升,也是底座。

第二条 scaling law 是 o1 系列,分歧点在 o1 的天花板到底在哪里,能不能通用、泛化。今天,语言模型到底是不是真正的泛化是不清楚的。很多问题都在训练数据分布内。如果 o1 不能泛化,只能在数学和代码里面很强,会影响这轮 AGI 的天花板。OpenAI 基本 all-in 到 o1、o2 这条大的 bet,如果这条路失败,OpenAI 会面对比较大的挑战。赌赢了,天花板会打开更多。

张小珺:我们之前聊的 o1 那期播客中你聊到后训练有一个关键问题是奖励模型 reward model,整个地球上也没有一个 reward model 能衡量所有人,你相信未来会有吗?

李广密:我觉得很难有一个绝对通用的 reward model 能够衡量所有事。因为每个人、每个领域都很不一样,甚至昨天、今天、明天都不一样。最尖端的 researcher 可能也没有想到泛化 reward model 的方法。不知道 Ilya 未来会不会有解。

可以确定的是,今天数据非常重要。大家花了很多精力标注数据,需要真实的高质量数据,现在每个人都会负责收集不同领域的数据,标注数据、请专家评估。在不同领域进行学习,大家依赖各个领域的数据拼凑提升模型。Reward model 通用泛化还是需要科学突破的。

张小珺:o1 的天花板会卡在哪里?o1 的路线是共识吗?它一定会走向 AGI 吗?

李广密:真正的天花板可能会在数据和泛化。我觉得泛化可能是唯一关键的问题。回到刚才说的,是否要相信这个世界上会有一个统一、能评价所有人、所有职业的大一统 reward model?还是各个行业垂直构建的 reward model?如果是各个行业垂直的情况,那需要雇很多的人,设计任务、设计 reward,像老师出题一样。这样的速度就比较慢了。但从 o1 产品的角度来讲,我观察身边人使用频率并不高,它的产品形态今天也有瑕疵,比较慢,延迟比较高,使用门槛也比较高。实际上,90% 甚至 99% 的用户的 query 都用不到 o1。

o1 擅长解难题,但普通用户用不到。它数理的准确度更高,数学和代码都很高。

张小珺:你认为 o1 的路线是共识吗?它一定会走向 AGI 吗?

李广密:这还是一个计算科学、实验科学待发现的问题。只是今天还没看到天花板,值得重点投入、尝试。但至于最后走到哪里,今天是有分歧的。有些人人觉得,o1 的天花板非常高,只要把 task reward 设计好,就能激发出 pre-train model 激发不出的能力。

也有一部分人认为 o1 可能很快遇到天花板,因为收益提升快,但遇到瓶颈也很快,不能完全靠模型 scale。o1 还是能让人参与做 reward 的过程,过去两年合作了一些专家参与标注,设计 reward,这是数据上比较重要的部分。即使 o1 走不下去,或者最终无法到达 AGI,沿途下站的成果也可能做出很好的产品,毕竟资源很多,人才也很多。

张小珺:所以 scaling law 听起来可能算法不是问题,算力也不是问题,遇到问题的是数据?

李广密:是的。大模型公司要考虑的还是如何更 scalable 采集高价值数据,未来形成有价值的数据飞轮。比如某天能够出现天才的产品经理,将人类讨论过程的数据记录下来反馈给模型,是比较重要的,我们讨论的过程有 Chain-of-thought 数据,这是模型记录不了的,这是有价值的数据。包括如何用数据激发模型更大的能力,尤其是刚才提到的 data efficiency 如何提高。能力弱的人需要学很多条才能学会,能力强的人,可能两条就学会了,这就是效率的问题。

张小珺:我开个脑洞,飞书这样的产品形态可能是雏形吗?它有大量的工作讨论。

李广密:它的数据价值很高,Notion 这样个人笔记软件的数据价值也很高,数据资产的价值很高,但产品形态不好说。

张小珺:ChatGPT 的数据飞轮比较小?

李广密:ChatGPT 主要得到了偏好数据,而不是能力数据。它可以把你的偏好高效筛选,提升 MAU,或者用户时长,但对 AGI 没有什么帮助。搜索、推荐也都是人类大规模投票的标注。如果 ChatGPT 把用户偏好数据用太多,答案会趋向一致,丧失多样性。

本来生成答案的可能有 1 万种,但投票投多了就 200 种。ToC 用户的数据是有价值的,但未来如何用好还要做很多研究。大多数的用户数据没有逻辑,但提升逻辑的方法很多,不一定需要用户数据。

一件可能有意义的事是:用户关心的需求是重要的,这会让产品体验更好,可以定向优化模型,优化数据。Google 有用户的意图数据,它可以基于此进行后端优化,这会更有意义。

张小珺:未来 ChatGPT 会有数据飞轮吗?

李广密:存在一个理想的状态:某个天才产品经理,设计了某个形态,把人类的思考的过程和高价值的数据都传递给模型,最有意思的就是你刚才提到的 FSD。推荐系统也是比较好的一个模型,甚至笔记软件 Notion 的知识库里也可能是获取数据、形成数据飞轮比较好的过程。

未来的形态可能一端是模型、一端是个人软件,如何把个人软件的数据 hack 出来,作为 context 自动放到模型里帮助完成任务,这个过程非常有意思。我觉得今天让人标注的方式都不够本质、不够 scalable。如果不考虑隐私的情况下有个 AI Bot 每天看你的微信,同步做其他事情,这是一个更自动化的过程。

张小珺:所以产品不是只要人用就可以,还需要看如何在和人交互的过程中吸收人类的智力。

李广密:对。

张小珺:哪些产品里还有高价值数据?

李广密:比如搜索,首先用户意图数据很重要,但未来 AI 搜索有持续性的研究话题,并能够持续追问,这里面可能有高价值数据和 CoT 数据。Notion 里有高价值数据,那是用户反复想出来的知识,结论比较多。未来,AI 公司的 Artifacts 或 OpenAI 的 Canvas 可能也能有,因为做任务过程中产生的拖拽,可以记录用户思考的过程。

浏览器上的点击数据也很有价值,点击是有用户行为和逻辑的。但 Google 不敢用这个 Chrome 的数据,因为可能有合规问题。操作系统的数据也非常重要,因为有用户怎么操作软件的数据,未来 AI 是可以模仿用户操作软件的。

张小珺:Anthropic coding 能力比较好是因为在数据上做了特殊处理吗?

李广密:还是预训练的 code、data 做的比较认真。最后,关键点还是数据。好的 AI 公司都花了大量的时间在数据上,比如 OpenAI、Anthropic。但如何做好数据,大家是没有共识的,tier 2 的公司其实都是没做好数据的。

张小珺:按照我们之前跨年特辑的传统,回顾一下你心目中能定义 2024 年全球大模型产业的关键时刻?

李广密:如果只说一个,我会说今年夏天 6 月 20 日 Anthropic Claude-3.5-Sonnet 模型发布,因为这个模型真的让大家进入生产力提升的阶段,带来 coding 编程能力的巨大进步,紧接着,才让后面的 Cursor 和今天的 Devin 火爆。今天他们大部分的用量都来自于 Sonnet,Cursor 和 Devin 都要给 Sonnet 付几百万美金的 token 消耗费用。

张小珺:这是全球大模型狂卷的第二年,你觉得经过了这一年卷出了什么?

李广密:coding 开始进入了大规模生产力提升的阶段。25 年对 coding 更乐观、确定性更高,代表下一代软件生态的形成。

也卷出了 ChatGPT 这一 killer app,在 c 端一枝独秀。今年 agent 的基础设施落地慢慢临近了。

张小珺:今天想要进入决赛圈,条件是什么?

李广密:c 端用户和开发者的投票。各家的产品有没有真正被用起来,有没有拿到用户、开发者的投票,这是一个条件。如果你的东西没人用,自己说的再厉害都没用。

模型层,拥有 10 万张有效、已经使用的卡,这是全球第一梯队的决赛标准,没有这点是不行的。

张小珺:哪家公司的产品真正被用起来,和你去年说谁能先做到 GPT-4,他们的关系是什么?

李广密:做到 GPT-4 代表一个智能水平,只有到了这个标准用户才会用、才会买单。但是大家今天都超过或者做到初代 GPT-4 了,前面还有能力更强的模型。这点已经没有意义了,因此,还是需要有差异化的能力或智能的体现。

张小珺:人工智能是能力。

李广密:对。但我觉得在决赛圈没有大腿好像是不行的。OpenAI、Anthropic、xAI 、Llama 都有大腿。

张小珺:你去年这个时候说,2024 年是决定长期格局最关键的一年,格局形成后以后很难改变。今天来看你的说法对吗?

李广密:过去一年挺清楚的,和我们上一年跨年预测的一致。模型第一梯队可能就是 3 家或者 3+2 的发货月:OpenAI、Anthropic、Google 属于绝对的第一梯队,xAI 和 Llama 紧随其后,没有额外的竞争对手了。模型格局很难改变了,谁还会今天加入第一梯队?微软、Amazon 都不容易,字节有可能。

张小珺:哪些去年的判断,你今天更坚信了?哪些去年的判断,你今天认知有所变化?

李广密:对比开源模型和闭源模型的观点会有些改变,因为有 Meta 的存在,Mera 的投入比我们想象的要更加强大,这点对比之前的判断发生了很大变化。也要看 Llama 4 会怎么样。去年跨年,我们判断字节很有优势,今天更清晰了,豆包的 DAU 非常强大。如果字节明年用户增长很强,模型和产品一起迭代可能会比较好。

去年,我们提出了新的摩尔定律,这个预测还算准确,误差非常小。我对成本降低更加坚信了,未来做 inference 推理的主力模型不一定是特别大、 100B 以上的模型,而是 3-8 B 的一档位,或 30-50B 的这一档位。这两档可能会做 inference 的主力,而不需要 100B 以上做主力的推理模型。

之前,我对底座模型和预训练的预期更高。之前我们预测 25 年才会碰到数据问题,没想到这么早。先前觉得还能在此之前走好几代,没想到撞墙来的这么快。其次,巨头和大公司依然非常有优势,无论是 Apple、Amazon、Google 和字节,这些大公司还会很强。

张小珺:美股市值最大的 7 巨头里面,你最看好哪个?

李广密:股票角度,今天我比较喜欢 Amazon。第一,它和 Anthropic 的合作关系比微软和 OpenAI 更健康,Anthropic 的模型某些地方比 GPT 更好,对 AWS 的拉动很明显。如果认真看 AWS 财报,它的 AI 业务增速每年是 100%,在翻倍。因此,边际增量的利润是很高的,能接近 80%。大家都低估了 AWS 的盈利能力,这一能力未来还会很强。

还有一个关键点是自研芯片,这是比微软和 OpenAI 领先的,相当于 AWS 这一大的云厂商有了自己的 TPU,这一战略落地对 AWS 的意义比较大。

张小珺:为什么不是微软?

李广密:微软的产品一直做的不好。比如 Cursor、Devin 这种面向开发者群体的产品从微软手上溜走,Copilot 也没有达到大家预期。

张小珺:哪些公司有可能成为下一个万亿美金市值的公司?这里不作投资建议。

李广密:SpaceX 和字节的确定性非常高,OpenAI 也有潜质。

张小珺:你觉得 o1 能否短期做到通用泛化?

李广密:比较难。今天语言无法判断是否真正泛化,也可能今天的语言是假泛化,真的泛化还需要突破。我比较期待 Ilya 如何解决这个问题。

张小珺:哪些行业会被改变得很快?

李广密:涉及到知识工作者的自动化都有机会被 agent 改变,可以把很多 workflow 都自动化。

张小珺:你对明年投资哪里比较乐观?

李广密:各个领域都会出来背景比较好的 agent 公司,类似 Devin 的架构。一批一批的 Devin 会出来。

张小珺:明年如果只投一个方向,你会投什么?

李广密:围绕 coding 相关、 agent 落地相结合的。解决刚才提到的长距离推理任务的 long-horizon task。

张小珺:AI 市场的泡沫大吗?

李广密:大产业总是预期走在营收前面,有泡沫对产业是好事。但长期变成伟大公司的前提是要跑出好的商业模式,把泡沫填上。

张小珺:硅谷人才正在流向哪些公司?

李广密:Anthropic、OpenAI CTO Mira 和 post-training lead Barrett 的新公司、Cursor、Devin,这几个是比较好的。

张小珺:你有什么比较喜欢的产品公司?这些公司在 AI 时代能发挥更大价值?

李广密:Notion 很好,因为占住了个人的知识数据,数据资产的价值很大。微信的数据资产价值也很大,但微信可能不好用,因为涉及到隐私的问题。

张小珺:总结一下这一轮最大的机会在哪里?

李广密:这一轮最大的机会有三个:第一是我们一直聊的下一个 Google,融合了搜索、推荐、问答、coding、做任务。它可以更加的主动和被动,体现在信息分发、超级助理,这是最大的机会,确定性最高,是明牌,大家都在做。

第二是下一个 Meta,核心是互动性,大家赌的是形成一个新的内容消费平台,是从视频生成或者其他的方面。但我们今天高估了生成环节的重要性,其他环节也很重要。

第三是我们低估了 AI for Science,科学发现。全球最强的两个 Lab 的 CEO 都很看好,一个是 Anthropic 的 CEO Dario,看另一个是 DeepMind 的 CEO Demis。Demis 个人专注在一个制药的公司,可以从他的 Twitter 签名看到。硅谷这边已经有不少 AI for Science 的苗头了,专注于 AI 材料设计的团队也会更多。

张小珺:下一个 Google 指的是新的任务分发工具,下一个 Meta 指的是社交吗?

李广密:这是一个新的内容消费和娱乐平台。可能会像是 Tik Tok。当然如果有新的社交也可以,但我不知道新的社交要素是什么。

张小珺:能不能总结一下 24 年的几个关键词?

李广密: Coding、Coding、Coding.

张小珺:预测一下 25 年的关键词?

李广密:  Agent、Agent、Agent.

张小珺:我们聊全球大模型季报一年了,AI 真实的改变了你的工作流了吗?

李广密:还是改变了很多,寻找信息和处理信息的效率提高了非常多。我自己经常换着用 Claude,ChatGPT 和 Perplexity 这三个产品。




更多阅读

DeepSeek-V3外网刷屏爆火,训练成本只有600万,把AI大佬都炸出来了
Speak:AI语言学习的第一个独角兽,ARR 5000万美元,用户超1000万
Bolt.new:2 个月,0到2000万美元ARR,史上增长最快的编程产品
当面批评、扁平化管理、要白板不要PPT,黄仁勋是如何管理英伟达的?

转载原创文章请添加微信:founderparker