专栏名称: 十字路口Crossing
AI 正在给各行各业带来改变,我们在「十字路口」关注变革与机会,寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱,新变化,新的可能性。「十字路口」是乔布斯形容苹果公司站在科技与人文的十字路口,伟大的产品往往诞生在这里。
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1644期):大型语言模型的指令 ... ·  5 天前  
爱可可-爱生活  ·  在与Claude和GPT-4这样的大语言模型 ... ·  6 天前  
申妈的妹子圈  ·  腾讯被美国军方列入“清单” ·  6 天前  
申妈的妹子圈  ·  腾讯被美国军方列入“清单” ·  6 天前  
地刊速览  ·  Nat. ... ·  6 天前  
地刊速览  ·  Nat. ... ·  6 天前  
51好读  ›  专栏  ›  十字路口Crossing

2025 开年对谈:AI 关键之年,Agent 开启元年 | 对谈真格基金戴雨森

十字路口Crossing  · 公众号  · AI 科技自媒体  · 2025-01-10 14:35

正文

2025 开年第一周,本期是真格基金播客「此话当真[1]」与「十字路口[2]」的串台特别节目。我们邀请到了老朋友、真格基金管理合伙人戴雨森做客。我们不仅回顾了 AI 在过去一年的飞速发展,还展望了 2025 年 AI 创业领域的重大机遇。

站在 2025 年初,我和雨森都感到无比兴奋,认为我们正在亲历科技史上的重要时刻。这份兴奋源自两个重大事件:Devin 的问世,以及 OpenAI 发布的 o3。

正因如此,我们满怀乐观地迎接 2025 年,坚信这将是充满希望的一年。



半年前,在「十字路口」,雨森曾打了一个比方:大模型还是小学生,不该急着让它去打工。如今,随着真正可用的 Agent 产品 Devin 的发布,雨森认为 AI 编程领域完成了重要进化——从"我问你答",到"我问你写",再到"我问你做"。这个突破不仅代表 AI 编程领域的重大进展,更预示着一批充满潜力的 AI 垂直领域创业机会。

💚 希望大家新年快乐,拥有爱和希望。


微信收听播客:


小宇宙收听播客:



2024 回顾:AI 技术爆发,模型进步超预期,应用增长显著

🚥 Koji

我们先来问雨森的第一个问题:2024 年这一年下来,你的整体感受是什么?


👦🏻 戴雨森

非常高兴能够跟 Koji 再次合作,分享我们对于 AI 发展和投资的感受,和大家有交流的机会。

2024 年这一年下来,整体感觉我觉得一个字是「快」。因为我们看到 AI 的模型以及产品的迭代速度都很快。

我记得在 24 年年初时,最先进的模型是 GPT-4。那个时候有个新的 benchmark 叫 SWE-bench[3],是把 GitHub 上常见的任务类型拿下来让 AI 去尝试完成。当时最先进的模型 GPT-4 在这上面的得分是 2.8 分,满分是 100 分。到 24 年年底时,大家可以用到的 Sonnet 3.5 能够得到 50 分,也就是能解决一半的任务。而刚刚发布的 o3 在初步评测里已经得了 71.7 分。

乐观来讲,以这个速度在一年的时间内,也就是 25 年,我们就可以看到人类绝大部分 GitHub 上的任务都能被 AI 解决了。这也意味着现有程序员的单个任务,虽然不是整体工作,但确实有很多都可以被解决。24 年年初时,ChatGPT 还不太会做四则运算,那时候大家经常考它三位数乘三位数,它可能也会算错。但现在解答 IMO 级别的题目已经得心应手,甚至在对数学家来说都很难的 Frontier Math 测试集上,o3 也得到了 25 分的成绩。这是陶哲轩背书的,他认为这些题目简单的是 IMO 级别,难的是前沿研究级别,现在 AI 也能做得不错。


🚥 Koji

这对应用带来了哪些影响?


👦🏻 戴雨森

我们投资的 Kimi,他们的产品是 23 年 10 月 9 号,差不多在 24 年开始前一点时间上线的。到 24 年年底已经有 4000 万月活用户。考虑到它是一个一年左右时间的新应用,这个用户增长速度非常快。

我还记得在 24 年二月份春节假期时,看到 Sora 的发布宣传片觉得非常震撼。当时想着这样的产品要过多久、以什么样的成本才能用到这样的视频生成模型。但在 24 年底时,大家已经可以用上了。其实像可灵、混元等一系列产品,包括 Google 也出了 Veo 2,都是比当时的 Sora 可能更好的视频生成模型,而且是免费的,让大家觉得不过如此。所以大家对于 AI 产品的标准提高很快,一年前让人惊叹的东西,现在可能就觉得平常。但我们始终觉得还有更多可以做的事情,还有很多东西没落地,实际上进展是非常快的。

同时我觉得也有很多观点和看法被打脸。我记得在 24 年开始时,如果你去问中国的投资人、创业者,很多人都要做中国的 Character AI,当时大家都觉得这好像是一个 To C 应用,又有很多人用,还说要「百 C 大战」。


🚥 Koji

年初很多人预测 2024 年一定会发生的一个趋势是 「百 C 大战」。


👦🏻 戴雨森

反正我没有那么预测,但有很多人这么预测。在 24 年 8 月份,Character AI 就宣布被 Google 收购,大家发现要破圈也不是那么容易。我记得 3 月份的时候,Cognition 这家公司,也就是 Devin 的开发者,他们发了一个 demo 视频。那时候大家都不相信,觉得这个公司是忽悠,甚至有人说是骗子,还有打假的视频。结果 12 月 Devin 这个产品出来,大家大为震惊,发现居然是真的,可以做到很多 AI 的功能。这个我们待会儿会接着讨论,这也是一个很大的反差。

我还记得在 23 年年底 OpenAI 的宫斗事件,那个时候整个 OpenAI 的员工都集体在 Twitter 上发声支持 Sam Altman,说「OpenAI is nothing without its people」,是刷屏的内容。但到 24 年底,走了不知道多少人。最后连元老 Alec Radford,OpenAI 的核心研究员也走了。那中间基本上大部分早期员工都走了。包括在年初的时候,大家觉得 GPT-5 很快要出来,但一直到年底 GPT-4.5 也没有出来。等来的是另外一条路线,就是 o1、o3 这条在 inference 的路线。

所以我觉得一年下来有很多变化,不管是快速的变化,还是很多让人想不到或没有预计到的变化。这可能就是一个行业早期变化的常态。


🚥 Koji

半年前在十字路口那期播客里,雨森有一个核心观点是说「大模型还是小学生,不要急着让他去打工赚钱,给他多一些耐心。」

说这句话的时候,背后暗示着认为技术的进步虽然很快,但离商业化还很远,离 To C 的大规模应用还很远。那在今天你还是这么认为吗?还是你觉得进化的速度比你当时理解的要快?


👦🏻 戴雨森

首先当时说这句话其实有一个上下文,就是大家在问「训练模型花了这么多钱,什么时候才能赚回来?」在讨论训练模型投资回报周期时,我觉得这符合每次技术革命的相似模式:

先投入资金进行基础建设和科研,然后产品逐渐找到落地场景,最终产生商业化收入。

那么一年下来,在一些具体模型能力比较擅长的具体领域,比如 coding 领域,大模型的能力确实已经超过了可以「打工」的阈值。就像我之前提到的,在 SWE-bench 测试上,年初只能解决 2% 的问题,显然还无法胜任工作,但现在已经能解决 50% 的问题。尤其是在 ChatGPT 3.5 出现后,我们看到像 Cursor、Windsurf 以及 Devin 这样的产品开始涌现,它们能够真正帮助程序员解决很多问题,为生产力带来实质性提升。

从收入角度看,一些原生 AI 应用在找到产品市场契合点 (PMF) 后增长迅速。比如 Cursor 现在的年度经常性收入 (ARR) 已接近 1 亿美元。另一家针对技术小白用户的 AI coding 公司 bolt.new在四个星期达到 400 万美元的 ARR、两个月内达到了 2000 万美元的 ARR,这是企业服务应用有史以来最快的增长。还有斯德哥尔摩的一家公司 lovable 在四周内就达到 400 万美元的年化收入。

包括我们投资的 AI 应用 Heygen 2023 年年中拿到 1 M ARR,在 18 个月内增长了几十倍,24 年年底达到近 50 M ARR。我们投资的 Monica 也已超过千万美元的 ARR,这些都是在短短十几个月内实现的。无论是海外创业公司还是我们投资的项目,在用户增长方面都取得了显著进展。比如前面提到的 Kimi 已经拥有 4000 万用户。

所以我认为,在某些领域 AI 已经具备了「打工」能力,但整体收入仍远低于成本。我们需要保持耐心,毕竟 ChatGPT 问世也才两年。我们仍处在一个模型能力不断提升、解锁新应用场景的阶段。只有在应用场景产生足够多的价值之后,才能逐步开展商业化。


🚥 Koji

其实我觉得这一波技术扩散的速度非常快。刚才提到的 Cursor、bolt.new,包括 Heygen 和 Monica,除了 Monica 因为肖弘送了我 VIP 会员,另外三个我都是付费用户。这些技术扩散起来,我觉得比上一波更快。即便它们并没有网络效应,但今天有一帮非常热情的技术前沿探索者,大家在不断尝试新事物,并且热情洋溢地去传播。其实十字路口也是这样的一员,我和雨森每次用到什么兴奋的东西,也都会第一时间分享。

我有一个强烈的感受,也是我们录这一期的原因,就是希望让大家不要隔岸观火,不要觉得看到的只是各种版本号的新发布,好像对自己没什么影响。我特别希望大家能够跳到浪潮里面去,下载这些应用体验一下,早一点感受,早一点用起来。


👦🏻 戴雨森

我觉得有一句话说得特别好,是科幻作家 Gibson 说的:「未来已经到来了,只是没有均匀分布而已。」如果日常只是用一个简单的 chatbot,甚至还有很多人都没怎么用上 AI 产品,那可能就觉得这都是一些新闻头条而已,谁谁又打榜,谁谁又怎么样了。

但在某些特定领域,比如程序员,比如数字艺术创作者,我相信很多时候 AI 工具已经成为他们生产中不可或缺的一部分。所以我一直觉得,花一点时间或者花一点小钱去体验最新的 AI 产品,是非常值得的。因为这是一个很好的方式,可以直观感受到我们在某些领域的进步,也是看见未来的一个好办法

AI 技术扩散:如何让人人都能创造,而不只是使用

🚥 Koji

以及刚才提到不管是数字艺术创作者还是程序员这两个群体应用的大规模进步,我认为它们的意义并不仅仅是在帮助这两个群体。更重要的是在帮助普通人也能够去做原来只有程序员和艺术创作者才能做的创造,这才是更大的意义。

所以大家不要觉得「我不是程序员」或者「我不是数字艺术创作者,这个和我没关系」。我想说的是,这其实是和大家超级有关系,因为你现在就可以去做之前只有他们能做的事了。

我们再说回来,雨森你去年在真格大概聊了多少个 AI 应用的创业项目?有什么整体感受?你觉得 AI 应用落地的速度在加速吗?


👦🏻 戴雨森

我们团队加起来应该聊了上千个 AI 应用的创业项目。我自己看了一下,大概聊了一百多个,接近 200 个创业者。我们确实觉得随着技术的进展,AI 应用的落地速度在加快。

具体来说,我觉得三个进展很重要:

第一个是模型的推理能力,包括像 GPT-4o、o1 这类的发布。模型的推理能力变强之后,它的幻觉会减少,所以可以去规划和完成更加复杂的任务。

第二个是模型的编程能力提高。因为在数字世界,大量任务可以通过编写程序来完成。我们开始也提到,编程能力的增长速度非常快。当这些常见任务能够被编程解决的时候,至少在编程这个领域,以及可以被泛化为编程的其他领域,执行任务能力会强很多。

第三个是 Anthropic 首先提出的这个工具使用 computer use,AI 能够使用我们已有的软件,从浏览器开始到其他软件。人类社会造的这些软件都可以被 AI 用来解决任务。所以这几个加起来,我觉得对于 AI 完成任务的能力提高很多。

我觉得在 2025 年,Devin 的发布很重要,因为它是第一个把 agent 从大家的想象、从原型变成现实落地的产品。

我觉得我们在 25 年会很快看到各个领域的 agent 尝试都会出来。当然很多还是在比较初级的阶段,但我觉得会有很多很有意思的思考得以落地。


🚥 Koji

所以我们待会儿会花很大的篇幅来和大家聊 Devin,以及聊我们对以 agent 为代表的 AI 在明年发展的一些预期。


👦🏻 戴雨森

我们看到在美国和中国,AI 应用的创业方向是挺不一样的。在国内由于企业服务落地还是有些难度,导致很多创业者想做的还是 To C 的应用。而 To C 应用里面,确实很多都倾向于做杀时间的应用,比如各种情感陪伴、AI 聊天这样的变体。在美国我们看到的是各个细分领域,大家都在想去替代部分人类的工作,让工作变得更加降本增效。这是中国和美国创业方向的很大反差。

当然国内还有一个大方向就是机器人特别火,整个具身智能领域有非常多的新公司出来,拿了很多融资,甚至我们觉得有点过热。但整体来讲,我觉得大家还是非常兴奋的。尤其是对年轻创业者来说,因为之前大家可能觉得互联网时代已经快结束了,我们 80 后都是互联网时代的红利获得者,但是 00 后可以干什么呢?AI 没兴起来之前,他们觉得在互联网领域确实没什么可干的。但现在 AI 让大家看到了很多新机会,也是属于他们这一代年轻创业者的机会。所以我们作为一个始终关注年轻人的基金,还是觉得有很多有意思的创业者在出来,有意思的项目也在出来。


🚥 Koji

说到这一波的创业者,你觉得他们身上有哪些典型的共同点吗?除了对年轻更友好之外?


👦🏻 戴雨森

年轻是随着不同时代进展必然具有的特点。我认为首先他们普遍更加具有国际化视野,信息传播越来越快了。在互联网时代,海外一个应用火了,中国可能要过个三到六个月才有对标的产品出来。而现在基本上海外出现什么新事物,当天就会有新闻报道,很多还是通过 AI 去总结翻译的。所以大家对模型海外应用的进展普遍都很了解。

在这个时候,同样因为做的产品也往往都是国际化的,因为出海现在也是很大的主题。本来模型就具备很强的多语言能力,所以大家很多时候一开始做产品就是全球化的。这个在互联网时代大家是比较难以看到的,那时候大家往往都是说「我就做一个针对中国市场的产品」。而现在大家一开始就是两条路一起走,既有国内的也有国外的。我看到很多创业者和团队也更加 AI Native,不少人都有做 AI research 或者工程实践的经验,这也是他们能够更早看到机会并把机会落地实施的原因。

但同时,我觉得对于年轻的创业者来说,因为他们可能没有经历过互联网很多业务的流程,所以在推广、做商业化这些领域有些课需要补。在这个时候,一些老司机,比如像我们投资的 Monica 这样的团队,他们之前经历过很多互联网领域的增长,所以这方面的经验确实有一些优势。但我觉得这些都是可以学习的,并且也可以通过招人、通过团队的补充来提高,所以我们在这方面还是长期很有信心。我们相信新一代 AI Native 的创业者能够做出很有意思的产品,并且在该补的课上也能补回来。


🚥 Koji

我们接下来聊一聊从去年到今年,整个 AI 的技术突破、行业变化和创业机会在这些方面认知上的变迁。首先想问的是,有哪些观点是一年前你还蛮认可,但一年之后你自己已经不再认可的?


👦🏻 戴雨森

我觉得太多了,所以后来我都不太想录播客了,因为每次讲了就容易被打脸。

但要做早期投资,尤其是看早期技术,打脸是常态,只有不怕打脸才能够继续学习成长。

一年多以前,大家强调的都是 Pre-training,大家讲的都是说你需要有多少显卡、要有多大的集群,这也是 NVIDIA 股价暴涨的原因。因为大家简单地把它理解为:你有更多的显卡、更多的算力,丢更多的数据进去,很好的模型就会出来。

到 2024 年底 2025 年初来看,在 Pre-training 上确实从 OpenAI 以及各个行业领先团队来看,已经到了一个相对的瓶颈。

如果我们说 Pre-training 是对智能的压缩,那现在以文本等这些形式容易被压缩的智能已经压得差不多了。

Ilya 在发言时说,「互联网的这些文本就像化石燃料,是人类这么多年积累下来的文本,现在已经被我们都训练到模型里去了。接下来就需要新知识,不管是在我们脑子里面还没被提取出来的知识,或者是通过 AI 去产生的新知识,这样的知识增长速度其实没那么快。」所以我觉得 Pre-training 大力出奇迹,这是今年大家都意识到要发生改变的一个过程。

一年前我确实也聊到一些 agent 的内容。当时我觉得在大模型普遍存在很多幻觉的情况下,这种 autonomous agent 或者说 L4 级别的 agent 落地时间会需要比较长。但目前来看,模型的推理能力、代码生成能力和工具使用能力确实进展很快。这使得在数字世界里面,如果我们对于一些目标结果比较确定的任务,比如说编程,agent 落地的速度确实变快了很多。我们已经看到像 Devin 这样的产品已经不只是一个想法,而是成为了事实。

这里面有两个要点:一是如何更好地规划任务,能够做更长周期的 long time horizon 任务,这个能力变得很强;二是使用工具,包括写代码去使用和用已有的工具。这两个能力都变得很强的时候,agent 的落地速度可能会比大家想的要快,尤其是在数字世界里面。

第三点是,一年前大家普遍认为模型的 size 会越来越大,之前说可能是 7B、70B 可能到 700B。但目前来看,先进模型的 size 提升其实不用那么快。

我们可以用 70B 的模型得到越来越好的结果,同时我们也能够把同样的能力放在更小的模型上去运行。

所以实际上这种真正的超大模型,可能主要用于对使用模型的对齐,或者说作为 teacher model(教师模型)。这其实有点像最早个人电脑的时代。大家一开始都觉得 CPU 的处理器频率要越来越高,但实际上到了 3GHz 之后,单核频率就不怎么单独增长了,而是通过更好的架构、更低的能耗去提升性能。就像人的大脑一样,不是要越来越大,而是在同样的 size 下,学到更多知识和技能,变得更加聪明。在这方面,我觉得模型成本的下降是超出预期的。虽然大家一直都知道模型的成本会越来越低,但现在我们看到每年同样的模型或同样的智能,它的成本能下降到原来的十分之一。这会解锁很多应用机会,这些都是在 2024 年初时大家可能没有那么明显意识到,或者说在过程中发生改变的观点。


🚥 Koji

还有一个关于认知变迁的问题:有没有哪些是你在 2024 年初觉得值得关注但没那么重要,但到今天却变成了特别重要的认知?


👦🏻 戴雨森

我觉得首先作为投资人,我们对于前沿 research 的认知往往是有些滞后的。有些事情可能在研究员群体中已经形成共识,但我们还处于后知后觉的状态。

2024 年有一个重点,就是 Reinforcement Learning (RL)的兴起。前面提到 Pre-training 已经到了一个瓶颈,而在 Post-training 里面通过 RL 让模型能力持续变强,尤其是在 o1 和 o3 发布之后,大家发现在 Reinforcement Learning 这条路上还可以走很远,模型的能力可以提高很多。在 2024 年初的时候,这一点其实还只在很小的范围内讨论,还没有成为业界甚至研究界之外的普遍共识。所以我们发现预测大模型或者 AI 的技术路线永远是一件很难的事情。RL 这个方面的人才其实也很稀缺,所以大家都在做这样的团队建设和技术储备。

与此同时提出的一个非常重要的新的 scaling law,就是 inference scaling law如何把推理时间延长,得到更好的结果。这在去年是一个非常重要的进展,不仅体现在模型的设计上,也包括我们如何设计产品。因为现在大部分产品像 ChatGPT、Claude 或者像 Cursor 这样,都是要跟人进行实时互动,我说一句它回一句。那这个时候,如何让它每一步能够做更长的时间,甚至让它自己能够通过计划使用工具持续地去做事情,而不需要我持续输入。这种「System 2」思维方式,不是张口就来,而是经过深思熟虑之后得到更好的结果。在这方面如何获得更好的 performance,我觉得在今年会是非常重要的一点。

我觉得还有一个在一两年前大家觉得没那么重要,但现在可能觉得非常重要的是:我们已经有很多智能在模型里面了,但模型之前是没有什么 context 的。比如当我问 ChatGPT 一个问题,它实际上只有我的这个输入作为它的 context。事实上任何一个聪明人,如果只有一句话来回答问题,都是很难的。但我们现在看到,比如 Cursor 可以把整个组织的 codebase 作为 context,你可以选择一大块代码作为它的 context。而 Devin 其实是整合在 slack 里边,它能把组织里面已有的对话记录、功能记录作为 context。当模型在同样的智能水平下,有了更多的 context,就能够更好地理解意图,更好地回答问题。

我觉得在这个方面,新的产品设计如何让用户能够无痛、简单地把更多的 context 带进去,会变得很重要。所以我们现在看到的像 ChatGPT 这种一问一答的方式,我觉得还是一个非常原始的方式。大家都在思考新的产品形态是什么样子,这些都是今年大家逐渐意识到并浮出水面的东西。


🚥 Koji

我们在上一期的「十字路口」里正好聊到了 OpenAI 过去 12 天的连环发布会发布了什么。关于前面提到的第三点,即如何获得更多的 context,OpenAI 也发布了一个新功能:ChatGPT 的 Mac 版本现在可以读取你的屏幕,把屏幕上的内容作为 context,结合你的问题来给出回复。

这个读屏功能并不是简单的截屏,它可以读取三个层面的内容。第一个层面是截图式理解,即屏幕上显示什么它就理解什么。第二个层面是它可以读取程序窗口里的所有内容,哪怕这些内容现在并没有显示在屏幕上,需要滚动才能看到,它也可以获取这些信息。第三个层面是最厉害的,它可以知道你的光标位置因为光标在哪里,往往表明你当前的注意力最集中在哪里。因此当你问问题或与它讨论时,它会结合你的光标位置或你选中的文字来进行回复。

所以我觉得不只是在编程领域,比如前面提到的 Cursor 和 Devin。即使是 OpenAI,即使是 Chatbot 这样的模式下,context 的应用也会让 AI 的能力变得更强。


👦🏻 戴雨森

对,原来的 ChatGPT 有点像是你的一个笔友,你只能给他写邮件,你写一封他回一封。但如果这个「笔友」不是在邮件的另一端,而是站在你电脑后面,看着你如何使用电脑,甚至是住在你的电脑里面,能看到屏幕上看不到的东西,他显然会变得更有用。

所以我觉得如何把 AI 与用户的 context、用户已有的知识、组织已有的知识结合起来,对 AI 的作用是巨大的。因为它现在能够消化这么多的 context,这当然也得益于模型技术的进步。

从 ChatGPT 到 Devin:AI 编程的四个发展阶段与范式转变

🚥 Koji

不仅是这些,最近刚发布两周的 Gemini 2.0 也推出了多模态理解功能。你可以直接打开摄像头,然后指着摄像头看到的东西问「这是什么」。比如我试了一下,就问墙上一张电影节的海报:这是什么电影节、哪一届的海报。类似这样的问题在过去都只存在于科幻电影中,但在今天已经变成现实,而且这个现实是在可接受的成本之内,并且能以非常快的速度返回答案。当然它还没有特别好地变成一个 C 端产品,但大家去试用一下,我觉得这个效果真的很让人惊艳。

我们再聊一聊 AI 编程。在编程领域,今年取得了非常令人兴奋的进展。雨森一直有很强的框架归纳和总结能力。前不久你跟我分享过你提炼出来的 AI 编程发展四段论,要不要在播客里和大家分享一下?


👦🏻 戴雨森

这其实是和很多朋友一起探讨得出的结果,是大家智慧的结晶。AI 编程从 ChatGPT 出现到现在也就两年出头的时间,但已经经历了四个阶段。

第一个阶段是让 AI 直接写代码,典型代表是早期的 ChatGPT、Claude。我们给它一个需求,比如「帮我写个贪吃蛇」,它就给出一段代码。在这个过程中,它既不知道我为什么要写贪吃蛇,也不知道代码运行情况如何。可能要我去本地编译运行后发现报错,再把错误告诉它,它才能给出调试后的结果。这时的 AI 完全就像一个只能通过邮件交流的笔友,是简单的问答模式。

第二阶段是以 GitHub Copilot 为代表,AI 开始拥有上下文,它可以把整个组织的代码库作为 context。这样 AI 就获得了大量新的背景信息。但这时用户还是需要手动把代码贴到 IDE 里面进行调试。我觉得这是 2.0 阶段,就是我们让 AI 拥有了 codebase 作为上下文

2024 年一个非常大的进步是以 Cursor 为代表的编程 Copilot 的出现。它的核心理念是预测用户未来要写什么代码。根据你的代码库以及刚才写的代码,它预测你接下来要写什么代码、创建什么文件、做什么操作。这里面对于生成代码的质量和数量,以及文件的创建和修改都有很大提升。后来 Windsurf 还加入了对命令行操作的自动化,这样 AI 就能很好地使用我的电脑。原来的 AI 是在一张纸上写代码,我把代码抄走运行;现在 AI 可以在我的电脑上创建文件、执行命令行操作,进入到「我为你写」的阶段

当我们觉得这已经很令人兴奋时,Devin 的出现带来了几个重要突破:首先,它可以异步工作。Cursor、Windows 这些工具虽然一步操作做的事情比较多,但仍然需要持续的注意力,即「我说一步它做一步」。而 Devin 可以持续工作,把用户的注意力释放出来。这是因为它多了一个 Planner,可以规划任务。

其次,它可以通过虚拟机执行更多操作,做更多调试工作。比如你写个网站,它可以自己用虚拟机去访问这个网站,检查前端后端的业务逻辑是否正确,并且可以随时打断和调整。大家用 Cursor 或者 ChatGPT 都知道,你无法在它输出的中间做调整,必须等它输出完后才能修改。但 Devin 就像真人一样,你可以在它完成任务时给出新指令,它会把这个结合到已有的 planner 里调整计划。这就从「为你写」进化到了「为你做」。

总结一下这四个阶段:第一阶段是让 AI 写代码,代表是 ChatGPT;第二阶段是 AI 开放代码库,代表是 GitHub Copilot;第三阶段是 AI 可以自动写代码并执行,代表是 Cursor 和 Windows Terminal;第四阶段是 AI 虚拟员工,Devin 开创了一个很好的先例。

AI 出海攻略:深耕用户需求,巧用内容营销,避免简单投放

🚥 Koji

这很像一个比喻:1.0 时代的 AI 是「读万卷书」来回答问题,到了 4.0 时代则变成了「行万里路」。它成为一个真实的员工,你给它下达任务,它就去外面完成一圈,再回来向你汇报。这是我们亲眼见证的、在这一年中发生的跃迁式四阶段变化。

真格在过去投资了不少出海的 AI 创业团队,其中非常典型的代表是 Heygen 和 Monica,都表现得超级优秀。所以也想和你探讨一下出海的话题。

今年在整个行业里有一句广为流传的说法是「不出海就出局」,出海似乎变得非常重要,甚至是至关重要。所以首先想问你的是,为什么海外 AI 的落地和国内的反差这么大?以至于我们都鼓励英语都说不好的国内创业者去勇敢尝试,做一做 AI 的出海?


👦🏻 戴雨森

我觉得最核心的原因是 AI 目前主要是一个提高生产力的技术,而在人均工资高很多的欧美地区,他们对工具的付费意愿更强。

所以当你做一个生产力工具时,比如像我们投资的 Heygen、Monica 还有 Oculus、Max AI 等一系列提高生产力的工具,海外用户尤其是欧美用户对于生产力付费的意愿比较强,而且他们付的是美元,所以这个绝对金额更高。这是最重要的因素。

同时也有一些其他原因:比如说去海外能够使用能力更强的模型,如 Sonnet 3.5 或者 GPT-4o,所以能够解锁更多的应用场景,而国内大家能用到的模型确实还有一些差距。另外,当一个产品做好之后,因为大模型本身可以处理多语言的输入和输出,既然已经做了,为什么不把它面向全球化推广呢?

我觉得现在普遍采用了订阅制,这在国内确实比较难推行,但是海外订阅已经被广泛接受了。这样对于创业团队来说,他们做商业收入的能力也提高了很多。


🚥 Koji

所以你认为这一代的 AI 创业者,他需要具备哪些特点?然后你会鼓励他出海吗?因为我想你也不会鼓励所有人出海。


👦🏻 戴雨森

其实我们现在觉得当所有 VC 都劝创业者出海的时候,这往往就说明市场太热了。

因为我们一直在警惕这种所谓特别共识性的观点。而且我们觉得大部分中国创业者出海肯定是一个 debuff 而不是 buff,因为毕竟是客场作战,你要解决很多在国内不需要解决的问题,以及去了解很多原来并不了解的用户。

所以首先我觉得中国的机会其实很多,像我们在国内投的 Kimi、与爱为舞这些 AI 公司,其实增长得更快。只是说它的商业化可能会稍微慢一点。但是我觉得这也是互联网时代我们学到的一点。其实想想看互联网时代,当 eBay 那个时候很早商业化、抽佣金的时候,淘宝先免费,然后最后做成了更牛的商业模式。所以我觉得其实在中国和在欧美市场,本来适合的商业模式就不太一样,并不是每个团队都要去出海。


🚥 Koji

在今天已经选择要出海的中国创业者,我相信有很多人在听我们这期播客内容。那雨森,你会有什么样的建议给到他们吗?


👦🏻 戴雨森

我觉得出海其实跟在任何地方做产品一样,首先要非常了解用户的真实需求。在出海的过程中,因为隔着语言和地理位置的障碍,所以这一点变得更加重要,尤其在企业服务领域。因为之前我们见到蛮多中国做企业服务的创业者,觉得我们的工程师能力很强,解决问题的能力很强,所以他们觉得出海可以去超越竞争对手。

但很多时候我觉得,虽然我们的团队执行力很强,但定义关键问题需要实地调研和真正了解客户。所以尤其是在这种需要以销售驱动的领域,我们觉得一定要找到有 Go to Market 经验的专家甚至团队要去到对应的目的地。像 Monica 这样偏用户端的产品,需求可能相对比较普世或容易理解,那这个倒不一定。但对于企业服务来说,我觉得人一定要出去。

当然我们看到有很多做小众市场 (擦边)的,因为这类需求理解起来最容易,可能全人类都差不多。这是第一点,就是真的要搞清楚用户和需求。第二点,我觉得普遍做得好的团队的共性,就是要想清楚并找到一个低成本高回报的营销策略。比如我们看到 Heygen、Monica、Viggle 这些中国出海比较好的产品,其实往往都是把 SEO、社交媒体传播,或者优质内容的病毒式传播这些营销策略用得比较好,而不是简单地去做投放的打法

当然如果你的产品变现能力很强,这个时候也许做投放能把 ROI 算过来,但基本上现在投放都很贵。

所以如何巧妙地做营销,尤其是通过产品特性实现病毒式营销,变得非常重要。

把海外的 Twitter 这些平台用好,其实跟国内很不一样。因为在国内大家可能习惯了去投信息流、做投放,通过很厉害的投放方式去做。而在海外我觉得更要巧妙地去做。国内团队的产品执行力往往都很强,所以无非就是说做什么和怎么推广这两点,可能是大家普遍遇到比较有挑战,或者说做好了就会比较加分的地方。

AI 硬件创业:看上去很美,但需要谨慎对待

🚥 Koji

其实大家还有一个观点,就是觉得这一波做 AI 硬件的也蛮多的。做 AI 硬件可以特别好地利用到中国的优势资源。那在 AI 硬件领域,雨森你们在过去一年看过或投资了什么项目吗?


👦🏻 戴雨森

AI 硬件我们看了蛮多项目,但说实话我觉得硬件看上去很美,却不一定真的那么好落地。

过去落地比较好的还是这种,比如说海外已经把产品原型打出来了,我们去把它做得更快、更便宜,或者更小。当然我们也看到一些团队,比如像 Plaud,确实做出了很有创意的产品。但我觉得整体来说,硬件的扩展速度其实都没有那么快,软件反而还是更加适合现在 AI 扩散的载体。所以我们对于硬件一直都是比较谨慎的。

当然我们也有投这样的创业者,但我们整体并没有像有的基金那样投了很多。我自己对于 AI 硬件一直觉得,包括像当时的 Rabbit、Humane 刚出来的时候,我自己都是持比较谨慎的态度。

Devin:不只是一个编程工具,而是首个可用的真实 AI Agent

🚥 Koji

好,我们进到今天的第二部分,我们将和雨森一起来聊一聊 Devin。首先要和大家特别说明的是,我们今天会用非开发者的视角来聊。因为我俩都不是专业的工程师,虽然学了七年的计算机科学,但毕业之后就一直做产品经理。也是直到半年前 Cursor 发布之后,才重新开始写代码,应该说是重新开始命令 AI 帮我写代码(笑)。

但另一方面,正是因为我和雨森都是非开发者的背景,这反而让我们可以用独特的视角去感受和体验 Devin,并且去预测 AI Coding Agent 乃至更广义的 AI Agent 将如何改变每个人未来的生活和工作。

因为我们认为这一代 AI 编程技术最终会沿着两个方向发展:一个是服务专业的程序员和开发者,第二是赋能所有像我们这样的非开发者。而后者的商业价值和应用前景可能更加深远而广泛。

那第一个问题想问一下雨森,我们在发布的第一天,你其实就花了 500 美金去充值。那你充值了 Devin 之后,第一个用 Devin 做的事情是什么?以及你用它做的让你印象最深刻的事情是什么?


👦🏻 戴雨森

Devin 在安装完成之后,它有一些推荐的任务。其中有一个就是它会把你的名字带进去,在网上找你的信息,给你做个人网站。之后我让它做了我通常让实习生做的典型工作,比如说我给它一个任务:我们要改一改我们的创投基金的价值观宣言,英文叫 Manifesto。然后我说你去找一找美国有哪些顶级 VC,他们的 Manifesto 是什么?这是一个典型的任务,你大概知道需要找什么,但这需要有信息收集整理和解决问题的能力。

然后我就看它去做,这里面有很多很有意思的点。它首先要确定什么是美国的 Top VC,所以先去 Pitchbook、CB Insights 这些网站找有没有 Top VC 的列表。它先找到了它认为 Top 的十几家 VC,我看了看列表确实是比较顶级的十家,它就一个个去官网找他们的 Manifesto。但是 Manifesto 这个东西在 VC 里边其实有不同的叫法。比如说红杉叫 Ethos,在 Founders Fund 叫 Manifesto,在别的地方可能叫 About 或者 Philosophy。并且还有几个 VC 的网站上没有这样的内容,就是没有一个关于「我是谁,我的价值观」的描述。所以我看到 Devin 在这个过程中,它在尝试理解这个任务,找到最符合的内容。

比如说它在找 Accel 这家 VC(也是美国非常有名的 VC)时,发现官网上没有这样的内容。但它就去 News 里面找,找来找去找了两三年,他们有篇文章里面介绍了 Accel  的价值观方法论。它把那个内容拿出来作为它要找的内容。所以你可以看到它像一个初级人类员工一样去解决问题,不是很机械地说你网站上有没有个叫 Manifesto 的东西,没有就没找到。而是说我需要去看看你整个网站上面有没有比较符合这个内容定位的内容,然后去寻找。

它最后给我一个包含 10 个 VC 对应 Manifesto 的 Markdown 文件,但这里面有很多 AI 模型现在常见的问题。比如说它有时候容易偷懒,因为我要它把全文拿下来,但在几个 VC 的内容里面,它就给自己做了个总结。这是我们很多时候用现在 AI 的 Chatbot 也会遇到的问题,就是因为 token 数的原因不给你全文,而是给你一个缩略。这个时候就要告诉它说,你要给我完整的文本内容。所以它其实跟真正的实习生一样需要教导。但我觉得这里面它体现的规划能力,以及对于不能直接解决的任务去创造性解决的能力,是非常有意思的。

当然这可能不是大家使用 Devin 的典型场景,因为我没有让它去编程,而是让他来做一个语言模型 AI 的常见事情。所以我完全可以想到,现在我们有适合编程的 Devin,那么我们完全可以有适合做文本工作、适合金融界或法律界工作的对应 Agent 产品。

在这里面我认为,只要我定义的工作是一个人坐在电脑前,通过使用电脑、上网、使用软件能够解决的工作,那么它大概率都能被或多或少地在这个工作流程里得到体现。

这个还是蛮让我觉得惊艳的。


🚥 Koji

所以想问的是你在第一天到现在,而且时间也不长,两周左右你感觉自己体验到了一个什么样的未来?


👦🏻 戴雨森

在体验 Devin 之后,我感觉它作为第一个真正能用的 Agent 产品,可能标志着人类历史的一个重要时刻。

为什么这么说呢?因为人类历史上发明了很多工具,有人说「人就是能够使用工具的动物。」但所有这些工具基本上都可以分为两类:第一种是需要持续注意力的工具,比如电钻、锤子或键盘鼠标,它需要我们持续的注意力关注和输入;第二种是机械重复的自动化工具,比如洗衣机、自动售货机、流水线,它可以不需要我们关注,但只能解决重复的任务。

我们一直在寻找第三种——不需要持续注意力,但同时能自己规划去解决问题的工具。这就是所谓的 Autonomous Agent。

在原来的构想里,可能只有像 Viggle 这样的产品在硬件上实现了。在软件层面,我们一直没有看到这样的产品出现。去年有一些像 AutoGPT 这样的尝试,但都还停留在产品原型阶段

我发现 Cursor 定义了真正的 Agent 产品需要具备的几个特点:

第一是由于强大的任务规划能力带来的异步体验。它原来设计的场景是在 Slack 里你可以艾特 Devin 说帮我改这个 bug,然后他自己就去改了。只有在他真的需要帮助或完成任务时才会来找我。这跟实习生很像,交代任务后他会自己工作,只在遇到解决不了的问题时才来找我。与此同时,我可以给多个实习生派活,让我能专注做真正重要的事情。

第二是他在云端部署的虚拟机,所以他可以使用浏览器,未来还能使用更多软件,从而完成更多任务。这和原来的 Cursor 和 Windsurf 用我自己的电脑完全不一样。如果大家之前用过类似于 RPA 的软件,大家会发现 RPA 在操作的时候,你是什么都不敢操作的,因为你的操作会打断它的流程。AI 是在用你的电脑。但 Devin 是在用虚拟机,就像我们给实习生配电脑一样,AI 用自己的虚拟机带来的灵活性非常不同。

第三,Devin 做事时像真实员工一样会学习和成长。比如说我们招个实习生,他第一天肯定会搞砸很多事情,因为他不知道在我们这个组织里面该如何处理很多社交行为。当他做一件事情的时候,会逐渐意识到自己需要积累相关知识。在这个过程中,这些经验被称为 knowledge。他会主动提示说自己学到了某个知识点,比如在找信息时要尽量去官网查找。我会确认他学到了这些好的知识,这个过程和我们跟实习生、员工做 review 很像。就像员工写工作总结说学到了哪几点,我们会肯定说「对,这几点做得很对」。这样理论上就可以不断积累组织内的专有知识,让他变得更加适应这个团队。

其实我们在招人时也是这样。一个员工刚来的时候,他的价值相对有限,需要持续学习才能更好地适应组织。但之前在使用工具时,我们都希望这个工具一打开就能用,不会期待说一台电脑要不断学习才能越来越好用。

在 Devin 这里,我们真正看到了它具备类似人类员工的成长曲线。虽然这还比较早期,但我们发现这样的范式转变非常重要。

第四,Devin 提出了根据完成任务进行收费的模式500 美元对应 250 个 acu,每个 acu 约 15 分钟工作,换算下来每小时 8 美元。这已经低于加州最低工资标准(16 美元/小时)的一半。随着 AI 算力提高、成本下降,这笔投入在未来能做更多事情。相比招人还要处理人事、场地、管理等问题,AI 是 7×24 小时不知疲倦的员工

有朋友说得很有意思:

程序员喜欢 Cursor,因为它是程序员的 Copilot,能帮助提升效率;老板喜欢 Devin,因为老板考虑如何花钱买到生产力。Devin 展示了一个潜在的范式变化,就是通过花钱去扩展生产力。我认为 Devin 让我看到了工作的 Scaling Law。

在很多 Coding Agent 里,第一个任务往往是做个人网站,我们开玩笑说「这就是新时代的 Hello World。」这个任务他完成得不错,因为从网上找我的信息比较容易,他能快速搭建网站。


🚥 Koji

所以 Devin 的出现,不仅让大家觉得 AI 编程变得很厉害,更是定义了一个新的交互方式。大家可以看到,AI Agent 可以如此工作。因为我和雨森在 Devin 里面用一个团队账号,我能看到他所有任务的进展,能看到他怎么用 Devin,Devin 又怎么回应他。

像刚才提到的任务,有一个补充是在刚下达指令之后,Devin 会第一时间告诉你他的工作计划。他会像给老板汇报一样向上管理,说第一我要去理解这个任务,我要拆解这个任务,我会分成几个部分去做,然后他每做一点事情又会回来主动汇报。在他遇到进行不下去的情况时,他还会告诉你,让你给他指导,这个是很惊艳的。

第二点是雨森那个任务还有后续,在把十个顶级 VC 的 Manifesto 取下来之后,雨森让他去做一个网站。他花了一个小时做了第一版,做得很粗糙。正好我在那个时候进了团队账号,看到了他交出来的报告。我就想着好,那我接着来把这个任务给他布置下去。我给了他一些新的指令,比如给他一个参考网站,说这个风格不错,让他照着这个风格样式再去调整网站。同时我想试一下 Recraft 生成插图的 API,就把 API 文档和 Key 丢给他,让他给这十篇 Manifesto 分别做一个插图。

我想表达的是,当时有一种真的在办公室里的感觉,有一个实习生一开始在帮雨森做事,但现在他做了一个报告,正好雨森下楼吃饭了。然后我看到了他的报告,就给他一点建议说,其实雨森想要的是这样,你再去完善一下,等他回来就可以看了。有这种像真的在用一个人的感受,所以这也是为什么我们说它是一个真正的 Agent。因为 Agent 翻译过来是「人」,而不仅仅是机器,它是某种助理的意思。这就是为什么我感觉 Devin 产生了一个新的、像用助理一样的范式。


👦🏻 戴雨森

对,这里面还有很多细节挺有意思的。我再举一个例子,在我们另外一个朋友的任务里,他要 Devin 去 LinkedIn 上抓一些人的信息。比如说 OpenAI 的中国员工,但 Devin 显然没有 LinkedIn 账号,所以他需要找用户说,你能不能帮我登录一下 LinkedIn 账号。这时候,因为 Devin 运行在虚拟机上,所以它有个互动模式。作为用户,我可以在虚拟机里输入我的 LinkedIn 账号和密码,然后 Devin 就继续使用。

这很像什么呢?比如我们招一个实习生,给他配了台电脑,但他没有特定软件的订阅账号,他就会说「老板你来输一下你的账号」,在我把账号输进去之后,他就继续用我登录好的账号工作。

这就是为什么虚拟机变得很重要,因为他可以在里面做很多操作,不打断我的工作流程。

否则就像 Cursor 或 Windows 那样借用我的电脑,那时我什么也干不了。这种异步的方式让我可以同时给 Devin 布置很多任务,它是个并行的工作模式,我只需要付出算力成本就行了。

这其实很重要。比如在日常生活中我有一个实习生,但如果我有十个实习生,每个人都能帮我做很多事情,那这个工作效率的提高可能是指数级的。


🚥 Koji

这个感觉用 Devin 就让我想起了当年说「人人都是产品经理」,但今天就变成了「人人都是 CEO」。因为在和 AI 单位互动的过程当中,好像只需要做 CEO 最喜欢做的三件事:第一,下指令;第二,检查工作;第三,高水平一点的 CEO 还可以给它一些启发和指点。


👦🏻 戴雨森

其实很多人在使用 Devin 或其他 AI 产品时,都会遇到一个问题:我要做什么,以及我该如何提出需求。想象一下,如果我们招一个员工,只对他说「帮我写个淘宝」,那这个人肯定是做不出来的。但为什么我们对 AI 常常会有一些不切实际的想法,认为说「你给我做个淘宝」它就能做出来?这显然是不对的。

确实,我们每个人都要思考自己到底要做什么。很多人面对一个很强大的模型时,虽然它具备很多智能和能力,但关键在于你是否明确自己想做的事情,以及能否用更加合理、容易理解、更有结构的方式提出需求。

就像我们自己在做产品经理、设计师、程序员的时候,也很烦那种自己都没搞懂需求的老板,比如提出「五彩斑斓的黑」这样的需求。但当我们自己成为 AI 的老板时,我们能不能做一个好的老板?这其实是接下来每个人都要学会的过程:如何当一个好老板


🚥 Koji

其实在使用过程中还有一个很强的感受,这也是 hidecloud 前段时间提到的。他提醒大家,Devin 有一个非常厉害之处,在于它可以帮助我们调用人类历史上的智慧结晶。这句话怎么理解呢?

就是说我们要完成一个任务时,往往不知道世界上已经存在这样的轮子,不知道谁已经开发了这样的工具。因为很多工具是以代码的形式,以代码库的形式放在 GitHub 或者 Hugging Face 上。要把这样的代码下载到本地,部署到机器上,并且和其他工作或软件程序联通运行,这件事一千个人里可能只有一个人能做到。但今天有了 Devin 之后,理论上人人都可以做到,因为你可以用自然语言像老板一样下指令。

举一个具体的例子:比如说现在我们要做一个国际象棋应用。在过去,仅仅是把国际象棋的规则写出来,就需要花几百行甚至上千行代码。你可能会想说,我去搜索一下,看看是不是已经有人把这个规则写成了可调用的代码库。但你可能会搜出 Google 几百页的结果,在这里面什么是最好的、什么是最佳实践也不知道。但有了 Devin 之后,你可以把这个命令下给它,它会用自己的分析方式帮你找到已经存在的最适合的程序代码库,然后直接用起来。

这带来的价值是:所有前人开发过的、用于解决特定问题的工具或代码库,你都可以直接使用,不必重新造轮子。你可以站在巨人的肩膀上,用这些经过社区验证的最佳实践来开发自己想要的工具。我觉得这也是 Devin 包括 Cursor 实现的一个价值,虽然可能不那么显著,但影响很深远。


👦🏻 戴雨森

当 ChatGPT 刚出现时,我就有一个很强烈的感觉:如果你的工作中有很多是复制粘贴或者「缝合怪」的部分,那这个是很容易被替代的。大家发现最早被 AI 大幅提效(说得好听点是提效,说得不好听是容易被替代)的工作,其实就是初级美工的这种剪贴型设计工作。比如把别人的设计抄过来,或者初级代码工作者把某个库简单修改后应用到自己项目里。这样的工作最容易被替代,所以前端程序员其实面临很大的压力,因为前端展示大部分时候并不需要那么多创新的想法

在这个过程中,我觉得对于大家来说,如何提出想法、如何创造性地解决问题,这些能力会变得越来越重要。

而找到已有的解决方案,把它们用胶水粘起来的工作,恰恰是 AI 最擅长的。我们工作中的大部分内容其实都是已经被解决过的问题,或者已经被发明的轮子,只是以前人类不知道这些轮子的存在,或者没有办法把它们很好地拼接起来。但现在 AI 能够帮我们做到这一点,让我们能够专注于思考「要做什么」这件事情,这会变得越来越重要。

这也让我想到对于教育的影响。我们之前大量的教育,包括培训都在教「怎么做执行工作」。就好像当没有计算器的时候,我们要学大量的手算和心算。但现在,我们需要了解计算的原理,但未必要去做这些具体的计算。我们可以把更多的精力花在思考要做什么、提出正确的问题上。这也是我觉得未来教育体系需要做出重大变革的原因。


🚥 Koji

所以 2025 年是非常值得期待的。从 Devin 的发布,我们看到的不只是 AI Coding 被 Agent 整个升级到下一个级别,他其实在方方面面——不管是法律、商业分析还是教育,这样新范式的出现都会带来颠覆式的革命,也意味着各种创业的机会。

刚才雨森提到了一个非常有趣的观点:Devin 是人类历史上第一个既不需要持续注意力,又不只是机械重复的工具。这也让我们看到了工作的某种 Scaling Law。您觉得可以再展开讲解一下吗?让大家更好地理解这意味着怎样的了不起的价值。


👦🏻 戴雨森

首先说说 Scaling Law,最直白的解释就是我能够通过投入更多的钱来获得更多的生产力,这里的钱可以等价于算力。这其实很不容易,想想看,很多公司融了很多钱,但似乎并不能把钱有效地转化为生产力——他们需要招人、搭建组织、做各种琐事。但随着这种可以异步工作的 AI Agent 的出现,我们可以把很多任务分配给不同类型的 AI 去做。它们消耗的是算力和电力,就能完成任务本身,而且可以并行进行。

你完全可以想象,会有一个更擅长提出需求、拆解需求的「产品经理型」AI 去指挥很多 AI 程序员工作,形成一个虚拟组织。

在这个组织里,你更需要考虑两件事:第一,你要做什么;第二,要有足够的算力和资金投入。在这样一个正在快速成为现实的组织里,我们可以通过投入更多的钱和算力,有效地把工作规模化扩展。这就是所谓的工作的 Scaling Law。

第二点很有趣。我们经常遇到创业者说「我有个很好的想法,但缺个程序员」。

优秀的编程执行能力现在还是稀缺资源。但当执行本身不再稀缺,「做什么」就变得尤为重要。

就像刚才说的,每个人都要学会当老板。这样我们能看到更多的创业机会,很多原本因为缺乏优秀程序员而被埋没的创业者,现在可能会获得更多机会,更多创意可能被付诸实践。这也是我们可以把创业这件事情规模化的一个原因:因为通过投入资金就能提高生产力。

这一切得以实现是因为 AI Agent 能够并行工作。如果我们的注意力要放在工具上,那注意力是有限的。但现在我们的注意力可以分配到不同的 Agent 上,一个人可以同时给多个 Agent 下达指令去完成任务。


🚥 Koji

其实说到 Scaling Law,我想到一个比喻。当年王兴让我们看一本书叫「领导梯队」,书中讲到当你第一次成为小团队的领导时,你要有一个重要的认知转变:你的产出不再是你个人的产出,而是整个团队的产出。

在今天,我们从 Devin 身上看到的工作的 Scaling Law 其实也是类似的。这里的产出不再是你一个人专注在眼前工作的产出,而是取决于你如何把团队任务下达好,把检查标准设定好。团队的所有产出,包括 Devin 的所有产出,最终都会成为你的产出。这意味着你可以用有限的注意力实现无限的 scale up。只要你能够管理足够多的人和 Agent,而且管理 AI Agent 比管理人要容易得多,因为管理人涉及更多的沟通协调和情绪价值。我理解这可能就是雨森想说的工作的 Scaling Law。


👦🏻 戴雨森

对,王兴推荐的是《领导梯队》这本书。这个概念没有问题:设想如果你能成为一家跨国公司的 CEO,能够指挥上千人、上万人,你能做什么事情?以前我们没有这样的机会,但现在可以通过管理 AI Agent、让 Agent 去调动其他 Agent 来获得类似的机会。这所需要的就是钱和算力,而很多公司其实并不缺钱,他们缺的是人才,是能把事情执行出来的组织结构。

所以我相信在这种情况下会出现两种趋势:一方面,有实力的公司和个人能做更多的事情;另一方面,很多有想法的人可以通过相对较少的成本,快速把想法实现出来,获得用户认可或投资,这样我们就会有更多创业者和创新空间。


🚥 Koji

对,这就是今年最流行的说法之一:「超级个体」。因为一个人在获得越来越多工具的赋能之后,包括 AI Agent 的赋能,就可以做到原来需要十个人、二十个人才能完成的事情。

不过 Devin 发布后不久,也收到了很多吐槽和批评。对此你会怎么看?


👦🏻 戴雨森

很多批评都集中在 500 美金的价格上,大家把它和 Cursor 20 美金的价格进行对比。首先,我认为这是两种不同的范式

一种是需要用我的时间去使用的工具,它让我的时间变得更高效,但并没有省下时间。所以在使用 Cursor 这种工具型产品时,因为我的成本并没有下降,实际上是我的成本加上工具的成本。但如果把它当作一个员工,对比对象就变成了员工的工资。只要它能够比同等价格招到的员工干更多的活,我认为这个价格在欧美市场是可以接受的。很多人一看到价格就说这是不是在割韭菜,其实关键是看你怎么看待和使用它。

我和一些程序员讨论他们使用 Cursor 和 Devin 的体验,发现在 Devin 能力还不够强的时候,使用 Devin 对于大多数程序员的工作流是一个很大的转变。因为程序员自己懂得代码如何运行,他们往往希望自己能够掌控全局,所以这个时候 Cursor 这样的 Copilot 是一个更适合他们当前工作流程的方案。已经习惯了使用 IDE 工作的程序员,在有任务要完成时,需要和 Devin 对话、等待 Devin 工作然后验收,这个过程并不那么高效。他们更希望自己去修 bug 或者写代码,所以如果你是一个很厉害的程序员,你可能不会愿意必须带着一个能力有限的实习生,因为现在的 Devin 还只是个实习生水平,培养实习生需要时间和耐心。

这个时候程序员可能会觉得,与其等你写代码,还要帮你解决问题,不如自己写。我觉得在技术早期阶段这是完全可以理解的,我们要从人的角度去看待这个问题。如果一个人犯错误,作为管理者我们往往会比较有耐心,因为我们知道人是会学习和成长的。今天指出他的问题,他可能就会记住,然后会有更多的动力去工作,通过培训成为不错的程序员。

但 Devin 其实是可以学习的,但是我们现在对于 AI 的软件和产品,还没有建立起「它可以成长、可以学习、可以被管理」的预期。

所以当它出现问题时,很多用户的反应就变成了「我买了一个 500 美金这么贵的工具,居然也会出问题」,感到失望。因此在企业引入 Devin 这样的产品时,对其期望值的管理变得很重要。包括 Devin 自己在文档中也说明,它首先是做一些会安排给实习生做的事情,比如简单的前端任务、修改 bug、给前端加一个 Dark Mode 的开关之类的工作。

但是人类提出好问题的能力也是需要学习的。我经常看到有人提出「帮我写个淘宝」「帮我做个微信」这样的需求,这远超出它的能力范围。现在的 Devin 和所有 AI 产品一样,会傻傻地接下这个任务说「好,我来帮你写个淘宝」。这种情况下得到的结果肯定不会令人满意。所以我觉得如何用好一个工具是需要学习的,现在还没有到给什么需求都能直接完成的程度,那样就不是实习生而是神了。

随着 Devin 能力的提升,以及对组织环境理解的加深,我相信它会从实习生逐渐成长为初级全职员工,然后变成资深全职员工,这需要一个接受的过程。

我觉得 Cursor 是在现有流程上的渐进式创新,它没有让程序员的工作发生翻天覆地的改变。但 Devin 是一个颠覆式创新的逻辑,这往往需要很多适应时间和不同的入职培训过程。第一个产品可能未必能做到这一点,所以我并不觉得 Devin 就一定是最终答案。

很可能 Devin 只是展示了未来 AI 产品的一种形态。我们要真正学会适应、使用 AI 型的产品,就像适应 SaaS 这个概念、适应远程办公这样的分布式工作概念一样,都需要很长的时间和合适的契机。所以我觉得它在方向上给了我们很大的指示,但现在还是实习生水平。在这个过程中指出它的问题很容易,但更重要的是它提出了这样一个未来的方向,从这里得到启发去做更好的 agent,我觉得这才是关键。


🚥 Koji

这就像半杯水的理论,有人从半杯水里看到的是价值,有人看到的是问题。就像我们刚才讨论 Devin 完成「寻找十个顶级 VC 的 manifesto」这个任务时,它知道如何在 Accel 官网没有相关背景的情况下,从新闻稿中找到这些内容。这是一个巨大的亮点,它会设定任务、会反思、会自检查。另一方面确实也存在很多问题,比如它做出来的网页非常不美观。但看到亮点而不是问题,看到未来的可能性而不是当下值得批评的点,这让我想到:批评者往往感到正确,但只有建造者虽然看上去笨拙,却更有可能会成功。

这让我想到王慧文说过的一句话:如果你相信一件事情终究会发生,那就每隔三年做一次。Agent 从人类有科幻开始就一直被认为会出现,也时不时会有人去尝试。而在看到 Devin 之后,感觉这可能是我们最接近成功的一次。

我们再来聊聊 2025 年。整个 2024 年,虽然我们的讨论也挺乐观,但整个大环境时不时会出现各种悲观的论调。我尤其记得在第二、三季度的时候,整个语境都在讨论 AI 的 PMF 究竟在哪里,看上去这一波 AI 落地比预期要难。

现在站在 2025 年的开端,有一个非常简单的 yes or no 的问题:雨森你对 2025 年是乐观的吗?


👦🏻 戴雨森

我其实还是很乐观的。首先,我觉得 AI 应用找 PMF 这件事本身就不应该期待它那么快

我经常打个比方,虽然很多人把 ChatGPT 的发布与 iPhone 发布做对比,说 AI 来到了 iPhone 时代,但我始终认为它代表的是一个黑莓时代。

黑莓时代和 iPhone 时代有什么区别?黑莓时代可能很多听众还没有用过黑莓,这属于我们 80 后的记忆。在 iPhone 发布之前,智能手机的形态很不统一,因为那时技术还比较早期,发展也比较分散,大家没有找到一个收敛的路径。这导致很多事情想做但做不到,技术本身也很贵,没有统一的开发标准和产品标准,开发者也比较少。所以在那个时候,想做移动互联网上真正火的应用,比如抖音是很难做出来的。我反复提到过这个观点:在黑莓时代做不了抖音。随着技术进步,从黑莓时代到 iPhone 时代会解锁更多的应用机会。

iPhone 出现之后,首先技术发展足够好了,很多应用从「想做」变成「能做」,包括它有好的摄像头、好的屏幕、好的处理器。其次技术变得标准化,iPhone 发布之后,手机都长了一个样子,大家发现技术方向收敛了。同时也诞生了更多的开发者,因为开发变得容易,技术也标准化和便宜了,大家更理解了,所以 iPhone 时代诞生了大量的应用。

在 ChatGPT 刚出来时,我们也发现很多事情想得到做不到。比如 Agent 就是个典型的例子,2023 年上半年有个尝试叫 Auto-GPT,它提出了很多很好的概念,也是用语言模型先做计划,然后去检查完成情况并迭代。但那时的模型太多幻觉,很难有效使用工具,也很难有效浏览网络,所以根本做不到。这是个典型的「在黑莓时代做抖音做不出来」的例子。

现在随着 Agent 在推理能力、编程能力、工具使用能力上的进步,Agent 的样子就更加有模有样了。虽然还有很多缺点,但至少已经达到实习生水平可用的第一步。这是技术进步解锁更多应用机会的典型例子,我相信这是一个最终会把我们从黑莓时代带到 iPhone 时代的例子。

从 ChatGPT 出现到现在这两年,我们看到了巨大的进步,这让我很乐观。

仅仅两年时间,AI 编程就从 ChatGPT 的「你问我答」变成了 Devin 的「你问我做」和 Cursor 的「你问我写」,带来了非常大的进步,这个速度其实很快。

第二,我觉得很多时候 PMF 是来自于技术本身的进步。比如 Cursor 这个产品其实在 2023 年就出现了,但当时它提出的预测下一个行动,需要更强大的模型去进行预测并写出更好的代码。可以说是 Sonnet 3.5 的出现造就了 Cursor 真正能够完成它要做的事情。Sonnet 3.5 激活了 Cursor 想要交付的产品体验,同时 Cursor 的普及也让 Sonnet 3.5 迅速成为 AI 编程领域最受欢迎的模型,这是个互相成就的关系。

同样,Devin 这样的产品要成功,也需要模型在推理、工具使用这些能力上的提高。Sonnet 3.5 或者 GPT 4o 现在可能还不足以把它做好。所以 Devin 这个产品形态可能需要一个更先进的模型去激活它,这个模型可能是 o1、o3 或者是 Anthropic 的其他新模型。这是一个产品等待模型激活,然后让模型得到广泛使用的互惠过程,所以这个阶段确实需要技术和模型本身的进步。

我们刚刚经历的移动互联网成熟期有个特点是产品非常容易使用。比如抖音动动手指就可以了,微信、小红书都很容易上手。但当我们来到一个技术的早期,要用好一个产品是需要一些门槛和学习的。大家可以想想最早的智能手机、个人电脑、互联网,其实都需要学习才能使用。

现在很多人使用 AI 时远远没有把产品里的智能提取出来。现在的大模型,不管是 OpenAI、Claude 还是 Kimi,其实模型里都已经压缩了大量的知识和智能。但我们有没有学会正确地使用它,高效地提问,高效地提取模型里的智能。

我认为大部分人还没有学会,包括我自己也一样。我一直都在发现原来模型能够为我做这样的事情,回答这样的问题。所以在这个过程中,我们经历了从易用产品的移动互联网时代到需要学习使用的深度 AI 时代。

这个时候大家一开始体验会有点挫败感,觉得产品有点难用,这就是技术早期的特点。

很多时候应用已经可以做很多事情了,只是我们还不太会用,还没有变成一个好的提问者或者好的管理者。

这些都需要学习,或者说需要等模型能力越来越强时帮我们做这些事情。到那时可能我们又会进入到一个产品应用期,但现在产品还处在一个和我们磨合的阶段。


🚥 Koji

所以大家要在尝试的过程中了解边界在哪里,以及边界现在如何不断拓展。我想补充一下,除了刚才提到的技术和模型的新进步所解锁的新机会,尤其在 agent 这个领域,还有第四个方面。

在上一期「十字路口」,我们讨论 OpenAI 12 天发布会时,嘉宾大聪明提到,这次发布会其实有一些重磅内容没有公布,这是出于 PR 考虑,或者是不想让竞争对手过度关注。其中有一个对 agent 至关重要的点,就是现在 OpenAI 输出的 function call 以及结构化输出的能力,能够让 agent 得到更加精确的指令。这一点之前可能被忽略了,但说出来后非常 make sense。

再往下看在 2025 年,雨森你认为什么样的应用方向比较容易落地?这可能也是现在创业者非常关注的方向。


👦🏻 戴雨森

从过去两年比较容易落地的方向来看,我觉得有几个。第一个是能帮客户赚钱的。当然,如果你的技术还不够完善,但能直接帮我赚钱,或在商业化流程中直接提高效率,这就变得很重要。比如说像 Midjourney,它有几亿美金的年化收入,其中约一半收入来自广告类需求,就是用它去生成商业用途的图像来投放广告。这是一个很实在的场景,我本来做这些广告就是为了赚钱,现在能够更快更好地制作广告内容。比如 Heygen 主要也被用于营销场景,大家用它来制作宣传型的视频广告内容。所以首先,能帮客户赚到钱的技术,在早期阶段大家就愿意花时间去使用、去琢磨。

第二个是能够在重要任务上提高十倍以上生产力的。因为一个好的技术,如果只提高 50% 的生产力,那其实大家可能还会有很多阻力。一定是这个东西能带来非常强的生产力提升,比如说像 Cursor、Devin 这种对程序员来说绝对是十倍生产力的提高。程序员花时间去找代码库可能就得花很长时间,所以大家使用它的动力才会变得非常强。

再比如 Perplexity 这样的 AI 搜索引擎,我觉得对于传统搜索引擎来说,它也是个十倍生产力的提升。因为原来我要找 Koji 资料,得去搜索很多内容,要看十几二十篇 「新世相」的文章。现在我只要去问它,它会帮我去看这几十篇网页然后进行总结。所以在信息收集提问类的问题上,比搜索引擎要高出十倍以上的效率。这种产品我觉得比较容易找到产品市场契合度。

第三点就是满足人性基本需求,比如说这种 NSFW 内容,大家也都看到了很多这样的场景。整体来说,要么能赚钱,要么能帮我提高非常高的效率,这两个能实现一个就非常好。


🚥 Koji

那有什么样的应用方向是你觉得大家要稍微回避一下,做起来有点难度的?


👦🏻 戴雨森

在移动互联网里,很多赢家都是「杀时间」的应用。在中国,大家习惯了做一个用户粘性很高的应用,用户在上面花很多时间,然后通过投放广告赚钱。字节、小红书、快手都是这个范式。这是移动互联网已有的范式,因为它是一个新设备,让用户原来无法上网的时间变得可用,是一个从零到一的逻辑。

现在当抖音这样的应用已经占用我们大量时间的时候,如果 AI 应用一开始就要和这些成熟玩家比拼「杀时间」,就会遇到竞争对手已经非常强大,并且已经占据大部分时间的情况。这时再做「杀时间」的应用是很难的。

所以我们发现,最后能做出来的只有相对小众的、面向特定人群的产品才能落地。而针对普通用户的 AI 陪伴聊天很难比抖音这样的视频更有吸引力。所以与巨头抢时间的应用要谨慎。

第二,改变物理世界还是比较难的事情。我们刚才说到 AI 写代码、AI 使用工具都还是在数字世界里。在数字世界里 AI 可以做很多事情,但在物理世界,AI 现在连拿起一个杯子这样基础的动作操作还是比较难的。

虽然我们现在看到人形机器人非常火爆,但在这个方向上,技术的实现路径以及如何扩展模型的数据,这些都还是开放性问题,都还没有明确的答案。

所以我觉得在未来三五年内,要改变物理世界的应用还会遇到很多挑战。

第三,这两年有不少设备想要替代手机,比如 Rabbit、Humane 这些。他们强调要做一个替代手机的产品,包括现在大约有 100 个团队在做智能眼镜。

我的看法是,如果你做的场景是手机已有场景中的一个,比如打电话、搜索周边信息、听音乐等,那替代手机是非常难的事情。

目前来看,能与手机共存的硬件,基本都是在做手机完全做不到的事情。比如无人机可以飞,智能手表可以戴在手腕上,智能戒指可以套在手上,或者像 Insta360 可以在运动场景下使用。

但像 Humane、Rabbit 这些产品,其实都是在做手机已经做得很好的场景。这时用户的切换动力非常小,因为手机在大多数场景下已经至少能做到 80% 的程度。除非你做的这个产品好很多很多,或者是手机根本不能做的事情,否则要替代手机会很难。

对于 Agent 类的产品,我觉得 2025 年我们可以看到特别多的 Agent 产品出现。这里面很多会遇到一个挑战:当你要对组织做出很大改变时,能否实现这样的改变。比如 Devin 就面临着要改变程序员的工作方式,从自己写代码变成指挥别人写代码。这种工作流的改变对很多组织来说都有很多阻力,尤其是在大公司里。

我们现在可以发现,在大公司推行 AI 还牵扯到很多数据权限、隐私安全等问题。如果要改变工作流,很多人的工作都会发生变化,那就会有更大的难度。所以我觉得要对组织做出很大改变,除非你能显著提高生产力,让组织有不得不用的理由,或者针对中小型企业去做。

否则针对大组织做大改变,很多时候面临的是人性的壁垒,而不是技术的壁垒。

2025 展望:Agent、个性化服务与超人类水平的突破

🚥 Koji

我们刚才聊到,技术的解锁带来了一些新的机会。我们讨论较多的是模型的推理能力、幻觉降低、Computer Use 这样的工具使用带来的 Agent 机会。

除此之外,还有哪些技术的解锁你认为在 2025 年可能带来浪潮式的 AI 创业机会?


👦🏻 戴雨森

我自己总结了几个 2025 年可能带来浪潮式 AI 创业机会的技术解锁方向:

第一是 Agent。我们刚才讨论过,未来会出现针对各个领域的 AI 产品。它们会借鉴 Devin 的思路,做异步的工具使用,按工作量收费。

在美国,有人把原来的 SaaS(Software as a Service)反过来叫「Service as Software」,即把服务变成软件销售,或者说是 sell work, not software,销售的是工作结果而非工具本身。

2025 年可能会有很多这样的尝试,虽然很多会失败,但也会有一些有意思的产品诞生。

第二是「Scalable Personalization」(可扩展的个性化)。回顾互联网内容分发的发展历程:先是门户网站的「千人一面」,每个人看到的都一样;然后是搜索引擎,针对关键词提供个性化内容,但同样的关键词得到相同结果;再到以抖音为代表的推荐算法,根据用户 Context 主动推送感兴趣的内容。

现在,我们在思考更进一步的个性化:如果用户想看的内容还不存在,就为他生成。比如 Sora 这样的视频生成技术,就是要按照个性化需求生成内容。最近增长很快的应用 bolt.new 和 Windsurf,都是通过文本 Prompt 生成个性化网站。在软件开发领域,未来可能不再是像微信、抖音这样的「好莱坞大片式」集中化开发,而是为每类用户提供更个性化的软件 / 内容体验。

Google 的 NotebookLM 也体现了这种趋势。比如播客内容,现在我们只能听到已经录制的对话,但未来可能通过 AI 生成任意两个人关于特定话题的对话。随着 AI 能力提升,我们使用的软件、消费的内容都将变得更加个性化。

第三是 在 o3 中我们能看到 AI 能力从「普通人水平」进化到「超人水平」。早期的 MMLU 等测试还在评估 AI 是否达到普通人水平,现在已经转向针对精英人类的 Benchmark,如面向程序员的 SWE-bench、美国高中数学竞赛 AIME、PhD 资格考试 GPQA 等。在 2024 年初,o1、o3 等先进模型在这些测试中已经达到了 80 分左右的水平。

我们现在需要建立超人类水平的 Benchmark,比如陶哲轩背书的 FrontierMath。o3 最近在 Codeforces 上获得 2700 分,这是全人类仅有 130 多人达到过的水平。这意味着 AI 在科学研究、前沿探索方面将发挥重要作用。

所以我看到 o3 出来之后,有人诟病说它做一个任务需要花很多钱,算力消耗很大。

但我想说的是,o3 的高算力模式本来就不是给普通任务用的,它的定位是解决人类前沿最难的研究和探索问题。这个东西贵是很正常的事情。

其实我们以后会发现 AI 模型在日常任务和前沿研究上可能会有分叉。就像「生活大爆炸」里面的 Sheldon,他是个很厉害的科学家,但日常任务一塌糊涂。

有的 AI 模型就更像 Sheldon,去解决前沿探索的问题;有的就像价廉物美的 o3 mini,主要用来干活的,可能就像一个程序员;还有更加简单的模型,就是为了回答一些端侧的简单问题,比如说今天天气怎么样这样的日常需求。

所以在这里面,我们既可以看到日常需求被越来越高效便宜地解决,也能看到在真正的前沿研究里,AI 跟科学家一起协作,为人类获得新的进展,从而产生新的知识。这一点让我觉得非常兴奋。


🚥 Koji

因为今年在多模态方面还有一个较大的突破,不管是 4o realtime 语音,还是这次 OpenAI 发布被放在一个不太起眼的角落,但其实被认为是 12 天来最值得关注的成果之一,即他们的多端到多端的多模态互动。

你认为多模态在明年会带来哪些值得期待的创业机会?


👦🏻 戴雨森

多模态方面,我觉得第一个重要的是 AI 怎么理解这个多模态的世界。

对于文本来说,比如「今天天气很好」这几个字,是一个非常简单的句子,但它里面蕴含了大量需要看到才能理解的东西,所以一图胜千言。

图片和影像中包含的信息特别多。如果 AI 不能充分理解这些信息,它的智能就会有很大的缺陷。现在的 AI 就像一个瞎子,虽然瞎子也可以解很厉害的数学题,这可能并不妨碍什么,但要具备更完整的智能,多模态的理解能力确实很重要。

OpenAI 和海外的先进研究者普遍认为生成能力可能不是最重要的,所以 Sora 现在获得的资源相对比较少。在美国,多模态的生成是个相对平行的路线,因为它的落地场景主要是娱乐内容和内容生产,所以跟 AGI 似乎还是有些距离。像 Anthropic 这样的公司因为不做多模态生成,他们认为靠文本、代码和 API 就能实现 AGI,这是不同的观点。

关于多模态这个话题,我觉得 NotebookLM 给我们一个很好的启示:如何把一个模态的内容转换到另一个模态进行消费。

比如说我们原来做 TTS,是把文本直接转成语音,但把文本转成播客,不是简单地把它读出来就完了,那只能叫读书。播客需要把内容变成更适合在音频模态消费的形式。同样,从文本到视频也是如此,我们把《三国演义》拍成电视剧,不是简单地还原,而是需要艺术改编。视频到文本、视频到声音也是这样。在不同模态之间自然转换,并在每个模态中创造最适合该模态消费的内容,这是一个很令人激动的过程。

假设我喜欢刷抖音,那我能把《三体》变成适合抖音消费的内容,或者变成适合播客消费的内容,这在内容消费上会带来很多机会。

更进一步说,大家认为多模态的生成和理解对具身智能会有很大帮助。我们看到很多前沿研究,比如最近的 Genesis 项目,研究如何实现对物理世界的模拟,以及机器人如何操作现实生活中的物体,这些都是很有意思的研究。不过这个领域我最近研究得相对较少。

总的来说,多模态之间的转换确实是一个非常重要的方向。就像你提到的 Gemini 2.0,它能够高效理解接收到的视频信号。这带来一些很直观的应用场景,比如在生活中,有很多东西我们看到却不会用,但如果它的视频生成能力够强,就可以直接在视频画面上叠加使用指示。比如我们之前跟 Google 的研究员讨论过这样一个场景:我家有个咖啡机,把手机对着它,视频流里就会直接叠加一个「按这个按钮开始煮咖啡」的视频提示。这个提示视频是生成的,但会叠加在现有视频上。这些都是很有意思的想法,但目前可能还需要技术进一步提升。

AI Native 应用:等待深度技术扩散后的新商业模式

🚥 Koji

我觉得 2025 年很可能会看到这样的应用出现,包括它和 AI 硬件的结合。比如之前看到一个 demo 是带着 AI 眼镜打网球,它可以给你实时指导,告诉你对面球过来时如何调整姿态和接球方式,帮助你更好地提升水平。

关于多端到多端,我想再多说一点,这是我最近感到非常惊喜的发展。就像上一期「十字路口」节目中嘉宾提到的,在 12 天发布会上,这项技术虽然发布了,但被放在一个不起眼的角落。他认为这其实是最值得关注的突破。OpenAI 为了避免被竞争对手关注,选择低调地透露这一信息。不过在开发者群体中,他们还是在一些重点开发者那里进行了一对一的推广。

这项技术的特别之处在于可以同时接收多模态输入,并同时输出多模态内容。而且这种输入和输出是多端到多端的。大家知道端到端的概念,那么多端到多端其实是端到端在级别上的几个层次跃升。

另外还想问问雨森一个很有意思的问题,这应该是所有人都关注的:你认为 AI native 应用的大机会可能会是什么样子?


👦🏻 戴雨森

首先我觉得大机会的出现,应该是在深度 AI 技术扩散之后。如果现在使用的还是小众人群,那大机会可能还没有显现。让我们复盘一下历史上互联网 native 应用和移动互联网 native 应用的出现过程。

第一步是随着技术扩散,用新技术解决老问题。比如互联网时代,我们有电子邮件解决通信问题,有门户网站解决看新闻的问题,有自营电商解决卖货的问题。但随着互联网进一步扩张,当人们都上网后才出现了社交网络;信息都上网后,才出现了搜索引擎的必要性;当买家、卖家、支付和物流都建设完善后,才出现了平台电商。这些平台电商、社交网络、搜索引擎才是真正的互联网 native 应用,而且都是创业公司做的,最终占据了最大的市值。

移动互联网 native 应用也是类似,当移动互联网(包括智能手机硬件和 4G 网络)普及后,内容生产者消费者都用上了智能手机,才会出现抖音快手小红书这样的移动互联网信息平台。当蓝领工作者都用上智能手机后,才能诞生美团外卖滴滴这样的应用;当游戏玩家都用上手机后,才能出现米哈游王者荣耀这样的移动互联网 native 游戏。

AI native 应用的出现应该也会遵循类似逻辑。首先可能是像 ChatGPT 这样的应用,让每个人都有了 AI 助手,但它的扩散规模还需要更大。当我们每个人都有了自己的 AI 助手,用 AI 解决工作中的很多问题,甚至像现在这样开会,就会产生新的可能。

这时 AI 与 AI 之间的互动会产生什么样的结果?比如在一个公司里,如果大部分工作执行都由 AI 来完成,那么对生产力、对企业服务软件可能产生巨大变化。因为你不仅要执行,还要管理这些 AI,为它们下达任务、进行任务拆解。这些可能是人类完全做不到的,因为人没有那么多注意力和精力。

另外一个重要主题是 AI 时代的商业化方式。在移动互联网和互联网时代,大量商业化都是通过广告进行的。但当你用 Kimi 或 Perplexity 问问题时,原来搜索引擎里的广告、网页上的广告都不会被看到,因为是 AI 帮你看了这些网页。这就需要重构价值获取方式。我从 AI 那里得到答案的价值该如何提取?原来广告是给人看的,但 AI 看到广告就会把它们过滤掉。所以对广告商业模式的颠覆,也会带来很多 AI native 应用的机会。


🚥 Koji

我们最后一个问题,就是在 2025 年,真格基金和你最感兴趣的投资方向会有哪些?尤其是这里面有没有一些是行业的非共识,是你们差异化的观点?


👦🏻 戴雨森

我们的差异化观点主要有三个方面:

第一,我们对「杀时间」类应用会比较谨慎。

现在很多人都在按照字节跳动的经验去找下一个字节跳动,寻找一个耗时高、靠投放起量的 To C 应用。但我觉得当用户时长已经被字节占用这么多的情况下,下一个杀手级应用未必会以这种范式出现。也就是说,下一个字节跳动可能不会长得像字节跳动。

第二,关于现在最火的人形机器人。我们看到很多人形机器人本体公司获得了大量融资,但通用型人形机器人的技术路径,无论是 sim to real、从视频角度训练,还是操作数据收集,技术都还没有收敛。如何大规模收集这类数据,也还是个开放性问题。我们认为这个领域的投资情绪比较过热。人形机器人要在物理世界完成任务,甚至进入家庭做家务,所需时间可能比当前预计和投资周期要长得多。因此对于本体我们比较谨慎,但我们投资了灵巧手、电机等人形机器人领域重要的上游零部件。在这个领域,相比当前的热情,我们保持相对冷静。

第三,关于 AI 在生产力领域的应用。我们发现在美国,agent 在生产力和企业服务领域的落地很快。但在中国,因为普遍认为企业不会为工具付费,所以遇到了很多阻力和挑战,很多企业服务的创业者和投资人都受到了伤害。但我在想,当一个情绪非常极端时,往往也意味着反转的机会。

如果单纯卖工具在中国可能很难成立,但如果是以十倍低的价格提供工作结果本身,未必是企业不愿意购买的。这可能会成为一种强大的 AI 外包模式,不是传统的人力资源外包,而是把任务外包给 AI agent 去完成。

我们在思考,如果一定要在 AI 领域寻找 To C 的娱乐应用场景,这始终是比较难的。但能否将生产力的巨大突破和中国的产品落地结合起来?我觉得企业服务也许不是铁板一块,也许在这里存在新的机会。


🚥 Koji

那你们重点关注的方向有哪些?刚才讲的是一些非共识观点,或者说你们认为需要警惕和深入思考的方向。那么你们重点看的方向有哪些?


👦🏻 戴雨森

因为我们始终是一个以创业者为核心的基金,所以不会每年都预先定义重点关注方向。但说说我个人的看法,今年各种形式让 AI 去做 agent 在做的事情,我觉得会是一个非常重要的领域。同时,我觉得刚才提到的通过 AI 的编程或模态转换来实现规模化的个性化能力也很重要。

比如我们投资的一家 AI 教育公司,就是在探索如何通过 AI 让教育变得足够个性化。

原来的互联网教育解决的是教育的规模化问题,用互联网方式把名师教育下放给更多人。但更进一步,我们希望在保持规模的同时实现个性化,这是 AI 带给我们的一个重要机会。

所以我们刚才说了「与爱为舞」这家 AIGC 技术公司,同时也投资了一些想做类似 bolt.new 这种由 AI coding 来生成个性化应用方向的公司。但这个领域还处在非常早期的阶段,肯定需要很多调整。


🚥 Koji

我们今天就聊到这里。2025 年开年第一期,我们聊了很久,信息量也很大。不过最重要的不只是信息量,而是希望通过这期内容传递出更多乐观的信号和情绪,让大家能多行动起来,多去创造和创作。如果大家想要融资,也欢迎找真格。再次谢谢雨森。


👦🏻 戴雨森

辛苦了。你刚才的总结说得特别好。在技术浪潮如此汹涌澎湃的时候,虽然还有很多问题和未落地的想法,但这两年的落地速度确实远超我的预期。所以我们有很多理由保持乐观,去尝试突破。

花足够多的时间,甚至花一点钱去体验最新的 AI 产品,感受它可能带来的一点一滴的进步,这对我们来说都很有意义和价值 —— 不管是作为投资人、创业者,还是单纯作为一个对未来充满好奇心的人。

当然,也欢迎大家多听听「十字路口」和真格的「此话当真」播客,这对于我们学习和了解 AI 也会有更多帮助。


🚥 Koji

好,谢谢大家,祝大家新年快乐,拜拜。


👦🏻 戴雨森

祝大家新年快乐。



欢迎订阅「十字路口」播客

🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。


👦🏻  主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻[4]Koji 的网站[5]


👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻[6]

欢迎加入「十字路口」的会员群


☀️ 第一手的 AI 资讯与洞察

👫🏻 鼓励大家谈恋爱/交朋友/寻找未来的同路人

🦀 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码


参考资料

[1]

此话当真: https://www.xiaoyuzhoufm.com/podcast/646f194853a5e5ea1408d97c

[2]

十字路口: https://www.xiaoyuzhoufm.com/podcast/60502e253c92d4f62c2a9577

[3]

SWE-bench: https://www.swebench.com/

[4]

Koji 的即刻: https://okjk.co/0JSUes

[5]

Koji 的网站: https://koji.super.site/

[6]

Ronghui 的即刻: https://okjk.co/0cbnYV