点击关注,每天更新深度 AI 行业洞察
01
跟 OpenAI 竞争不现实,
合作才是双赢
Nilay Patel:你到目前为止获得了多少融资?
吕骋
:准确一些,总共大约是 5000 万美元。最后一轮是 3500 万美元,由 Sound Venture、Khosla Venture 和 Amazon Alexa Foundation Synergist 领投,所有资金加一起大约是 5000 万美元。
Nilay Patel:在我们聊天的同时,其他AI公司正在大额融资,OpenAI刚刚获得历史上最大的一轮融资,显然是为了构建基础模型、或者是 Sam Altman 想做的事情。你觉得以每轮 3500 万美元的融资额,能与他们竞争吗?
吕骋
:我认为谈论竞争,资金只是其中的一部分。我之前就做过创业公司,熟悉公司的运作方式。
资金当然非常重要,尤其是在公司刚成立的前几年。但我认为当我们谈论竞争时,最终目标是将产品推向消费者。
打个比方,人们不会直接购买能源,而是购买微波炉、汽车、摩托车、电视等依靠电力等能源驱动的产品。
因此,在研究层面上,我可以非常明确地说,在 Rabbit 目前的阶段,我们没有能力与 OpenAI、Anthropic、DeepMind 和谷歌竞争,那我们如何在这个游戏中发挥作用呢?
我们与这些 AI 模型公司建立合作关系,R1 可以搭载来自他们的每一个最新模型。先进的 AI 实验室的 AI 模型能力,结合我们在 Rabbit OS 上的产品创新以及各种功能,就能为用户提供可用的产品。因此,
从研究的角度来看,我们无法竞争,但我们可以合作迅速推出产品。
OpenAI 刚发布了 Realtime API,这个 API 让开发者基于其构建 Agent。而昨天,我们发布了 LAM Playground,用户可以通过语音浏览任何网站。
所以,我认为竞争的层面是不同的,我们当然希望能够获得更多融资,但我认为现在如果谈论竞争,我们必须聪明地应对。他们在研究方面做得很好,而我们擅长将最新的研究转化为用户可以立即使用的产品。
02
R1 的利润超过 40%,
不打算走订阅模式
Nilay Patel:谈谈 R1,它有橙色机身,屏幕、滚轮,并且可以连接到云服务,为帮助人们做事情。售价是 199 美元。现在每销售一台 R1 设备都能赚钱吗?
吕骋
:可以。
Nilay Patel:R1 的硬件利润率是多少?
吕骋
:利润率非常不错,尽管我无法透露具体细节,但超过 40%。
Nilay Patel:R1 的硬件利润超过 40%?
吕骋
:在硬件利润上,我们做了计算。昨天发布 LAM Playground 后,服务器崩溃了好几次,因此我们可能需要重新做一些计算。
但最开始我们是盈利的。现在我们拥有更多强大的功能,到目前为止,我还没听说过因为有一个流行的服务太受欢迎以至于无法支付云账单而破产的公司。
Nilay Patel:等等,我可以为你梳理一下。售价是 199 美元,你每台的利润超过 40%,那么就是 80 到 90 美元,对吧?这部分利润,你是需要用来支付云账单的,对吧?
吕骋
:是的。
Nilay Patel:那么这部分利润全部用于支付你的云账单吗?
吕骋
:我们与 AWS、谷歌云、微软 Azure 这些互相竞争的云厂商都有合作,在大语言模型则与 Anthropic、OpenAI 和 Gemini 有合作。
Nilay Patel
:我只是想说,与这些公司合作并不便宜。
吕骋
:确实不便宜,但我想指出的是,他们相互竞争非常激烈,以至于为早期初创公司提供了许多良好的福利。我认为在目前的规模下,我们完全能够应对(向云厂商和大模型厂商付出的成本)。
Nilay Patel:如果我从你这里购买了一台 R1,假设你的利润是 90 美元或 80 美元,用户需要使用 R1 多少次才能让这些利润变为负数?是需要两年的使用时间吗?还是一年?六个月?因为在使用AI时,每次操作都涉及多个服务器和带宽成本,最终都会产生开支。
吕骋
:我认为,对于一个适度使用 R1 且方式不是机器人或非恶意的用户来说,很难具体计算。不过我认为绝对超过一年半。我不确定是否达到两年,因为我们会推出新的功能,包括 LAM Playground 和 Teach Mode。
但我想说的是,我们做过计算,
我们的硬件确实在盈利
。我们希望能卖得更多硬件,这肯定会对公司有所帮助。但我们整个发布策略的目标并不是在前六个月内赚取多少金额。
我认为一些公司在产品发布时非常贪婪,我甚至不想提名字。
任何新一代的产品,如果创始人、公司和董事会决定制定一个「榨取用户每一分钱」的策略,那肯定行不通。
我们知道 AI 处于早期阶段,很多事情都可能会出错。无论是大公司还是小公司,从事最新的 AI 项目,发布前两周都会面临灾难,因为你会发现 会有很多 AI 的错误行为和模型输出的边缘情况,整个领域都太新了。
我们绝对不想收取订阅费,我认为这样的想法是非常愚蠢的,
因为在伟大的创新中,你必须首先关注创新的部分,然后再考虑盈利。
如果现在就开始考虑盈利,那一切都不合理。
行业中还有其他人,他们对很有行业经验,但却选择发布一个壁纸应用程序,收取每月 4.5 美元的费用。你可以去和那个人谈谈,说「你不会破产,因为你的财务数据和所有计算都在正常范围内。如果你收取费用,你就会赚钱。」但这基于一个需要成立的整体逻辑。
注:油管科技大 V Marques 发布了一款收费的壁纸应用,引起了不少争议。
所以我现在并不想花太多时间在折腾数学公式,让这个利润变成 20% 或 50% 上。作为一家初创企业,我们需要生存,尽管自发布以来经历了许多波折。但我们在成长,依然在推出其他设备,包括 iPhone 无法做到的功能,这是一件非常好的事情。
Nilay Patel:我不认为以前有人在我们节目中将对 Humane 的批评与对 Marques 壁纸应用的批评联系在一起,干得好。不过我的问题是,当你谈论增长,谈论 Rabbit 的单位经济效益时,某个时刻硬件对你来说会变得无利可图。这时,你们会开始收取订阅费用。你们会说:「要继续使用这个设备,不能让我们公司亏损。」这是我想要追问的。
吕骋
:我认为这个问题有多个解决方案。
首先,
我们将推出下一代设备,甚至可能是多个设备,这些设备在硬件方面仍然能保持盈利。
其次,我们从一开始就已经为此做好了准备。上周我们向一小部分经过精心挑选的测试者(规模大约 20 到 25 人)推出了 Teach Mode(一种 AI Agent 的搭建工具)的 alpha 版。在过去的 72 小时内,我看到他们已经创建了超过 200 个课程或代理。而如果你看看目前的苹果生态系统或 Android 生态系统,我认为硬件不会是主要的收入来源。
实际上,硬件本身的利润空间是非常有限的。因此,某个时刻你需要将其转化为服务和软件收入。但这并不意味着你会直接收取设备或软件的订阅费用。
我认为非常有前景的是,我们将逐步向 beta 测试者推出 Teach Mode,希望在今年年底之前能像我们一开始承诺的那样正式开放 Teach Mode。独立用户或开发者可以在上面创建课程或代理,它可以被视为新一代的应用商店。在这方面,我们可以赚大钱。
Nilay Patel
:就像应用商店的经济模式那样,抽取 30% 的分成。
吕骋
:我并不想发明任何新的商业模式,我认为
作为初创公司,发明自己的商业模式是非常冒险的
,现有的商业模式非常好,比如 App Store,它贡献了苹果一大部分的年收入,对吧?
Nilay Patel
:我之前很好奇你们是怎么在 R1 售价 199 美元的情况下赚钱的?现在我明白了。
03
R1 的销量超过 10 万,
退货率 5%
Nilay Patel:上个月你告诉 Fast Company 说,R1 每天的活跃用户只有 5000 人。这比你预期的高还是低?
吕骋
:我觉得我当时说的内容可能被误解了。我说的是,如果你现在去看数据,可能会发现大约至少有 5000 人在使用 R1。
Nilay Patel
:我直接引用 Fast Company 上的内容:「吕说,『目前大约有 5000 人每天使用 R1。』」
吕骋
:我说这可能会被误解,好吗?
Nilay Patel
:好的。
吕骋
:我认为我们看到的是互动人数的稳步增长,每次推出新功能时,都会有更多的人使用。我可以给你一些数字,大约有 5% 的用户对 R1 不满意,并且退货少于 5%。
Nilay Patel
:明白。
吕骋
:这是个非常不错的数字。我认为,用户使用最多的功能是提问和视觉相关的功能,我们真的希望大家能发现更多的使用场景。但遗憾的是,我们目前只有四到七个连接应用,这是一个瓶颈。所以如果你查看总的查询量,大部分情况下,用户提了一个问题,然后就忘记了。因此,关键不在于你使用了 R1 多少次,而在于你让 R1 做了什么任务,R1 是否真的帮你完成了。
Nilay Patel:那么具体的数字是多少?每天的活跃用户数量是多少?我们会发布更正。是两倍吗?是 1 万?还是 2.5 万?
吕骋
:我现在就可以查一下,过去一天的活跃用户是 33,760。
Nilay Patel
:好的,昨天 33,760 名活跃用户。这占你总销量的百分比是多少?
吕骋
:我们已经交付了超过 10 万台设备,这应该占大约 33% 到 34%。
Nilay Patel
:这很合理,我猜昨天的高活跃度是因为 LAM Playground 的发布,这是一次大的增长。
吕骋
:是的。
Nilay Patel
:前几天的数据是多少?
吕骋
:过去两天是 5206。
Nilay Patel
:这是两天的总数?
吕骋
:对的。
Nilay Patel
:好的,但有一天是 LAM Playground 上线的,所以我明白你的意思了。
吕骋
:对的。
Nilay Patel
:所以你说的是任何时候大约有 5000 名活跃用户,而不是每天都一定有。
吕骋
:对的。
Nilay Patel
:好的。然后你现在大概有 2 万名用户,之后我们看这个数字是否会上升。因为 LAM Playground 上线了。
吕骋
:对的。
The Verge 的补充解释,你们自己看吧
04
LAM Playground 是
迈向
通用跨平台 Agent 的第一步
Nilay Patel
:对于 Rabbit 的 R1 背后是怎么运行的,我的假设是:用户提出一个查询,它展示了一个漂亮的动画,然后它进入网络,使用了一系列API。现在有了新的「大行为模型」(Large Action Model,简称 LAM),以及你们昨天刚宣布的 LAM Playground,人们可以观看它的工作过程。
我看到 LAM 在 The Verge 网站上浏览标题,它是在做什么?我提出一个请求,Rabbit 在云端帮我浏览网络?
吕骋
:在这里我们要区分几个不同的系统。先谈昨天之前的情况,因为昨天(LAM Playground 上线)确实是一个重要的里程碑。
在昨天之前,R1 的内部运作机制是:你对 R1 说话,R1 将音频转化为文本,然后将文本发送到我们的大模型提供商那里,然后我们的意图分流系统会分析这个意图。在 LLM 理解了这个意图之后,我们会将任务发送到不同的 API 或不同的功能。
有很多功能是设备本身就能解决的,比如设置一个智能定时器,或是回答简单问题。但我们认为有些问题其他服务或模型可能比默认的 LLM 回答得更好。所以有时候我们会把特定的查询发送到 Perplexity,有时候则发送到 Wolfram Alpha。
意图分流系统就是会将不同的请求分派到不同的目的地,相关的功能会随之触发。
但在昨天之后,
我们推出了 LAM Playground,这是迈向我们真正想创建的通用跨平台代理系统的第一步。
目前它是通用的,但还没有跨平台,还只能处理网站。不过,很快就会跨平台。通过这个通用的网页代理系统,就可以实现这种操作:你可以对 Rabbit 说:「到某网站帮我完成这个任务。」它就真的能完成。
这正是我们设计产品时的初衷,我认为整个行业也在朝这个方向前进。你说出需求,我们理解你,并帮你完成。而我们在 Rabbit 界面上展示的,就是代理系统分解任务的过程。
比如,我首先会去 Google,搜索 The Verge,然后点击进入 The Verge 的主页,接着尝试找到你请求的标题,最后点击分享按钮。理论上你可以将多个步骤串联起来,甚至是无限的步骤,系统还会处理后续查询。
我之前向另一位记者展示一个例子:「Rabbit,先去 Reddit,搜索 2024 年最受推荐的 4K HDR 电视型号。找到型号后,去 Best Buy 把它放进购物车。如果 Best Buy 缺货了,再去 Amazon。如果两家都缺货,那就选择第二推荐的型号。」
所以你可以将不同的查询串联起来,你也可以暂停、添加、调整、微调它。这个系统就像是一个 Playground(游乐场),你可以自由探索,而系统已经足够好,能胜任日常任务。
显然,开发者和我们的「白帽黑客」们正在给我们展示一些令人印象深刻的范例。有的人使用这个 LAM Playground,仅通过与 R1 的对话就创建了一个应用,因为用户可以直接使用第三方 AI 平台,通过提示词创建应用并下载代码等。
Nilay Patel:你们在 1 月份的 CES 上发布了 Rabbit R1 和 LAM,但它当时并没有真正展示。为什么在缺少关键功能的情况下发布呢?
吕骋
:这个说法并不准确,我想借此机会澄清。
如果你查看现有的连接服务,现在我们有七个应用。而在发布当天,我们有四个应用。这些是 LAM 的第一阶段迭代技术,但并不是通用技术。我们从未在 CES 上宣称你可以现在就去 Amazon 下单。我们说的是我们正朝着这个方向努力,而当时有四个应用可以连接。我们会继续添加更多的服务。在过去几个月中,我们确实增加了三个服务。因此,截至今天,我们总共有七个服务,并且我们正持续改进当前的 LAM Playground,等到时机成熟时,我们会进行升级。
关于「LAM 没有到位」的争论很多,但这并不是真的
。我可以追溯到这个谣言的起源点,那是有人入侵了 R1 的系统,发现 R1 的底层是安卓系统,显然这应该是这样。如果不是安卓系统,反而会显得更加可疑。所以 R1 的底层是安卓系统,他们把代码提取出来,事实上,历史上每一个优秀的硬件都曾被黑客破解过。
所以,有人进入系统并破解了 R1。显然,对我们来说,这是一种赞誉。如果你构建了一款设备,没有人有兴趣去破解它,那可能说明它不是一个好的设备。人们破解了它,发现了安卓代码,他们把这些安卓代码转移到另一个媒体上,然后说:「这里没有任何关于 AI 的东西,这里也没有 LAM 的内容。」当然,因为所有的内容都在 AWS 上。
谣言就是从这里开始的,很多媒体也拿着这点反复报道。
05
只要能解决问题,
实现路径有很多种
Nilay Patel:你们最初的应用有 Spotify、DoorDash,还有其他一些。这些背后是调用它们的API,对吧?
吕骋
:你指的是什么?现在我们没有使用 API。
Nilay Patel
:你们做了一个智能音箱。Spotify 可以在智能音箱和其他设备上运行。
吕骋
:那是合作关系。去看看 Spotify 的文档。有一行明确写着:你不能使用 API 来构建语音激活的应用。
Nilay Patel
:所以目前在 R1 上,当我要求播放歌曲时,它实际上是打开了 Spotify 的网页窗口?
吕骋
:是的,打开了一个窗口。
Nilay Patel
:然后你就通过你的服务把 Spotify 的音频重新串流到我的设备上。
吕骋
:没错,是的。
Nilay Patel:Spotify 知道你们在这么做吗?
吕骋
:知道。
Nilay Patel:他们对此没意见?
吕骋
:我们有过一次对话。他们意识到这是一种代理行为。我们说:「你看,我们让用户在你们的网站上登录,他们都是 100% 合法的用户,并且是付费用户。当我们进行这个操作时,我们只是帮他们点击了播放按钮。」
Nilay Patel
:我一直对这个问题非常好奇,所以,当我让我的 R1 播放一首歌时,某处的 AWS 虚拟机启动,打开了一个网页浏览器,进入 Spotify,使用我的凭据登录我的 Spotify 账户,在 Spotify 上点击,播放一首歌,然后你捕捉到音频并重新串流到我的 R1 上?
吕骋
:是的,就是这样,除了我们不会帮你登录。你需要自己登录,我们不保存你的连接信息。
Nilay Patel:但是你们确实在将 Spotify 的音频通过虚拟机上串流给我,对吧?
吕骋
:我们基本上是给每个人提供一个虚拟机,也就是 VNC(Virtual Network Computing,虚拟桌面),这是 100% 符合政策的,你有权访问那个 VNC。在那个 VNC 上,我们就是直接在一个网站上操作,就像现在的 LAM Playground 一样。所以我们并不是从 Spotify 服务器或者别的地方获取音频。我们是访问 Spotify 网站,为你操作并播放那首歌。
Nilay Patel:好的,但是数据是怎么传输的?数据传输到虚拟机上,然后再从虚拟机传输到我的 Rabbit 上,对吗?
吕骋
:没错。
Nilay Patel
:所以你们确实在重新串流这首歌给我。
吕骋
:我是直接将 VNC 呈现给你的 R1。
Nilay Patel:解释一下这是怎么回事。也许我在技术上没理解。你是把 VNC 呈现给我的 R1?
吕骋
:没错。
Nilay Patel:所以它是在我的设备本地运行的?
吕骋
:在没有用户界面的情况下。
Nilay Patel:我明白你的意思了。也就是说,我登录了一个云端计算机,R1 是云端计算机的客户端,而 Spotify 是在那个云端计算机上播放的,R1 接收音频。这会引出很多额外的问题,对吗?
吕骋
:首先,我知道你想说什么。我想先说两点:第一,我们没有使用 API;第二,说 LAM 不存在是不实的说法。因为我们现在有这些服务,如果你仔细查看它们的文档,比如 DoorDash,它是没有 API 的,Uber 也是没有 API 的。
Nilay Patel
:但我想明确一点,这是这些公司做出的选择,目的是阻止像 Rabbit 这样的公司不通过用户直接使用这些服务。当你想到这些代理模型在网上运行时,无论它们的表现形式如何,无论是 LAM,还是在 LAM Playground 推出之前的其他形式,所有这些公司都会对代理能否以这种方式使用它们的服务有自己的看法。这方面的规则还未定论。
吕骋
:是的。
Nilay Patel:在 LAM(它似乎能理解并操作所有网站)出现之前,如果 Spotify 更改了它的界面或者 DoorDash 更新了它的界面,Rabbit 会遇到问题,对吗?
吕骋
:Spotify 一直在更改它的界面。在过去的六个月里,自从第一个 LAM 与 Spotify 建立连接以来,大约有五个月的时间,我们可能对 Spotify 维护过两次,总共大概停运了一小时左右。
Nilay Patel
:这是个有力的证明,但我觉得这意味着它还不够好,对吧?我手机上的 Spotify 应用从来不需要维护,如果你声称代理能够为我执行操作,那我必须能 100% 依赖它。
对我来说,问题在于,你想要实现的目标——让智能代理为我浏览网络——与我们现在的现实之间的差距。实际上,中间解决方案是API,而不是脆弱的界面。对我来说,更合理的是,让代理使用专为计算机设计的接口,而不是为人类眼睛设计的界面。
吕骋
:首先,我不同意用 LAM 操作 Spotify 的表现不好。Spotify 运行得非常好。五个月里,我们可能只维护了两次,总共不到一小时。这不是通过 API 实现的,这是通过智能代理实现的。
Nilay Patel
:我明白,作为智能代理这很厉害。
吕骋
:你说它不够好。
Nilay Patel
:我说它还不够好。
吕骋
:它确实不够好。
Nilay Patel
:对吧?那什么时候能达到 100% 呢?因为API可以做到 100%。
吕骋
:这是我的第二点。API可以做到 100%,但前提是你使用了一个稳定的 API。
Nilay Patel:我是用户,我不在乎。作为用户,我为什么要在乎?
吕骋
:用户不需要在乎。我们需要在乎。我们需要检查哪些 API 是运行良好的,不要误解我的意思,Perplexity 的 API 表现非常优秀。
Nilay Patel
:当然。
吕骋
:但 OpenAI 的 API 每隔一两天就会出问题,你可以查看「Is ChatGPT Down?」网站,上面非常详细地列出了每天中断的次数。我猜平均每天 ChatGPT 的 API 会中断或不稳定超过 10 次。所以,API 确实不稳定。
Nilay Patel
:明白。
吕骋
:你还得追踪用户需要的服务。我们想提供音乐功能,我们认为 Spotify 是整体体验最好的平台,我们希望追求这个合作伙伴关系,我们现在仍在努力争取。
但从技术角度来讲,我之所以说不喜欢 API,是因为并不是所有公司都开放 API,而且许多传统服务没有 API。而对初创公司来说,获得大公司的 API 是有一定障碍的。我们确实去找了每一家公司,但他们觉得我们太小,所以我们拿不到 API。
这是否意味着我们就找不到其他办法让它服务正常运行?不,绝对不会!我们会让它运行。所以我们关心的是用户是否能使用某项功能,而不是如何实现它。我们知道你不关心这是怎么做到的,我也不想花六到八个月去一个个地与 Spotify 和 Uber 的人谈判。
Nilay Patel
:那么你最终承诺的是,LAM 可以直接在网络上为用户工作。
06
与 Apple 相比,
Rabbit 有 8 个月的领先时间
Nilay Patel:苹果已经宣布了「Apple Intelligence」,会集成在各个苹果设备中。苹果可以获得与各个应用公司的合作协议,能将开发者拉入与 Siri 的本地API合作关系中,而且还可以无限砸钱。让人们去买一个新设备,而不是直接在苹果的设备上使用类似功能,这对于创业公司是非常有挑战性的,你如何克服这一点?
吕骋
:这确实是游戏中有趣的一部分。
Nilay Patel:那么你如何赢得这场游戏呢?
吕骋
:首先,从我个人来说,我 25 岁时已经卖掉了一家公司。第二个公司,我正在追求同样的梦想,因为我认为自己和团队正在推进的这个宏大愿景,实际上是现在每个人都在追求的方向。而且,不管有多难,如果你不追逐同样的梦想,感觉会非常糟糕。目前,我们很庆幸也很高兴地说,我们没有真正的竞争对手,至少在初创公司中没有。
Nilay Patel:不过确实有一个,而且它似乎是一个相当大的失败。Humane 带着大量资金、与 T-Mobile 的重大合作以及订阅费用、还有《时代》杂志等各种资源推出产品,但似乎进展并不顺利。
吕骋
:所以我说,截至目前,我认为我们在初创公司方面没有遇到真正的竞争对手。
当我们谈到竞争对手时,会有苹果,以及包括OpenAI在内的其他所有的大公司。
首先,我认为这对我们来说是好事,因为它验证了我们的方向绝对是正确的。我也很好奇,通用代理技术最终会走哪条路,因为行业内的不同人可能有不同的想法。目前还没有针对代理系统的评估标准,也没有非常好的评估方法。你可以看到很多研究机构和公司在尝试不同的路径。
显然,有像 GPT 这样的 API 路线,但它并没有真正起飞;有纯粹的神经符号混合路线;还有各种多模态的尝试。所以,
包括苹果在内,我们仍然处于大家都在尝试自己「配方」的阶段,希望最终能找到一个明确的解决方案。
我认为苹果的优势在于,他们确实比任何其他公司更加了解用户,而且他们拥有理论上无限的资金和一个自成体系的封闭的生态系统。他们推出这个功能的方式是通过一个叫 App Intent 的 SDK,对吧?不同的公司或应用开发者需要选择是否加入这个程序,以便让新的 Siri 来控制应用。
我们 Rabbit 这样的小团队,相对苹果的优势在于行动迅速。
我们行动快,并且在不断增长。我们是销量最高的 AI 专用硬件设备,而且已经取得了不错的利润,解决了发布当天的所有问题,公司规模也增长了四倍。
就像你说的,把今天和昨天区分开来。我认为今天可以说,有很多 R1 上的功能是 iPhone 无法做到的。我相信最终所有设备都会达到相似的解决方案,至少在 2024 年第四季度,甚至可能到 2025 年第一季度,这场比赛仍然是「你有别人没有的东西」,而不是「大家都有同样的东西,谁做得更好」。
所以相对来说,
我们有一个六到八个月的领先时间,有一点自己的空间。
但我也相信,当大公司想要扼杀一家初创公司时,他们有无数种方法。这就是现实。人们总是问我一些类似的问题:「如果风险太高会怎样?如果公司倒闭会怎样?」
我真的不认为这些问题有任何意义,因为我们已经在这条路上了,我们会看到结局,不论是好是坏。坦率地说,我认为这些问题的答案无论是什么,都不会改变我们的方向。我可以在这里跟你哭诉:「这太难了,这不可能做到。行业内的任何人都可以轻易地杀死我们,或者 YouTube 上的一个差评就能毁掉我们。」
但这些都不会改变我们的路线,因为我们在踏踏实实做事,我们在发布产品,我们在前进。所以,我很好奇苹果会推出什么。
我之前加入了苹果的 iPhone 升级计划,我每年只需支付相同的月费就能自动获得一部新 iPhone,但我真的没有看到任何升级的理由。人们总说 Rabbit 推出得太早,而现在如果你去任何大城市的地标地段,例如洛杉矶的日落大道,都能看到苹果投放的那些巨大的广告牌。iPhone 16,iPhone 16 Pro,下面的宣传标语是什么?它写着「Apple Intelligence」。它准备好了吗?它已经推出了吗?还没有。
07
AI Agent 会倒逼业界
重新思考新的商业模式
Nilay Patel:现在 R1 上有 Uber,你们是通过打开 Uber 的桌面应用吗?
吕骋
:不是,是打开 Uber 的网站,这个网站非常卡顿。
Nilay Patel
:这正是我想问的。抱歉,我说的桌面应用是指你在网页浏览器中叫了一辆 Uber。如果你们运行的是 Android,为什么不直接打开安卓虚拟机,使用它的安卓应用呢?
吕骋
:这在技术上实现起来稍微复杂一些,不过我们正在其他平台上努力推进。我记得我曾向一小群人展示过一个工作原型,在 Linux 这样的桌面操作系统上运行 LAM,以支持本地应用,所以我们肯定在朝这个方向前进。
Nilay Patel:有没有可能他们检测到这些并不是人类用户,而是代理用户?
吕骋
:我猜总有检测的方法,但问题是——你提了一个非常好的话题。想想 CAPTCHA。
现在,无论是 LAM Playground 还是其他任何强大的 AI 模型,都可以去解决基于文本的 CAPTCHA。所以,这些老旧的系统,旨在防止自动化系统的防范措施,目前正在失效。这是整个行业共同努力推动的方向,迫使大家重新思考——
如今有了 AI,有了这些代理系统,他们的商业模式将如何重塑,或者这些政策需要如何改变?
我同意,这确实是一个非常复杂的话题。但我能看到的是,这不是 Rabbit 一家在做,而是每家公司都在做类似的事情。所以对于这些老旧的服务来说,这是一股新兴的浪潮,他们必须重新思考。但我可以告诉你,我个人处理过类似情景的经验,比如 2013 年我们开始构建第一代智能音箱时——所有音乐公司根本不关心。他们不在乎,直到每个人都开始构建智能音箱,他们才意识到:「好吧,我们必须为这种特定的设备形式重新销售版权。」
归根结底,这还是关于钱。他们希望把同样的版权尽可能多地出售给各种不同设备形式,如果有一种设备形式变得流行,他们就会这么做。所以,我们对此类谈判是没问题的,但正如你所说,还有更大的公司在做类似的甚至更先进的事情,这些是需要解决的。
我再给你一个例子,比如 Siri 和微软,有一个叫 Microsoft Recall 的功能,他们曾经撤回了这个功能,现在他们重新推出了。这个功能非常具有侵略性,它可以录屏你本地计算机的屏幕。
所以这是我在AI初期看到的现象。会有很多不同的尝试和探索,最终人们会达成一致,形成一套统一的条款和协议。
但如果你看看我们如何自动化网站与它们的界面互动,最重要的一点是我们不会创建虚假用户,也不会创建垃圾用户。我们不会替用户登录他的账号,我帮用户做的就是点击按钮和移动鼠标。举个例子,这个过程相当于,假设我马上要开个会,但我也想让我朋友帮我在 DoorDash 上点个汉堡。我需要做的只是解锁手机,把手机递给他,然后他帮我点击。
在这个过程中,我并没有把我的账号凭证告诉朋友,没有告诉他我的手机密码,也没有告诉他我的 DoorDash 密码,甚至没有分享我的信用卡信息。他所需要做的只是添加到购物车并点击确认。所以这个朋友相当于 LAM 的第一代,但我们不喜欢这种方式。所以我们花了很多精力,现在有了 LAM Playground,这是一个更具通用性的技术。
Nilay Patel
:你们的设备内置 DoorDash 等应用,是直接用智能代理访问其页面的,你采用的方式是在云端让用户登录,你的 LAM 大行为模型帮助用户点击和操作,这样你就可以避免与各种公司签API协议的挑战,或者其他形式的协议。
现在 Jony Ive 正在与 Sam Altman 和 OpenAI 合作开发一款硬件设备。Humane、Google、三星也会有动作。
你们目前使用的 LAM 运行智能代理的方式是可持续的吗?这种方法是否能让 Rabbit 避免所有那些大公司只需支付费用就能获得的协议?因为这是我最关心的问题。我能想到以前有公司用技术手段在某段时间内解决了法律问题,但最终法律问题还是让他们付出了代价。
吕骋
:这暂时不是一个问题,但我们会看这个问题未来如何发展。我记得读《乔布斯传》时,书里记载,当苹果还不是巨头的时候,乔布斯说:「好,去和索尼谈,从明天开始每首歌 99 美分。」你记得那个时刻吗?
所以到某个阶段,这种层级的谈判必然会发生。我不确定是我们率先推动,还是其他人率先推动,但这证明了我们没有使用 API。
我也不认为这些服务不提供 API 是为了防止人们「未经许可」的访问他们的服务。只是因为 API 对他们来说不赚钱。
而且,毫无疑问,当我们做大之后,他们会非常愿意在某个阶段进行谈判。我们在发布前曾尝试联系 Uber,他们的反应是:「你们是谁?你们太小了。」
从技术上看,我们对这项技术的现状充满信心,并认为这是当前的可行的技术路线,至今我还没有看到其他方法能使通用代理系统以不同的方式运作。
但这并不意味着我们锁定了一条技术路径。对于任何创业公司,认为「我们在未来十年就押注于某个核心技术」并不是明智之举。技术变化如此之快,我们必须不断适应。
不过,目前我认为我们起步良好,我们推出了一个概念,提供免费的探索平台,以帮助我们理解如何改进这个系统。
我不认为AI行业中的任何人能够给出明确的答案,比如「只要这样做,就能保证长期获得最佳结果」。我认为这种思维方式并不合适。但我同意,行业内的每个人都在尝试新事物,我们看到很多公司,如你所说,可能会面临某种法律问题。
Nilay Patel:这似乎正是整个AI行业的写照,对吧?
吕骋
:我认为,不仅是开发者在适应,整个行业也将适应开发者。某个时刻,行业会得出结论:「好的,这是新政策,我们需要遵循的新条款。」
Nilay Patel:你们是否朝着这个目标努力?我再次强调,这是我思考这些事情时的一个重要问题。基本上,每个AI产品都是一种领先于法律体系或商业协议的技术解决方案。
某个时刻,Spotify 可能会告诉你:「我们不再允许代理,我们将更改服务条款,规定必须是人类用户。」DoorDash 或者其他公司也可能会如此。你准备好应对这种结果吗?你是否有预算来雇律师应对这场战斗?
吕骋
:目前,我们没有资源来应对这样的斗争,这暂时对我们来说并不是一个真实的威胁,因为他们说我们太小了。
Nilay Patel:你认为转折点会在何时出现?
吕骋
:我并不认为这对我们来说是死胡同。
Nilay Patel:不,我是说你何时会开始讨论代理用户与人类用户之间的区别?
吕骋
:我不认为他们会不愿意改变条款。
而且我认为他们不太可能规定「必须是人类」。目前已经有很多自动化工具存在,无法回头。
我认为,他们希望与包括我们在内的任何公司合作,当他们看到对这种新型代理技术的需求时,他们会想要收费,然后我们会要求用户和我们共同支付,这更像是商业交易,而不是简单的条款问题。就目前而言,我们并没有违反任何条款和协议。如果明天条款发生变化,我们会重新评估并适应。
但代理技术已经存在,许多代理系统已经在运行,因此停止使用这些服务是极不可能的。这种情况大概率不会发生。
08
硬件设计不能跑得太快,
要尽量保守
Nilay Patel:从最长远的时间线来看,假设一切顺利,要实现你们构建的通用代理的完全可靠性,需要多少时间和资金?
吕骋
:我对此可能有不同的看法。我认为有 OpenAI 这样头部的 AI 实验室训练基础模型,我们可以利用他们的成果,因为他们主要是将模型作为 API 出售,这样节省了很多成本。我们不想重复造轮子,重新训练大型语言模型。
我认为,将最新技术转化为产品与推动更先进技术之间存在巨大差距。
显然,我非常支持高端学术研究。如果有足够资金,我们也希望建立一个与 OpenAI 和 DeepMind 同规模的研究机构,尽管他们已经走得很远。但在目前这个规模下,我们的资金有限。我们没有 10 亿美元,也没有 20 亿美元,只有非常有限的预算。我们需要思考如何将最新的技术和研究转化为可以早期交付的产品,以收集反馈并进行学习。
关于 AGI(通用人工智能),很多人有不同的定义。我不太谈论这个术语,因为每个人的理解各不相同。但我确实认为,AI 能够理解你的指令,并帮助你完成任务,也许这里我们所说的就是帮助你点击按钮之类的事情,就是很有价值。很多公司正在开发人形机器人,实际上就是在为 AI 提供手脚来执行操作。
我认为这是人类共同的努力,许多资源可以共享,而不是每家公司都要为达到同样的目标而筹集资金并耗费时间。因此很难确切说出,但我们确实需要更多的资金和资源,这一点毫无疑问。不过,你可以看到,从 7 人、17 人到现在,这个团队的效率提升是显著的。我们筹集的资金远低于 Humane 或其他大公司,我认为这实际上是我们的一个优势,让我们能够以相对低的成本和快速的速度完成工作。
Nilay Patel:从时间线来看,假设一切顺利,你认为是明年就能基于所有基础模型和投资构建出你想要的东西吗?是说可以在网络上处理我要求的所有事情,那是五年后吗?