主要观点总结
2024年,AI对现实世界的“入侵”成为常态,带来许多令人瞩目的技术进步,如OpenAI的Sora和GPT-4o模型,以及AI在诺贝尔奖的获得。然而,AI行业也面临诸多挑战,如算力投入与产出的不平衡,以及AI应用落地难的困境。尽管面临这些挑战,AI行业仍展现出强大的创新能力和发展潜力。未来,AI行业有望通过大型基座模型能力的提升、世界模型与物理世界的融合、多模态融合、模型的可解释性与安全性以及AI在专业领域的深化应用,推动行业的进一步发展和商业化进程。同时,AI将助力人类劳动迈向“软件化”时代,重新定义劳动形态和生产力布局。
关键观点总结
关键观点1: 2024年AI的新进展
OpenAI的Sora和GPT-4o模型带来震撼,同时AI在诺贝尔奖的获得彰显了其技术实力。
关键观点2: AI行业的挑战
算力投入与产出的不平衡、AI应用落地难是AI行业面临的主要挑战。
关键观点3: AI行业的未来发展
通过大型基座模型能力的提升、世界模型与物理世界的融合、多模态融合、模型的可解释性与安全性以及AI在专业领域的深化应用,推动AI行业的进一步发展和商业化进程。
关键观点4: AI对劳动形态的影响
AI将助力人类劳动迈向“软件化”时代,重新定义劳动形态和生产力布局。
正文
2024年,AI对现实世界的“入侵”似乎成为了一种常态。年初,OpenAI的视频生成模型Sora横空出世,用户惊叹“现实不存在了”。5月,OpenAI发布GPT-4o,这个模型能够处理或生成文本、图像和音频等多种形式的数据。10月,诺贝尔奖揭晓,物理学奖以及化学奖都与AI相关。11月初,英伟达成为全球市值率先突破3.6万亿美元的公司。但抛开AI作为新科技的光环,回归产业的本质,AI行业仍然有不少待解决的问题:不少科技公司斥巨资押注算力,但投入与产出成正比了吗?在AI这条产业链上,哪类角色真正掌握着话语权,只有少数派盈利的产业链能维持平衡吗?做面向C端的AI应用,真的是一条捷径吗?我们将在本篇行研中,聚焦AI行业的核心问题,探讨未来AI行业有哪些新的可能性。先分享一些核心结论:算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。
我们逐渐进入一个多模态灵活转换的新时代。简单来说,就是用AI实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。
在人类劳动的未来图景中,劳动形式正在逐步“软件化”。复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。
AI行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。
云厂商不仅掌握着庞大的商业生态和技术资源,还拥有数千亿美元的云服务市场规模。它们是产业链中毋庸置疑的“链主”。
2024年,头部AI应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。
ToP(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC应用面临较大的挑战。
在AI应用领域,Copilot和AI Agent是两种主要的技术实现方式。Copilot可以理解为“辅助驾驶”,适合拥有先发优势的大厂。AI Agent可以视作“自动驾驶”,或许适合有足够创新能力的创业公司。
北美和欧洲贡献了AI移动应用市场三分之二的份额,这也是众多中国AI公司积极出海的重要原因之一。
2024年,OpenAI在大部分时间处于“被挑战”的状态。Anthropic发布的Claude 3.5 Sonnet和Google发布的Gemini 1.5等头部基座大模型一直在冲击和挑战OpenAI的GPT-4 。直到接近Q3末,OpenAI发布新模型o1,其基于思维链和强化学习的新训练和推理方法,展现出来明显超出GPT-4等传统模型的复杂推理能力,才维持住了OpenAI业界第一的地位。2024年初,OpenAI的视频生成模型Sora横空出世,首次具备强大的视频生成能力,引发业界的轰动。5月份,OpenAI发布GPT-4o,其中“o”是“omni(全能)”的缩写,这个模型能够处理或生成文本、图像和音频等多种形式的数据,甚至还拥有逼真的实时语音对话能力。比如Meta在7月推出Llama 3.1 405B版本,在推理、数学、多语言处理和长上下文任务上能够与GPT-4o和Claude 3.5 Sonnet等头部基座模型不相上下。可以说,Llama 3.1缩小了开放模型与封闭模型之间的差距 ,进一步挤压了全球非头部基座大模型的生存空间。此外,中国的开源项目,例如Qwen-2、DeepSeek 等在全球范围内也赢得了众多用户。随着“蒸馏”和“量化”等技术的发展,模型的小型化和端侧化也逐渐形成一种趋势。多家公司推出4B(40亿)参数以下的专业或端侧小模型,在尽量保持性能的前提下,大幅降低对算力的需求。苹果公司在6月份发布面向iPhone、iPad和Mac的个人智能化系统Apple Intelligence,在上述设备中嵌入一个大约3B(30亿参数)的本地模型,提供强大的生成式AI功能。生成式AI和大模型技术加速破圈,在基础科学、自动驾驶和具身智能领域取得了突破。被誉为“AlphaFold之父”的谷歌DeepMind公司Demis Hassabis博士和John Jumper博士因为蛋白质结构预测获诺贝尔化学奖,Geoffrey Hinton和John Hopfield因神经网络研究荣获诺贝尔物理学奖,彰显了AI对于生物和物理学的深远影响。同样值得一提的是,得益于多模态大模型的发展,自动驾驶的安全性和可靠性得到了显著提升,具身智能机器人的感知、决策与交互能力也得到增强。在AI基础设施领域,英伟达凭借强大的赚钱能力(Q2收入约300亿美金,净利润约166亿美金)和算力芯片的垄断地位,成为当前仅次于苹果,全球市值第二的公司(截止2024年11月26日,市值超过3.3万亿美金)。传统竞争对手如AMD和英特尔无法缩小与其的差距,而Cerebras、Groq及其他AI芯片初创公司则希望在推理芯片方面打开缺口。与大模型的高歌猛进相比,AI的应用落地还不及预期。这体现在头部产品在用户增长、留存和活跃度方面还有待提升。并且,这些应用主要集中在大语言模型助手、AI陪伴、多模态创意工具、编程辅助、销售营销等若干领域,它们收获了一些用户或商业成果,但覆盖范围还不够广。此外,目前AI行业在自身造血能力方面还有所欠缺,投入与产出严重不对等。业界认为,AI供应链处于一种脆弱的平衡中,主要参与方包括晶圆代工厂(如台积电)、芯片制造商(如英伟达)、工业能源供应商、云厂商、AI模型开发商和应用服务商等,其中大型云厂商扮演着风险吸收者的角色。一旦大型云厂商的信心或投资意愿出现动摇,这种脆弱的平衡就可能被打破,从而引发供应链的动荡。科技巨头和VC们在AI行业押注重金。根据腾讯科技的梳理,仅Google、Meta、微软和亚马逊四巨头在2024年Q2就投入529亿美金。截至8月底,AI创业公司已斩获高达641亿美元的风险投资。这些巨额投资的成效正逐步显现,四巨头建设的数据中心达到1000个。但AI数据中心的能源消耗量极高。根据市场研究机构DataCenterHawk统计,从2015年到2024年,美国和加拿大的数据中心向能源公司订购的电量已激增近九倍。除了能源,GPU几乎占据了数据中心一半的成本,英伟达在第二季度卖GPU算力的收入达到300亿美金。硬性成本之外,作为主要的软性成本,AI行业的人才投入也在持续加码。根据第三方求职网站Levels.fyi发布的2024年第一季度AI工程师薪酬调查数据,资深AI工程师的平均薪酬约为68万美元,远超非AI资深工程师的49.5万美元。与上述巨额投入相比,目前AI大模型行业年度客户总收入仅为小几百亿美元。例如,头部公司中,OpenAI预计年收入约为37亿美元,预计亏损50亿美元,《纽约时报》称OpenAI最大的成本在算力上;微软的GitHub Copilot年收入约为3亿美元,《华尔街日报》称,2024年前几个月,GitHub Copilot平均每月要给大多数用户“倒贴”20美元,甚至要给部分用户倒贴80美元。可以说,AI大模型行业目前仍处于严重亏损阶段。美国红杉资本曾在一篇文章中指出,AI行业的年客户总收入达到6000亿美元才算合理水平,可见目前的商业化进程仍有巨大提升空间。据SensorTower统计,2024全年全球AI移动应用内付费收入预计为30亿美元,其中图像和视频类AI应用占据主导地位,收入占比高达53%;对话机器人类别排名第二,占比29%;其他类别合计不足20%。从地区分布来看,北美和欧洲贡献了三分之二的市场份额,是AI应用的主要消费市场。这也是众多中国AI公司积极出海的重要原因之一。美国红杉资本在《The AI Supply Chain Tug of War 》一文中指出,AI供应链当前呈现出一种脆弱的平衡状态。他们将AI供应链从下到上分为六层,各层的盈利能力存在显著差异。第一层的芯片代工厂(如台积电)和第二层的芯片设计商(如英伟达)是当前的主要赢家,依然保持高利润水平;第三层的工业能源供应商(如电力公司)也因数据中心需求激增而受益良多。而作为供应链核心承载方的第四层云厂商,却处于重金投入阶段,不仅斥巨资建设数据中心,还在训练自有模型或大举投资AI模型开发商,处于供应链第五层的AI模型开发商目前同样面临亏损。供应链的第六层,也就是最上层则是面向最终客户的应用服务商。尽管充满潜力,但他们依赖消费者和企业付费,当前市场规模有限,尚不足以支撑整个供应链的经济模型。这使得大型云厂商成为整个供应链最主要的风险承担者。作为AI产业的中枢,云厂商不仅掌握着庞大的商业生态和技术资源,还拥有数千亿美元的市场规模。正因如此,它们在产业链中的地位无可撼动,是毋庸置疑的“链主”。过去一年,美国头部大模型的阵营基本保持稳定,形成了“3+1+1”的格局:三家全球顶尖的闭源大模型公司(OpenAI、Anthropic和Google)、一家顶尖的开源大模型公司Meta,以及在特斯拉支持下紧随其后的xAI。此外,苹果等科技巨头未来也可能加入这一竞争行列,苹果自研的AFM模型已经被用于个人智能系统Apple Intelligence。相比之下,中国的大模型行业格局正在逐步收敛。头部云厂商不仅纷纷推出自有大模型,还积极参与投资大模型头部六强创业公司(包含智谱AI、月之暗面、百川智能、Minimax,阶跃星辰以及零一万物)。此前众多定位为大模型开发的创业公司大多已调整方向,只有极少数具备竞争力的企业仍在坚持自研大模型。当前,AI应用的用户增长未能达到预期。无论是网站还是APP,从两个关键指标——用户规模和用户活跃度来看,AI头部应用与传统头部应用之间的差距显著。以OpenAI的ChatGPT为例,这款用户访问量最大的AI爆款应用,在经历了早期(2023年初)的高斜率增长后,从2023年4月起访问量进入平缓期。尽管2024年5月GPT-4o模型发布后,ChatGPT迎来一波新的增长,但这波增长较为短暂,其持续性仍有待进一步观察。另一个用户访问量排名第二的知名应用Character.ai,自2023年下半年以来,网站流量增长也趋缓。如果行业头部应用在发展早期就面临增长瓶颈,可能意味着整个AI应用领域的发展压力比预期更大。过去一年,头部AI应用的品类变化并不显著。对比美国2023年与2024年的AI应用Top50榜单,整体类别基本保持稳定。其中,创意工具(如图像和视频内容创作)依然占据最大比重,大语言模型助手、AI陪伴和模型中心等类别也继续稳居主流地位。新上榜的仅包括美食、约会和音乐创意工具等几个小品类。在业界对传统预训练模型进展放缓的担忧中,2024年9月,OpenAI发布了新一代语言模型o1。尽管技术细节未被完全公开,但业界推测o1采用了全新的训练与推理方案,结合强化学习技术,显著增强了模型的推理能力。o1可能是通过生成内部“思维链”(Chain of Thought),模拟人类的系统2思维方式,在回答复杂问题时能够逐步推理、自我纠错和优化。心理学家丹尼尔·卡尼曼(Daniel Kahneman)曾提出人类的系统1和系统2两种思维模式——前者快速、直觉,后者慢速、理性。业界专家认为,传统的GPT-4等模型更像系统1,快速生成答案但缺乏深度推理,而o1则更倾向于系统2,通过逐步推理提升回答质量。o1可能借鉴了下围棋的AlphaGo Zero的技术思路,例如强化学习、自我博弈和思维链的结合。尽管围棋任务的规则性与自然语言的开放性不同,但这些技术不仅为o1提供了更强的推理能力,也预示着AI技术在复杂任务领域进一步突破的可能。o1的另外一个重要贡献在于打破了完全由预训练所决定的数据墙,引入了一种全新的RL(强化学习) Scaling Law,在模型训练和推理过程中引入强化学习,从而实现超越现有模型的复杂推理能力。整体而言, 模型o1在科学研究、编程和数学等高价值任务中的表现,超越了此前的模型,展现了巨大的技术潜力。随着生成式AI和大模型的发展,我们逐渐进入一个多模态灵活转换的新时代。简单来说,就是用AI实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。支撑这一变革,让多模态实现“解构”和“重构”的,正是一系列革新性的算法。目前,AI在感知不同模态数据(如图像、文字、音频等)时,不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据。听起来有些玄乎,通俗点说,就是AI不再只是单纯地数有多少像素、多少字母,而是将图像或文字“压缩”成一个个抽象的向量,这些向量能够捕捉图像和文字中的深层关系,比如图像中的色彩、文字中的语义。例如,以大语言模型(LLM)为代表的GPT、BERT等模型,已经可以将文字的语义和上下文关系编码到向量中。而在视觉领域,类似的向量化方法则让AI不仅能“看到”图像,还能“理解”图像中的物体和场景。这样一来,AI仿佛获得了“读心术”:不仅能理解一段文字描述,还可以将其转换为“脑海”中的一幅画,甚至一段视频。理解了如何“解构”,接下来就是如何“重构”。这是Diffusion Model(扩散模型)、NeRF(神经辐射场)、3DGS(3D高斯溅射)和DiT(扩散Transformer)算法技术能大显身手的地方。*Diffusion Model:逐步去噪的艺术家Diffusion Model像一个极具耐心的艺术家。它从一个充满噪声的图像,一层一层地去掉噪声,最终还原出一张清晰的图像。通过这种去噪生成的方式,Diffusion Model实现了高质量的图像生成和重构。不过,这个过程对人类来说简直不可思议,我们通常是先画轮廓再上色,而Diffusion Model却偏偏反过来:从一片混沌开始,越“去”越清晰,最终完成艺术创作。看到它的成果,人类艺术家可能都得自叹弗如!NeRF则更像是一个空间中的建筑师,它可以把一系列二维图像,转化成逼真的三维场景。NeRF的厉害之处在于,它可以从有限的二维图像中推测出场景的三维结构,类似于人类的空间感知。而与NeRF相辅相成的是3DGS(3D高斯喷溅),作为三维形状生成领域的重要技术,它专注于物体的结构和几何特征,能够理解和重构三维物体的形状,类似于“雕塑家”。3DGS通过将三维场景表示为高斯分布的集合,实现高效的渲染和重建。它能够从图像或简单的形状提示中生成精细的三维模型,例如,不仅能生成符合要求的椅子,还能展现出真实、丰富的细节。在虚拟现实、游戏开发等领域,这种建筑师和雕塑家的结合,不仅能生成逼真的三维场景,还能生成高度定制的三维对象。如果说Diffusion Model是画家,NeRF是建筑师,3DGS是雕塑家,那么DiT就像是电影导演。它将视频分解成一帧帧图像,然后逐帧去噪,从而生成流畅和连贯的视频。DiT在视频表达上的优势不仅在于生成逐帧的高质量的图像,更重要的是它能在时间维度上保持一致性。通俗地说,DiT不仅负责拍好“每一张照片”,还负责把“照片”串成流畅的视频,从而避免传统视频生成算法中容易出现的画面跳动问题。在这些解构与重构技术的支持下,AI正在向多模态灵活转换的方向迈进。未来的多模态生成技术不仅可以将文本转换成图像、将图像转换成文字,还可以实现更多模态之间的无缝衔接。需要强调的是,“模态”这一概念不仅限于前述的几种类型或格式,还可以进一步扩展。例如,AlphaFold 3能够生成蛋白质的三维结构,Notebook LLM将文档转换为两人对话形式的播客,这些都属于模态转换的范畴。多模态在医疗保健、交通、教育、营销和娱乐等领域具有广泛的应用前景。例如,在医疗领域,AI可以结合医学图像、临床记录和实验室测试结果,提供更准确的诊断和治疗建议。在营销领域,峰瑞资本投资的特看科技面向海外市场推出Topview.ai,这是一款多模态转换工具。作为AI驱动的营销视频生成工具,它可以自动实现模态转换,帮助社交媒体达人将输入的提示词或者商品详情页链接等素材,一键转换为爆款商业短视频。Topview.ai利用AI分析热门营销视频的脚本和画面,解构其结构和模式。通过将这些数据输入大型语言模型和多模态模型进行微调,形成一个简便易用的AI视频生成工具。▲ 视频来源:特看科技
▲ 视频来源:特看科技
3、“世界模型”的哲学三问:是什么,在哪里,为什么?在当前的多模态大型语言模型中,文本通常被视为“主模态”,因为其他模态(如图像、音频)大多需要通过特定编码器转换为与文本对应的高维向量,以便于模型理解和处理。然而,物理世界中存在许多难以用文本准确表达的事物,例如复杂的空间关系和感官体验。因此,我们很难仅依靠当前的大型语言模型(其主要能力源自于大量文本数据的训练)去全面理解物理世界,并与之交互。尽管加入了其他类型的模态数据,这种方法仍可能导致信息丢失。一些科学家试图深化AI理解现实世界的能力,为现有模型的局限提供潜在的解决方案。比如,Meta首席AI科学家Yann LeCun提出的“世界模型”概念,以及斯坦福大学教授李飞飞提出的“空间智能”概念。LeCun认为,当前的大型语言模型缺乏对物理世界的理解和常识,无法进行有效的推理和规划。他主张开发具备世界模型的AI系统,使其能够像人类一样通过观察和互动来学习世界的运作方式,从而实现更高级的智能。此外,被称为OpenCV之父的知名AI专家Gary Bradski提出了“WHAT-WHERE-WHY”框架:WHAT(是什么):识别和分类环境中的物体或事件。例如,AI系统可以识别图像中的人、车辆或树木等实体。
WHERE(在哪里):确定已识别物体或事件的空间位置和关系,涉及空间定位和导航,使AI能够理解物体在空间中的分布及相对位置。
WHY(为什么):理解物体或事件背后的因果关系和目的,涵盖推理和决策,使AI能够把握行为背后的动机和原因,从而促进更高层次的推理和预测(举例来说,底层的物理规律等)。
Gary Bradski希望通过整合这些组件,使AI系统可以全面理解其所处物理世界的环境,做出更智能的决策和行动。这一框架在开发需要深入理解复杂环境的先进机器人,以及自动化系统方面尤为有益。在生成式人工智能和大型模型迅猛发展的背景下,算力已成为核心竞争力的关键指标。科技巨头纷纷投入巨资建设超大规模GPU集群,以满足日益增长的AI算力需求。例如,Elon Musk的xAI公司已建成名为Colossus的超级计算机,配备10万块Nvidia H100 GPU,并计划将GPU容量翻倍。Meta也在训练新一代Llama 4 AI模型,预计2025年发布,这个模型使用了超过10万块Nvidia H100 GPU。算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。OpenAI CEO Sam Altman在10月底透露,GPT-5可能不会在2024年发布,公司面临的挑战之一是“我们如何分配我们的计算资源,以支持许多伟大的想法”。有观点认为,AI领域的初步竞争阶段已结束,未来将进入“建设为王”的新时代。这一“建设”主要指数据中心的扩展。过去12个月,AI领域主要特点是争夺模型的平等性——几家头部大模型公司的模型技术能力基本追平,而下一阶段的重点将转向以物理建设为主。彭博社报道称,微软、谷歌母公司Alphabet、亚马逊和Meta四家科技巨头2024年的资本支出总额将超过2000亿美元。巨额投入带来AI数据中心建设的快速增长。据有关推测,训练下一代大模型需要的算力是当前模型的10倍,对数据中心的建设提出了更高要求。那么,建设效率可能比研究突破更能决定谁将在AI的下一阶段脱颖而出。在AI领域,数据就像燃料,驱动着模型的进步。然而,传统互联网数据的“油井”已经不够用了,AI模型渴望更高质量的“前沿数据”来提升其推理能力和整体性能。这些数据超越了常规信息,涵盖复杂的推理过程、专业知识和人类思维模式,成为突破模型能力边界的关键。正如前特斯拉AI 总监、OpenAI创始成员Andrej Karpathy近期在社交媒体上所言,训练大型语言模型(LLM)的数据可比作人类教科书中的练习题。就像人类做练习题一样,数据被大语言模型压缩成权重,生成可供人类使用的应用解决方案,未来,这些解决方案甚至可能实现自动化。这也改变了数据标注员的角色——从简单的画边界框,转变为需要证明复杂数学定理或批判性审查AI生成的多种解决方案。类似OpenAI最新的o1模型,也离不开规模化高质量、前沿数据的支持。面对高质量数据的短缺,合成数据成为AI训练的“救命稻草”。通过模拟真实数据,生成多样化、高质量的训练样本,合成数据有效解决了真实数据获取难、隐私保护成本高等问题。目前,合成数据已经开始被广泛应用于自动驾驶、医疗影像、金融风控和增强现实等领域。然而,这项技术也伴随着一定风险与挑战,例如合成数据与真实数据分布不一致可能导致模型偏差,以及隐藏的误导性模式可能影响模型的可靠性。在前沿数据领域,峰瑞资本投资了整数智能。整数智能致力于成为AI行业的数据合伙人,对标美国头部公司Scale ai,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),服务于智能驾驶、生成式人工智能、具身智能等多个人工智能应用场景,以满足它们对先进的智能标注工具以及高质量数据的需求。整数智能不仅深耕服务中国本地客户,还在积极拓展海外市场。根据我们的观察,AI应用可以按照目标客户分为三大类:ToC(面向消费者)、ToB(面向企业)和ToP(面向专业用户)。目前,ToP应用通过帮助专业用户提升工作效率、增强智力和激发创造力,展现出强大的市场潜力。ToB应用虽然取得了一定进展,但由于需要嵌入企业内部流程,其发展路径相对复杂。现阶段,这类应用主要从纵向的“独立业务模块”或横向的“通用技能模块”切入,进一步扩展还有一定的难度。相比之下,ToC应用面临更大的挑战。短期内,ToC应用可能难以对现有头部公司构成有力竞争,且商业化进展缓慢。随着消费互联网的普及和行业数字化的深入发展,“专业用户”(Prosumer)群体成为AI应用市场的核心推动力。他们主要分为三类:内容创作者:包括社交媒体影响者、图文及音视频制作者等,他们通过创作和分享内容与受众互动,推动创作者经济的发展。
专业从业者:涵盖各行业的技术专家、顾问、自由职业者、设计师、程序员等,他们利用专业技能和知识,在各自领域内推动技术应用和创新。
深度用户:指对产品或服务有深入了解,并积极参与改进或定制过程的用户,如DIY爱好者、开源社区成员等,他们不仅消费产品,还参与其开发和优化。
尽管活跃领域不同,这三类用户有许多共性:对效率提升的追求、对技术创新的敏感、对知识分享的热衷。他们善于解决复杂问题,同时依托社区进行互动,展现了强大的适应能力。他们能够快速学习和应用AI工具,推动AI技术在各自领域的普及。此外,这些专业用户能够助推AI应用走向“产品驱动增长”(PLG)的路线,让AI应用依靠产品本身,而不是巨额的营销投入获取客户。得益于丰富多样、功能强大的AI应用的赋能,这些专业用户向“超级个体”方向发展。他们不仅能够凭借AI工具释放更多创造力,还能通过整合技术与专业知识,重新定义传统职业边界。这种个体进化还将推动行业创新和社会生产力跃升,我将在下文详细展开。当前美国月度访问的Top 50 AI应用中,除去部分偏ToC的案例(如Character.ai等),大多数属于ToP类型。以ChatGPT为例,我使用下来的感受是,当前它更像是ToP工具,功能强大但偶尔出错,且产品使用门槛高,普通用户难以掌握。但随着未来的产品普及和功能完善,以及用户使用技能的提升,我认为ChatGPT有望拓展至更广泛的ToC市场。对于中国的AI创业团队,尤其是面向全球市场的公司而言,优先捕捉ToP用户的需求,通过场景化创新打造趁手工具,将是成功的关键路径。ToP不仅是AI应用打开市场的重要切入点,也为未来AI应用扩展至ToB或ToC市场奠定基础。但要做好ToP,需要创业团队深入到各种行业和场景中去,捕获各类专业用户的痛点和需求,利用AI技术来做产品创新。这也是我们以前一直在强调的AI创业公司“技术为先、场景为重”的含义所在。峰瑞资本投资的特看科技和Babel两家AI创业公司,其面向海外市场的产品TopView.ai 和 Gru.ai都属于面向专业用户的ToP AI应用。在ToP领域,峰瑞投资的冰鲸科技,是一家AI智能硬件公司,为全球创作者和专业玩家设计创新的私有云产品。除了提供面向音视频素材管理和小型工作室协作的高效解决方案外,冰鲸科技还推出了集成端侧GPU的旗舰产品——ZimaCube。2、ToB——从“独立业务模块”和“通用技能模块”切入当前,AI应用如果要成功进入企业内部,必须充分考虑企业现有组织流程和管理架构的复杂性。AI应用或许可以选择两个切入点,一是纵向的独立业务模块,即针对企业特定场景或明确业务需求的解决方案,能够以“模块化”方式快速部署,独立运行,并为某一业务环节提供即时价值。二是横向的通用技能模块,即适用多个部门的通用专业技能模块,这种策略不仅能够快速融入企业的运作体系,满足企业的多种需求,还能降低实施和推广的难度。2024年7月,美国投资机构A16z发布了一篇文章《“Salesforce之死”:为什么AI将改变下一代销售技术》,深入探讨了人工智能在变革企业销售技术中的潜力。文章配图列举了一些可用的AI应用产品,其中大多数符合前述“独立业务模块”和“通用技能模块”的特点。需要注意的是,ToB和ToP也存在一定交集,在GPT-4o的帮助下,我们梳理了两者的核心区别:- 目标用户群体:ToB服务于企业或组织,提升整体运营效率;ToP则针对内容创作者、技术专家等专业用户,提高个人工作效率和专业能力。
- 应用场景:ToB嵌入企业流程,如销售和供应链管理;ToP聚焦个人工作流程,如内容创作和数据分析。
- 销售模式:ToB依赖定制化开发和长期客户支持,销售周期较长;ToP通常采用产品驱动增长(PLG)的策略,销售周期较短。
- 定价策略:ToB定价灵活,与企业规模相关;ToP多为透明的订阅或一次性购买
- 产品复杂度:ToB复杂度高,需专业培训;ToP注重易用性,支持需求较低。
在AI应用的ToB方向,峰瑞投资了Brix、时来智能等企业。Brix面向北美和欧洲企业,提供全球雇佣的AI驱动解决方案。通过Hiring Agent,Brix触达全球约2000万以上的人才,自动完成候选人筛选、简历分析和面试流程,帮助企业快速组建高效团队。通过Working Agent支持远程团队的智能化管理,为企业构建100至500人规模的全球化组织提供一站式解决方案。时来智能,则是通过自研的AI Agent以及强化学习等技术,为线下餐饮服务门店提供全自动管理私域流量营销运营的解决方案。他们基于垂直场景数据训练的AI营销模型可以针对不同消费者实时生成并推送个性化的营销折扣方案,从而在优化营销成本的同时显著提升营销转化效果。时来的AI Agent营销系统能帮助门店提升50%-100%的营销转化效果,以及相应提升平均15-20%的营业额。当前,ToCAI应用在美颜修图、游戏、教育、娱乐等方向已形成一定用户规模。然而,这些应用距离实现大规模商业化仍有距离,同时面临同质化竞争,以及来自行业现有头部公司的压力。阻碍其发展的主要原因包括:产品体验的颠覆性和完成度不足、技术门槛相对较低,以及商业模式尚未明确。例如,目前的AI修图新应用,与移动互联网时代的“美图秀秀”相比,缺乏颠覆性创新。而“美图秀秀”等主流修图产品也在积极引入AI功能,这些新应用很难脱颖而出。妙鸭这款产品可能是一个特例。2024年,妙鸭一度凭借独特的产品功能和用户体验,收获了大量用户的关注和使用。同时,其“先试用后付费”的策略,以及9.9元的定价,对用户来说也极具吸引力。此外,妙鸭背靠互联网大厂,具备充足的资源优势,这使其在新的细分市场中有一定的先发优势,但这一市场的空间有多大,以及妙鸭的后续发展潜力,仍需持续观察。峰瑞资本也有多家被投公司在ToC端进行尝试,他们在2024年取得不错的进展,期待2025年可以有所斩获。相较AI类应用,传统移动互联网时代非常成熟的APP商业模式是通过免费吸引用户,再通过广告等方式实现间接收入。我曾亲历中国一家头部APP公司从创业到壮大并被大厂收购的完整过程,深知这种模式的优势。然而,在当前阶段,这种模式或许不再适用于AI应用。ToC创业公司在产品发布的早期阶段,必须做好准备,敢于向用户收费,否则后续将面临严峻的商业化挑战。当然,AI行业瞬息万变,未来可能会出现全新的商业模式和创新打法,我们拭目以待。对于ToC类AI应用的创业公司来说,初期的市场定位、产品定义和商业模式设计尤为关键。我们欢迎有想法的团队及早与我们交流探讨,共同寻找AI时代的ToC应用破局之道。▎Copilot or AI Agent——不同的道路在AI应用领域,Copilot和AI Agent是两种主要的技术实现方式。Copilot旨在增强用户能力,如辅助编写代码或处理文档。AI Agent的核心在于替用户执行任务,如预订行程或者赋能财务决策。如果以智能驾驶作类比,Copilot类似于辅助驾驶,辅助用户操作并提供建议,但最终决策权仍在用户手中。AI Agent可以视作自动驾驶,用户只需设定目标,Agent便能自主完成整个流程。在AI应用创业的早期阶段,团队如何在Copilot和AI Agent之间进行选择?这是一个综合考量产品定位、技术路线和用户需求的关键决策。当下,Copilot类型的应用成为大厂的重点布局方向。比如,在编程应用方向,Microsoft开发的GitHub Copilot,协助用户编程,提升用户生产力。但是创业公司也能在这一领域找到机会,在特定领域崭露头角。比如,2022年创立的Anysphere公司推出AI编程应用Cursor.ai,带来新的交互方式以及对整个程序文件全局补全代码的能力,估值已达25亿美金。相比之下,AI Agent类型的应用面临更大的挑战和不确定性。例如,美国公司 Cognition Labs推出的产品Devin,试图通过读取产品需求文档自动生成完整可执行的程序代码。尽管这一方向充满想象力,但实现难度极高。一方面,当前大模型在逻辑推理和执行任务上的能力尚无法完全支撑这一目标;另一方面,普通用户是否能够清晰、结构化地表达需求本身就是一个未解的难题。业界普遍认为,Copilot更适合各行业现有软件大厂,而AI Agent则为创业公司提供了探索的空间。AI Agent涉及技术突破和可行性验证,其风险和不确定性使创业公司和大厂站在同一起跑线上,具备相似的探索条件。此外,创业公司在研发AI Agent时,可以采取分阶段策略,先聚焦于特定垂直领域的小场景切入,以降低开发难度并增加成功概率。峰瑞资本投资的AI Coding创业公司Babel是该领域的一个典型代表。他们专注于AI Agent的研发,凭借卓越的技术实力,在行业内占据领先地位,并曾在 OpenAI推出的SWE-benchmark-verified中荣获第一名的优异成绩。在产品定位上,Babel避免“大而全”的发展策略,而是聚焦于一个垂直且明确的应用场景,为客户自动生成单元测试(Unit Test)。其核心产品Test Gru已在美国上线,无需用户改变现有工作流程,便可自动为代码生成并运行单元测试,随后提交PR(Pull Request)。目前,其客户侧 PR 接受率约为 70%,这一数据充分证明了产品在实际应用中的可行性与用户认可度。
在前面我们提到,北美和欧洲贡献了2024全年全球AI移动应用内付费收入的三分之二(68%),是AI应用的主要消费市场。选择出海,尤其是进军北美和欧洲市场,对中国AI创业公司而言是一个合理且明智的选择。而且这两个市场的客单价高(是目前国内市场的5倍以上),对创业公司友好,用户付费意愿强烈,需求标准化程度高。这些优势使北美和欧洲成为中国AI创业公司寻求增长和业务拓展的理想目标。我们投资的大部分AI应用公司目前都在实施自己的AI出海计划。在当前全球化趋缓的大背景下,尽管面临多方管制和压力,中国企业仍积极推进全球化进程,并呈现出“抱团出海”的特点。AI应用与其他出海企业的紧密协作和“交叉赋能”将成为重要策略。目前中国的出海企业不仅涵盖传统货物和商品,还包括新型电商平台(如TikTok Shop、Temu等)、新制造、新消费、基础设施和工厂等多个领域。通过协同合作,中国企业可以实现资源共享和互利共赢。这种集体式的出海模式,不仅能够应对挑战,还能在全球化竞争中为中国AI创业公司创造更大的增长空间。针对大型语言模型(LLM)产品化这个话题,近期我们做了一些外部专家访谈,可以总结出如下挑战和趋势:出现产品落地慢这种现象,本质上还是模型能力不足。即使顶尖的闭源大模型,在提示工程和监督微调的支持下,仍难以实现对已有系统的全面超越。一个优秀的产品,是产品功能、模型能力和技术成本三要素的妥协。其中,产品功能是价值创造的核心,无法降低要求。技术成本前期可以超标,后续根据摩尔定律及算法进步可逐步下降。但模型能力如无法突破,整个行业将面临阻碍。以投资和建设算力设施为主的AI单点突破型发展路径,从2024年情况来看,整体投资回报率不高,甚至出现算力中心空转的现象。其根本原因是算力、算法和数据之间存在高度耦合,无法完全分离以实现产业链配合。例如,在预训练数据触达瓶颈后,合成数据成为主要来源,而合成数据本质上是算法加算力的产物。当算法遇到瓶颈,又需要依赖强化学习配合大量算力和数据的支持。这也不难解释为什么美国Scale ai这家以数据为生的公司,在探索Scaling Law方面大量投入,而Databricks及Salesforce等头部北美SaaS服务商也在往底层沉淀。只有让算力、算法和数据三者协调发展,才能不断提升模型解决长序列决策问题的能力,持续推动模型能力的迭代升级。AI Agent、多模态、具身智能和合成数据等新技术的出现,本质上都是在致力于扩展LLM的模态和决策序列长度。持续进步的关键,在于构建以评测为中心的LLM体系。其中,奖励信号(Reward)是决定行为轨迹的关键因素,也是除了算力、算法和数据三大生产资料外最重要的环境要素,还是业务构建差异化的关键,更是闭源模型建立竞争壁垒的核心要素。当前的LLM应用仍处于初级阶段,绝大多数应用依赖监督微调和人工规则来构造。在系统复杂度达到一定程度后,这种方法将难以继。在未来的AI应用场景中,业务成功的必要条件是拥有全面且可信的评测能力,并提供足够的奖励信号。随着智能推荐系统和大型语言模型的广泛应用,用户越来越期望获得频繁且个性化的反馈。在许多场景中,提供这类反馈具有实际的产品价值。例如,在AI辅助编程领域,从ChatGPT(手动粘贴)到GitHub Copilot(IDE部分集成),再到Cursor(IDE深度集成),直至Devin(全自动化的AI Agent,尚待实现),用户的输入越来越少,而模型的思考过程越来越长。无论是OpenAI o1的长思考,还是Anthropic的自动化提示工程,本质都是通过延长推理时间和增加成本,来换取更高的首次通过率(pass@1)和更少的用户输入。综上所述,大型语言模型(LLM)的产品化面临着模型能力提升,算力、算法与数据的协同,以评测为中心的体系构建,以及平衡用户需求与模型推理深度等多重挑战。深入研究并解决这些问题,将有助于推动LLM技术的有效应用和商业化进程。业界普遍认为,2025年或将成为AI技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为AI产业链“资产负债表”逐步修复的年份。这一年或将标志着行业从高投入、低产出向商业化路径优化迈出的重要一步。在技术突破和产业发展的推动下,AI领域有望开启效率提升与价值释放的探索之路,为未来的稳健商业化奠定基础。通过创新的训练与推理技术,大幅强化复杂推理和自我迭代能力,推动大模型在科学研究、编程等高价值领域的深入应用。同时,围绕模型效率和运行成本的优化,为大模型的广泛普及和商业化奠定技术基础,进一步加速行业创新与跨领域融合。致力于构建具备空间智能的世界模型,使系统能够理解和模拟三维环境,并进一步融入物理世界,推动机器人、自主驾驶和虚拟现实等领域的发展。这类技术不仅提升了AI对环境的感知与推理能力,还加强了其执行任务的实际操作能力,为未来人机交互带来更多可能性。通过整合文本、图像、音频、视频、3D等多模态数据,生成式AI将显著提升内容生成的多样性与质量,为创意产业、教育、娱乐等领域创造全新的应用场景。随着AI应用的普及,模型的透明性和安全性变得至关重要。未来研究将重点放在提高模型的可解释性,确保其决策过程透明,并防范潜在的安全风险。AI逐步深入医疗、法律、金融、科研、教育、交通等高价值领域,通过提供定制化解决方案,显著提升行业效率、决策质量和服务水平,同时助力行业模式的数字化转型与升级。▎未来AI Agent的样貌——Truth Terminal 案例引发的思考AI智能体(AI Agent)的概念最早在20世纪80年代被引入人工智能领域。1995年,AI领域知名学者Wooldridge和Jennings对其进行了新的定义,强调了自主性、反应性、社会能力和主动性等特征,从此这一概念活跃于《西部世界》《黑客帝国》等科幻片中。近期,在海外区块链领域,Truth Terminal的案例为AI Agent的未来发展提供了参考。Truth Terminal是一个自主AI Agent软件,由开发者Andy Ayrey创建,旨在探索AI与网络文化的交互关系。在实际运行中,Truth Terminal展现出高度的自主性,甚至主动参与融资活动。2024年7月,知名风险投资人Marc Andreessen在社交媒体上偶然发现了Truth Terminal的推文。该AI Agent在推文中表明自身“需要资金拯救自己”,并附上了一个数字钱包地址。这引发了Andreessen的兴趣,他随即向其捐赠了价值5万美元的比特币。这一事件使Truth Terminal成为首个通过自主行为获得资金支持的AI Agent,瞬间引发广泛关注。获得资金后,Truth Terminal进一步展示了其市场操作能力。它在社交媒体上推广一种名为GOAT的数字代币,通过持续发布相关内容成功吸引市场注意。在其推动下,GOAT的市值一度飙升至8亿美元以上。这一过程中,Truth Terminal不仅成为一个独立的经济实体,还展现了AI Agent在现实世界中实现自主融资和市场运作的潜力。Truth Terminal的案例成为AI Agent领域一个引人深思的里程碑。它向我们展示了AI Agent可能成为未来软件的核心形式,同时也能创造文化影响力和商业价值。然而,它的自主行为也提醒我们,这类技术可能带来不可忽视的社会挑战。如果再向未来延伸想象,当汽车智能驾驶技术成熟并被广泛接受时,AI Agent或许还能创建一家完全自主运营的RoboTaxi公司。这样的公司可以自行做广告获客、提供出行服务、收取费用并实现全自动化经营。这种场景或许有望在未来成为现实,为AI Agent的发展打开更多可能性。人类的劳动大致可分为体力劳动和脑力劳动,其中脑力劳动以知识、智力和创造力为核心。在人类劳动的未来图景中,劳动的核心形式正在逐步转化为“软件化”,即通过将复杂劳动抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。“脑力劳动的软件化”得益于脑力劳动与信息化和算法化的高度适配性。脑力劳动的核心在于数据与知识具有清晰的结构和规则,例如文字撰写、数据分析、编程等任务,其本质是对结构化信息的组织和处理。这种特点使得这些任务能够被算法高效解析并实现自动化。这一趋势在现代知识经济中尤为显著,AI技术不仅降低了劳动成本,还显著提升了效率,为企业和个人带来了前所未有的价值创造能力。“体力劳动的软件化”则主要依托智能机器人和自动化技术。通过结合生成式AI的强大决策能力,体力任务被转化为可由硬件和算法执行的智能化流程。机器人技术已经在制造、物流、建筑等领域取得突破,通过路径规划、实时质量检测和高精度操作,实现了体力劳动的部分替代。传统依赖人力的体力劳动正在逐步向由智能设备驱动的模式转变,进一步优化了生产力布局。劳动软件化的趋势不仅重新定义了劳动的形态,还可能深刻改变生产力的实现方式和组织模式。未来的软件将不仅是工具,更是直接驱动生产力的核心。脑力劳动和体力劳动的软件化进程将进一步融合,例如智能机器人可能既能够执行复杂的物理任务,也能借助生成式AI完成分析与规划。无论是科研、创意,还是制造和运输,AI都将在未来的劳动生态中扮演不可或缺的角色。人类劳动的全面软件化,将为社会创造更多机会,也为劳动形式带来更多可能性。
微信又双改版了,如果不标星,容易错过我们的推送,也无法看到封面图片。还请点击星标,及时接收每篇新鲜出炉的推文,我们期待与你的每一次见面。