2022年诞生的
ChatGPT,已经在相当程度上实现了大模型的Scaling law
(尺度定律)
和通用能力涌现。
ChatGPT自身作为一个终端产品的商业化也持续有不错进展。据2024年7月的非公开数据,OpenAI的ARR
(年经常性收入)
已经达到了相当可观的41亿美元。
但这些收入都是在极度高昂的算力、研发和运营成本基础上实现的,而且
细看最近OpenAI的发展,也很难称得上“顺利”。
今年以来,包括联创约翰·舒尔曼和伊利亚·苏茨克沃在内的多位核心高管已离开,9月下旬更是接连发生了首席技术官
(CTO)
米拉·穆拉蒂离职与苹果退出参与其最新一轮融资谈判的两大事件。
在华映资本看来,
只有当GPT真正赋能所有上层垂直行业应用场景,即实现所谓大规模落地实践,以平台形式实现商业化,OpenAI开创的LLM浪潮才算彻底到来。
但当前,无论是在to C还是to B侧,GPT都更像是一个超级APP,而非一个类似IOS的底层平台。GPT插件和GPTs已经证明了底座LLM不能简单复制IOS的App Store。
虽然OpenAI刚发布的o1模型用self-play RL的方法将scaling law推到了一个新的层次,实现了更强的推理逻辑能力,但上述“平台化瓶颈”并未得到根本改变。
各垂直场景目前都尚未看到真正全面爆发的趋势。
无论是在创业还是投资层面,大模型行业泡沫都已显现。
这背后,
限制GPT进行平台型商业化的根源究竟是什么?
以下
我们将结合近期在硅谷深入走访当地多位大模型从业者后总结的大量心得,继续对大模型创业、投资的困局以及潜在破局方案进行更详细拆解。
*笔者为华映资本海外合伙人、北大计算机学士及美国南加大多智能体(Agent)方向博士,Robocup冠军队成员、腾讯云计算早期T4专家级架构师。本文既非学术论文、也非商业行研报告,而是
以一个AI学界出身、亲历硅谷多周期的投资人视角分析现况和预测趋势。
观点可能存在很多反共识之处,未必正确,但希望这些视角能对您有所启发。
同时,硅星人
驻硅谷资深记者
J
essica对本文内容亦有贡献。
目前AI领域投资人以及创业者
(尤其在国内)
主要分成下面两个"流派":
持这个观点的投资人,其投资标的是
依靠对底座模型的调用实现垂直行业大模型商业化的公司,
创始人通常是场景侧或产品背景,对于底座模型的深入理解并非必要。
在做该种投资选择时,需要应对以下问题的挑战:
1. 预测LLM能推动应用场景爆发的底层driver究竟是什么;
2. 这个driver是否能持续、未来发展走向是什么;
3. 应用的全面爆发需要经历哪些milestones。
如果投资人对以上问题没有完全自洽的解答,盲目乐观押注应用场景的爆发,将催生投资和创业的泡沫。
持这个观点的VC或创业者
更聚焦底座大模型,即底层平台,认为未来一切都由AI平台驱动,
所以不太纠结上层应用。这些大模型平台公司
目前普遍遇到下面几个瓶颈:
1. 上层杀手级应用迟迟未出现,很多时候需要底座公司亲自下场去场景侧做定制化交付和实施;应用少也造成数据闭环无法形成;
2. 上层应用门槛薄,上下两层之间的边界不清晰,底座的版本更新会“不小心”碾压上层应用,如GPT-3.5更新至GPT-4后对Jasper的碾压;
3. 训练数据开始"枯竭", Scaling law面临停滞;
4. 大模型平台公司对算力越来越依赖,成为"金钱的游戏"。
前两条其实也恰是应用场景派遇到的根本问题,
当下在上层应用迟未爆发、甚至业界无法预测爆发时间点及爆发所需经历milestones的背景下,上述两类投资方法论暂时未能奏效。
事实上这两种"流派"的区分,恰恰是受
互联网时代的公司可以清晰切分为"互联网应用"和"互联网平台"上下两层
的思维惯性所影响,但
大模型在当前并没有到达互联网时代这个"分层解耦"的阶段,
所以这
两个流派的划分本身就值得商榷。
要破解上文提到的诸多疑问,我们必须先从理解大模型乃至整个人工智能浪潮的本质开始。广义的人工智能在1956年的达特茅斯会议即宣告诞生,
但AI真正的产业化直到2012年左右AlexNet的出现才实现。
AI产业化主要经历了下面两个阶段:
1. AI 1.0 深度学习
(2012年AlexNet引发)
:
深度学习算法将海量数据进行训练后输出模型,来替代计算机科学几十年来积累的算法和规则,从而第一次实现产业化。
深度学习的大规模应用是“产业化AI”的本质,
也是“数据定义生产力”的开始。
2. AI 2.0 大语言模型
(2022年GPT3.5引发)
:
深度学习网络结合多头自注意力
(Transformer)
,并运用decoder only和自回归机制,更大数据集带来更大参数量模型的通用能力涌现,实现了Scaling Law。
这两个AI产业化阶段的最根本点是:
第一次制造了对于数据和算力的充分应用和依赖。
针对这一点,我们快速对比一下互联网和AI这两次大的浪潮:
以上这些是LLM之所以能推动应用场景爆发的底层driver,但同时也制造了极大的门槛和困局。
我们
先聚焦在数据这个维度,
一个可以达成的共识是:
自称“AI驱动”的企业都必须拥有足够的私有数据,才有足够的护城河。
只依靠调用底座模型而不掌握也不积累私有数据的“AI公司”,即便直接调用API的短期效果很好,也并不具备长期价值。GPTs和类Jasper公司的快速衰败已证实了这点。
那些声称拥有数据的AI公司,也经常被数据的双刃剑困扰,即数据作为优势的同时也会制造瓶颈。
针对这些公司我们须先问下面的问题:
1. 当前掌握的私有数据从何而来,数据量多大,是否有足够的“私有门槛”;
3. 清洗后的数据如何训练进入到垂直模型,从而推动底座模型在垂直领域进一步提高能力,推进Scaling law。
不能完整回答以上问题的“AI公司”,都面临长期价值主张是否成立的风险。
但即便能满足这些条件的垂直领域公司,又会面对以下挑战:
1.
用户的私有数据和底座模型的预训练数据在最终效果呈现的归因上无法轻易解耦,
应用层和平台层双方核心价值的边界不清晰。这个“紧耦合”同时也体现到了出现差错之后责任的切分上;
2.用户的私有数据在推动底座模型在垂直领域继续出现能力涌现的
持续成本过于高昂。
最直接的成本来自于数据清洗成本和算力搭建、运营成本。
我们先来看
LLM的四类典型应用场景的用户,
以及他们如何利用私有数据:
1. C端终端用户:
直接和GPT聊天,或者运用简单提示词工程,这里可以看作也在通过提示词使用自身一些简单的用户私有数据;
2. B端终端客户:
直接调用LLM的API接口来运用提示词工程;或将私有数据向量化后存入向量DB,再做RAG;或通过微调生成一些特定下游任务模型。 很多这类客户反馈有不错的效果。
3. B端服务实施公司:
帮助上述B端客户当中不具备这些能力的公司来交付和部署这些流程,尤其是RAG和微调。
4. 纯商业化产品公司:
利用自身前期积累的垂直领域私有数据、在底座模型上生成垂直模型后,以标准化产品的形式服务自己的C端或者B端客户,获得商业化回报。
前面三类LLM的应用场景事实上都实现了不错的效果和商业化,也是OpenAI及类似底座模型企业商业化的主体。
但这些并不能支撑LLM需要完成的平台性的商业化生态。
只有当第4类公司大规模出现之后,LLM的平台性质的商业化才能真正爆发。
严格来说,第4类公司里面有一部分是现有的成熟阶段公司, 如Adobe、Salesforce、Netflix等,他们借助LLM的能力提升了原来的产品,从而更好的服务了自己的客户。对比互联网时代,它们更类似之前的线下零售公司如苏宁、借助互联网建立了苏宁网购。但我们更倾向把他们归到第2类公司。
我们真正期待的是:与当年互联网时代的Amazon和淘宝这类新型纯互联网零售企业对应的AI时代的“原生应用”企业开始涌现。
这样才能推动AI应用的大潮。可惜的是,
目前从这类AI原生应用公司的终端客户的使用度上判断,并没有看到规模化的迹象,
因而业界不断有“大模型是否到了瓶颈或者泡沫化”的讨论。
聚焦上面列举的所有B端公司,尤其是众多垂直行业的企业,如金融、医疗、法律、教育、媒体、旅游,制造业等。无疑这些垂直领域的众多企业已经拥有大量历史积累的私有数据,即企业自有数据或专业的行业数据。
而这些私有数据是否有效获得充分利用,将极为关键。
鉴于上文阐述的AI产业化的实质,
数据运用已经成为大模型时代scaling law延续的基石,
这点与AI之前的时代形成了鲜明分界。因此
我们对于私有数据是否得到充分利用的定义是数据能否帮助推动scaling law,即能否持续促进最终大模型的能力涌现。
这里依次探讨一下当前几种私有数据主流运用方法的实质和现况:
这些数据运用方法在C端以及小B应用里面占很大比例,
实质上都可以归结为简单或高级的API调用。
推动底座参数能力scaling law的力度有限。
是目前利用大部分企业私有数据事实上的最普遍实践。其实质是检索加上极其复杂的上下文学习。有时会结合Langchain等编排以及Agent智能体的方法,如微软的GraphRAG等。
RAG要真正运用好的技术门槛其实比大部分纯应用公司能承受的水平要高,
很多会涉及底座模型的细节,所以现在经常依靠第三方服务公司去完成。
同时业界关于RAG是否能最终推动scaling law也有很多争论,
笔者倾向于借用很多之前文献里关于“学生参加开卷考试”的比喻:
一位本科学生参加法学考试, 但他从未学习过法学院的课本,考试时在他面前放了一堆可随时查阅的法律书籍,同时教会他一套极其复杂的查阅
(检索)
的方法,学生不需要都记住这些书里信息,只需遇到法律问题时随时查阅就能给出不错的答案。
但这整个过程是否真正让他拥有了法学院学生的能力并持续提升、即推进了scaling law,值得探讨。
企业客户基于底座模型做微调的效果在业界并没有共识,很多从业者反馈效果不错,也有不少反馈风险大且效果未必好,
目前观察到的事实是微调在企业场景应用实践少于RAG,并且技术门槛相比RAG更高,
尤其在RM
(奖励模型)
和 PPO
(近端策略优化)
方面,甚至几乎需要有很强底座模型经验的团队参与。
回顾历史, Google早期的BERT架构就定义了“通用任务预训练+下游任务微调”的流程,效果很好;
进入GPT时代后,该架构得到延续,但因底座模型加大,微调成本升高,破坏底座能力
(遗忘)
的风险增加,
所以OpenAI主要用它结合垂直领域的人类监督数据来做对齐微调:SFT, RLHF
(包括RM、PPO)
等,来消除有害、误导或偏见性表述,对齐本领域的价值观和偏好。延用上文关于学生的比喻,这类对齐式的微调有点类似于想让本科毕业生尽快进入律所工作,但并非用法学院深造来增加他们的法律专业知识,而只是通过密集的上岗培训来让他们具备法务的话术和基本素质。
至于其他更多各类的微调方法,实际运用案例似乎并不多,技术实现也常陷入矛盾:
一方面想改动一些底座的网络参数,一方面又不敢动太多参数而损失底座的通用能力,这个尺度如果不是底座模型团队自己,其他人可能都很难掌握。全量参数“微调”已经接近下文提及的重新训练,风险和成本都增加;而无论是冻结还是低秩适应
(LoRA)
的方法,目前也都无法完全避免风险。事实上即便只做对齐微调,能做到最安全且最优效果的可能也还是对底座模型实现非常熟悉的团队。
大范畴上可归类于后训练的高级手段,
其中包含Langchain等编排同时结合反思、规划、记忆、工具使用、协同等产生LLM多次调用的方法,以及包括进阶RAG里面运用的诸多手段。
Agent无疑是未来趋势,但运用尚在早期,有待进一步深化探索。
目前无论理论还是实践上,都还暂难证明是否分解多步骤后对LLM的系统性反复调用
(multi shot)
就能让底座LLM延续scaling law,尤其是如何让私有数据更好地贡献于这个延续,尚不清晰。
企业直接用自己的私有数据结合底座模型来重新训练自己的垂直模型,这在目前看显然最不实际,因此在普通企业用户里面运用的案例无疑最少,
除了算力和成本因素外,还有以下原因:
·
重新训练的私有数据和通用数据集的量与质量的配比很难掌握,
这是底座大模型厂商的最核心秘密和护城河。配比不正确,训练后模型的通用能力会大幅下降
(灾难性遗忘)
。对于继续训练,也需要去猜测底座模型用的通用数据集以及他们预训练到达的checkpoint等。Bloomberg运用自身大规模私有金融数据重新预训练出来了垂直金融大模型BloombergGPT,但效果不佳,使用度很低,大概率是这个原因;
·
没有企业客户愿意直接把自己的私有数据直接拱手献给底座大模型公司去合作预训练。
甚至很多本身拥有底座模型的巨头的内部应用产品部门也不愿意内部贡献这些数据。
尽管业界有观点认为企业用私有数据重新训练相对RAG和微调优势并不大,但应该无人完全否定这个优势。
尤其当企业和底座模型侧能充分合作、即数据、训练算法乃至团队充分互通的时候,优势还是具备的。
然而
如何能规模性地达成这种理想化合作而消除上述的割裂,正是GPT类底座公司真正商业化的难题:
·
垂直行业企业:拥有大量垂类数据,但对底座模型的训练算法、数据集乃至预训练到达的checkpoint都不了解;
·
底座模型公司:难以触达和获取所有企业客户的垂类数据。
因此拥有数据的场景方和拥有训练算法的底座方在实践中产生了割裂,大模型技术栈的上下两层不仅没有相互促进而产生飞轮效应,反而互为制约。
企业私有数据无法完全参与底座大模型的继续训练,是造成“数据不足”困境的重要原因。
一方面抱怨预训练数据“枯竭”,一方面又不能充分利用垂直行业的私有数据,是当下类GPT架构的一大遗憾。尽管业界也有大量对合成数据或仿真数据的探索,但其成本控制和输出质量都仍处于早期。过度注重成本高且质量参差的合成数据而放弃已有的大规模垂直行业数据的做法也值得深思。
综上所述,GPT定义的主流“底座预训练 + 私有数据RAG或微调”的架构暂时无法推动更大涌现。
垂直应用场景企业的私有数据尚未能充分贡献于scaling law进程,这是大模型目前未触发大规模落地应用的核心根源之一。
为打破英伟达显卡带来的高额算力成本投入的僵局,很多下游行业玩家推出“垂直行业小模型”或者“端侧小模型”,但可惜在技术路线上很难真正有捷径可走。这些小模型,除了通过RAG或者微调生成的模型、也包括大模型蒸馏后的小模型,即用大模型生产数据去训练出的模型, 以及对大模型裁剪、压缩、剪枝后的模型。
他们都有一个共同点:起点和核心价值仍在大模型上。
除了上述这些之外,
产业实践中也还存在以下类型的小模型:
·
基于非GPT、或非Transformer架构的模型网络,如BERT、CNN、RNN、Diffusion以及RL等;
·
其他更传统的非深度学习、甚至基于规则的“模型”。
这些小模型可看作是针对大量细节长尾下游场景的特殊处理,
更多仍需要对位于中心的大模型去辅助展开,超额价值目前有限,其真正价值仍聚集于大模型。
这里借用张宏江博士在腾讯深网的访谈里对于“小模型”的论述:
应该先“把大模型的性能做好,才能真正出现涌现”,再“通过蒸馏的方法和持续学习的方法把它做小,而不是一开始就做个小模型”。
为进一步思考上文提及的技术栈无法解耦和分工的根本现象,我们再回顾一下互联网的历史。我们比较习惯提的互联网,事实上是从1994年浏览器的出现开始的“Web互联网”,而广义的互联网早在1970到80年代就已经出现,最早的形态是FTP、Rlogin、Telnet以及Email电邮等“垂直整合应用”的产品形态。
直到Web和浏览器作为平台
(下图中的绿色框)
出现之后,大量类似Yahoo等基于网页形式的纯应用才真正与底层解耦,从而相继在各个垂直行业爆发,
如零售行业的Amazon、旅游行业的Expedia、媒体行业的Netflix等等。
到了大模型时代,我们最先看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合应用”的产品形态,
但由于前文提到的私有数据运用的困局,底层平台和上层应用充分解耦的阶段其实尚未降临。LLM大模型时代的平台
(下图中的浅绿色框)
尚未出现。
我们这里所说的平台更准确地应称为“操作系统
(OS)
”。
OS的核心功能就是隔离上层应用和下层技术细节,让应用公司可以聚焦产品和运营、从而规模化实现落地和商业化。OS的具体例子就是互联网时代的浏览器、PC时代的Windows、以及移动时代的IOS和安卓。
OS与思科这样的基础设施
(Infra)
的核心区别是:
Infra的实质是工具,它无法将应用层与底层有效切分出来;Infra的调用者往往还是需要对下层技术有深刻的理解,才能将工具运用的好;所以Infra自身无法催生大规模应用生态。
OpenAI与它的同行们误认为自己创造了类似苹果这样的的平台即OS,但事实上只是创造了类似思科的Infra。
相比互联网和移动互联网的进程,可以说
大模型还处在“前浏览器或前IOS时代”。
我们认为
大模型时代和互联网时代类似,也会经历以下三个发展阶段
(尽管每个阶段的历时可能与互联网不尽相同)
:
·
阶段三:上层商业化应用和底层平台充分解耦,落地应用爆发,底座模型规模性变现。
当前我们处在的是“阶段一”已经完成、“阶段二”刚刚开始的过渡时期。
综合以上结论:大模型当下的技术生态架构尚未到达互联网成熟时期的清晰分层阶段,互联网当年的“应用场景驱动”的投资逻辑暂时难以套用。在此背景下,
我们将建议“第三种流派”的投资逻辑,即聚焦既非纯应用场景、也非纯底座模型的公司,而是“垂直整合应用”公司。
这类第三种公司的完整定义是:
具备底座大模型算法能力、但放弃做通用底层平台的端到端的垂直整合应用。
这类应用公司在大模型时代的创业壁垒会远高于互联网时代,
可能很难保持在纯应用的形态:
1. 须将拥有私有数据作为先决条件,并有能力后期持续积累数据。
互联网时代应用公司强调的“飞轮”效应,在大模型时代必须包含私有数据的参与,这成为飞轮形成前“冷启动”的最大门槛;
2. 须技术栈下沉,不断拓展底座模型算法能力,
持续将私有数据训练进应用侧模型,在垂直领域推动scaling law。
正因为此,对于“应用场景驱动”的投资机构而言,判断应用公司投资价值的门槛也大大提高,
即不仅要判断创始人的垂直领域经验和产品能力,还要深入考察他们获取、清洗数据的能力,以及将这些数据训练到垂直行业模型的底座技术的水平。
对于类OpenAI的底座模型公司、包括开源和闭源的公司,如Anthropic、Llama、Mistral、智谱、Kimi等,
我们预测它们还会继续迭代模型从而延续scallinglaw,比如OpenAI最新的o1模型等。
但这些迭代仍只会延续超级App的产品形态而无法短期成为底层平台。
对于这类公司,尽管短期探索平台型商业化面临难度,但若放弃作为通用平台的诉求,
锁定一个垂直领域专心搜集垂类数据、从而训练出真正的垂直整合大模型的空间会更大。
这对于OpenAI也许无法支撑目前估值,但对于其他估值略低的底座大模型玩家应该是可行出路。我们看到已经有不少这类公司在做类似的聚焦转型,
但如果不能真正放弃想成为底层平台去赋能应用的述求,仍将陷入上述的数据困局。
这个第三种路径对于完全初创的企业显然是非常高成本高风险的,很难一蹴而就,因而
可以考虑采用下面的三个循序渐进的步骤:
·
步骤一:利用私有数据基于底座模型API加RAG搭建初始原型
(同时全力融资和囤GPU)
;
·
步骤二:基于底座模型结合微调和Agent等方法提高模型能力
(同时全力融资和囤GPU)
;
·
步骤三:利用更多私有数据开始做继续训练或者重新预训练
(继续全力融资和囤GPU)
。
在硅谷,“垂直整合应用”公司占到了VC投资的很大比例,
如Cohere
(企业大模型)
、Harvey
(AI法律大模型)
、Perplexity
(AI搜索)
、EurekaLabs
(AI教育)
、Augment
(AI编程)
、HolisticAI
(AI企业管治SaaS)
,等都近期获得不错融资。这些公司的创始人都是来自如Transformer作者、OpenAI、Deepmind、Meta等头部底座模型背景、并深耕各自不同垂直场景。
红杉在2023年9月题为“Generative AI's Act Two”的博客里面也提到“Vertical separation hasn't happened yet”的说法,时间过去一年,我们认为这个“separation”依然没有发生,并因为上面提到的数据强耦合等原因,红杉博客原文说的“vertically integrated”还会是个常态。
在中国国内,这个类型的公司还比较少,核心原因在于具备底层模型能力的团队极其稀缺,但具备这些能力的团队又都执着于做底层平台的述求。
随着几家头部模型公司