自从ChatGPT引起的大模型进化至今,没有人怀疑LLM和其应用范式将会对人类产生极其重大的影响。
无论是大模型本身的chatbot,multi-agent,多模态对话,还是大火的人形机器人,都在行业巨头和资本的助推下,开始攻城略地。
2023开启的foundation model 投资,让国内的基础模型和清华系都得到了大量的资源倾斜。
2024年,大家又把名义重心放到了应用层上。但快两年过去,
恶劣的外部环境,不清晰的商业化路径,判断力和现金源的缺失
,资本的观望情绪已经使得国内的大模型应用投资乏善可陈
大量的套壳应用也是这个资金不足的现状的深刻反映。所以陷入了下面的死循环:
-
因为大模型的缺陷和问题,不能用在高价值场景,只能用来trash talk,做套壳
-
没有底层技术创新的套壳,无法收钱,导致没有产品壁垒,只能靠负担token成本,把foundation model的能力对用户进行让利。
-
低价值场景泛滥应用和过多的让利,又导致用户心智觉得这就是该是免费的,并且可有可无
-
收不上钱导致需要降低运营成本,于是做大量的模型压缩导致模型降智,用户发现模型变差,结果无用,于是离开。
-
做最简单的事,挣最快的钱,只能内卷,导致整个生态/模式恶性循环。
2024年秋这个时间点,当大环境的冷,碰到了小环境的恶性循环。大家又开始审视,问题在哪里呢?
点击关注,每天更新深度 AI 行业洞察
01
跟上游卖铲子的NVIDIA算算账
对于英伟达的过度依赖体现在了各个领域,CUDA十年如一日的迭代,预先定义了无数的标准,最佳实践,算子库,造就的护城河,已经不是一个单一的单位再造一套轮子就能解决的了。软件领域的正反馈增长,锁定效应,不是某个国家战略或企业能够改变的。实体的意志力能够推动和造势,却完不成逆势。
可以说风头正盛的nvidia正成为这个地球上最有价值的企业之一。但上游垄断对于整个市场来说一般不是什么好事情。就像日本对氢能源上游专利的垄断,使得后续产业入局的玩家讳莫如。而锂矿资源的分配均衡,也让EV市场发展了起来,反过来最近两三年中国对动力电池的话语权过重,又使得美欧开始对EV市场产生退缩。
我们可以用一个朴素的概念形容这个过程
单次推理用户价值:即平均来计算,你的一次推理能给客户带来多少价值
单次推理成本:即平均一次你生成的token count 计算下来的单价是多少
如果在单次推理成本上nvidia收走了绝大部分,电费又是一个部分,那留给其他部分的商业价值空间将会无比的小。
因为很朴素的道理,大模型应用的价值或者说利润来自于【单次推理用户价值】减去【单次推理成本】
基于这个极简的分析框架可以看到,nvidia的过于强大和垄断基本上没给下游留下什么商业空间了。
对整个生态来说这个
高昂的成本支出项成为了整体大模型走向规模化应用的巨大限制。也是上游AI半导体设计制造厂商得到更大资源倾注的原因。
02
场景和需求不匹配
刚才我们提到了【单次推理用户价值】
这个字面意思很好理解的所以以不同的场景来看这个值,虽然很难绝对量化,但是可以以现有的经济结构和人类的需求层级在场景上做一个对比。
从马斯洛需求层级理论来看,大模型在各个层次上的应用都面临不同程度的问题:
基本需求(生理与安全)
-
普遍性:每个人都需要满足基本的生理和安全需求,如食物、水、住所、安全等。这些是人类生存的基础,因此应用场景广泛。
-
市场规模大:由于这些需求是每个人都必须满足的,相关产品和服务通常具有巨大的市场潜力。
-
技术门槛相对低:在很多情况下,满足这些基本需求不需要非常复杂或前沿的技术。
自我实现需求
-
个性化:自我实现涉及到个人成长、创意表达、自我认知等高度个性化的内容,每个人的具体表现形式不同。
-
市场规模有限:虽然这些应用可能在特定小众市场中有较高价值,但整体市场规模相对较小,不足以支撑高昂的开发和运营成本。
-
技术门槛高:满足自我实现类需求通常需要最前沿的大模型技术,如高级AI创作工具、个性化教育平台等,这增加了研发成本。
在各个层次上的应用都面临着“单次推理用户价值”与“单次推理成本”之间的不平衡。
-
越接近基本的需求,所能覆盖的场景也就越广市场规模越大,越顺人性。
-
但我们忽略了一个重要的问题,在无法边际效应递减的情况下,有一个最重要的指标,客单价。
指标
|
基本需求(生理与安全)
|
高层次需求(尊重与自我实现)
|
市场规模
|
非常大 (10万亿+ RMB)
|
较大 (2.8万亿+ RMB)
|
单次服务价值
|
较低 (100-500 RMB)
|
较高 (500-5000 RMB)
|
技术门槛
|
中等到高
|
高到非常高
|
市场竞争
|
激烈且分散
|
相对集中但技术壁垒高
|
客单价
|
低至中等 (100-500 RMB/次)
|
高至非常高 (500-5000 RMB/次)
|
我们量化的来看,低层次的需求,根本支撑不了现在的大模型商用,
而大模型的商用也根本不应该从低层次的需求开始
。甚至不应该从中层次的需求开始。
站在这个角度看CharacterAI类应用他只是满足了中层偏下层需求,他们都不会是先发展起来的应用。
他们在这个时间点,根本就是和时间站在了对立面。
03
成为时间的朋友,
PMF的教训
任何一项革命性的技术/产品理念在一开始都会显得高不成低不就,我们每个人的手上就有最好的例子
当移动互联网浪潮兴起之前,其实iPhone 类似的设备也已经层出不穷。诸如Palm,WindowsMobie PDA,塞班系统产品,甚至苹果自己就推出过类似的设备,也就是鲜为人知的Newton项目。
这些设备在当年受制于羸弱的Arm芯片,电阻触摸屏,以及内存/半导体元器件的尺寸的整体落后,体验十分的糟糕。相比成熟,耐用的诺基亚,摩托罗拉,产品显得毫无竞争力。
但时间到了2006年,一个技术的成熟和低成本化量产改变了一切,那就是看起来并不起眼的—
电容式触摸屏技术
。
相比电阻屏的低硬度,容易划伤,只能单点,响应速度低。电容触摸屏搭配康宁玻璃可以把表面硬度做到9H,并且可以实现多点,高刷新率的触控操作。这给了OS操控层面的人机交互设计带来了完全不同的设计革命。
小屏幕上的点击、拖动、轻弹、放大/缩小、滑动等操作,为操作系统用户界面带来了完全不一样的设计逻辑。
借助这套革命性的逻辑和框架,以及性能足够的ARM芯片,合理的元器件成本和集成尺寸,第一代IPhone诞生了。
我们分析这个过程不难发现这一系列元素中,ARM芯片/电容触屏方案/半导体元件的集成度在2004年附近,共同让
乔布斯有了发挥空间来实现iPhone的产品定义。
而这一切如果在十年前的Newton的年代,则彻彻底底演变为了一场悲剧。
初代Newton MessagePad在1993年发布时售价高达700美元,另外当时神经网络落后,也没有CNN手写识别,造成手写识别方面的效果非常糟糕。
所以我们回看乔布斯,无不反映出一个深刻的产品决策逻辑:
-
-
-
用户价值变化带来的超额收益增长曲线,判断多久能够和技术迭代引发的成本下降曲线会和。保持布局和投入。
-
在这一套决策逻辑之下,苹果不会激进的推任何技术驱动的产品,而是默默观察,
保持在牌桌上针对本质问题长期投入
,从成本侧观察元器件迭代的趋势。然后在技术逐渐收敛的情况下,把相对来说体验最优秀的最完善的产品带给用户,把最大的利润留给自己。
我们再次回首,那些抢技术首发,把一个半成品带给用户的公司,也许赚到了噱头。
但他们真的收获了足以支撑长期正向研发的利润吗?还是只能供应链有什么就用什么?
关键的关键,时间。
Gartner作为分析机构参考,可以看到2023年我们获得了很多技术的peak point,比如foundation model和我们体感一致,在2023年下半年开始越过巅峰走向谷底。
从现在这个时间点来看大量的应用站在了时间的对立面。
任何不能覆盖高客单价的场景的应用,
在面对即将收缩的市场时,任何低客单价的应用都面临着极大的出清压力。
因此我们来看什么样的场景才能满足高客单价的场景呢?
场景类型
|
领域
|
子领域
|
相关应用/功能
|
生产力/行业场景
|
金融
|
量化/投研
|
数据挖掘与预测、交易策略优化、资产组合管理
|
|
多时间线多维度分析
|
宏观经济分析、风险控制、投资组合表现
|
IT
|
代码生成
|
自动化代码编写、脚本生成、现有代码修复
|
|
验证
|
单元测试生成、代码审查、安全漏洞检测
|
|
系统全局召回
|
日志分析、错误恢复、性能优化
|
泛STEM
|
研究议题聚合
|
相关文献推荐、研究方向预测、协作网络
|
|
知识管理
|
知识库构建、知识图谱、经验积累
|
|
内容转化
|
科研内容总结、多模态展示、教育内容生成
|
法律
|
法律代理与分析
|
案件分析与策略、合规审查、法律文书生成
|
制造业/服务业
|
具身智能解决方案
|
机器人自动化、质量检测、生产流程优化
|
娱 乐 场 景
|
游戏
|
智能NPC
|
个性化互动、动态情节生成
|
|
LLM驱动的场景和人物系统
|
自适应场景变化、角色扮演增强
|
影视/小说等内容消费
|
视频生成
|
剧本到视频自动转换、自动化剪辑
|
|
网文生成
|
动态情节生成、角色发展预测
|
|
音乐生成
|
个性化音乐推荐、自动作曲与编曲
|
生活场景
|
个人信息劫持,蒸馏
|
邮件筛选、短信分类、社交注意事项提醒、聊天记录分析
|
|
个人生活助手智能体
|
替用户买菜
|
智能采购、推荐最佳配方
|
|
办手续
|
预约管理、文件准备与提交
|
|
交话费
|
周期性提醒、自动支付管理
|
|
其他服务
|
智能家居整合、生活习惯管理
|
多的不再举例,但从场景上考虑
生产力/行业场景绝对是最先能实现
【单次推理用户价值】减去【单次推理成本】为正的领域。
我们也必须明白在这些场景之下,大模型就不是为普通人服务的。
目前来看,普通用户和生产力/行业场景用户在潜在的【单次推理用户价值】上有着一个数量级以上的差异。
比如:一个程序员可以使用代码生成和自动化验证能力将整个工作流的效率提升3-5倍,长期可能提升10-100倍。这带来的【单次推理用户价值】相比cosplay trash talk在现在已经产生了超过一个数量级的差异。
因此大模型应用想要扩展普通用户这个行为本身在这个时间点就是不成立的,也是不合理的。
04
技术的阻碍:
确定性和不确定性
一个哲学问题只有在正确的背景中才能得到解决。我们必须给这个问题一个新的背景,我们必须把它比做我们通常不作比较的情况。
—维特根斯坦
背景信息,作为哲学论断中的重要组成部分,是人类对于世界和自我抽象认知的总结经验。
但是,在维特根斯坦这里,“澄清”不是把没有说清楚的命题,用明白无歧义的语言说清楚,更不是赋予命题以严格的逻辑形式和结构,而是限定与划界:“它(哲学)必须划分可思考的东西,由此划分不可思考的东西。
也就是说,在自然语言中,由于人类大量的先验知识和社会信息灌输的存在,我们不需要让一个信息的传递过程中充满完备的逻辑和知识或是结构。
大模型的革命性优势在于,在信息交换中,第一次用计算机的体系实现了全世界背景信息,状态,先验的近似隐含。面对这个世界在语言空间的投影,我们可以带着自然语言的大量漏洞,问题,缺陷进行相对准确的信息交换。
那么,代价是什么?
4.1 确定性和非确定性
-
在使用特定的输入值集调用确定性函数的任何时候,它们总是返回相同的结果。
-
在每次使用特定的输入值集调用非确定性函数时,它们可能返回不同的结果。
-
函数是否为确定性函数或非确定性函数称为函数的确定性
-
所有的函数都是确定性或非确定性的
大模型基于概率的过程,无法进行确定性的计算,逻辑推理。
大部分的高价值场景,只需要或只能容忍进行确定性的计算和逻辑推理。
-
金融领域,无法容忍财报的数据统计计算中有1%的失误
-
法律领域,无法容忍法律条文的解释和论断中有任何逻辑错误
-
IT领域,无法容忍统计数据中无法追溯计算过程和验证
4.2 生成准确性
生成幻觉是大模型到现在为止一直备受讨论的问题。
和我们刚才讲的确定性和非确定性一样,生成知识结构的准确性,事实性,时效性都是极大的挑战。
同样的高价值场景也无法容忍幻觉
索性大模型不是单打独斗,幸好我们还有智能体
基于以上两个问题我们可以看到当前最关键的几个问题:
1.如何让智能体实现完全可信的,严谨的逻辑推导能力。
2.如何让智能体实现完全完备的数学抽象和表达能力以及对应的计算能力。
3.如何让智能体实时的更新知识,且可以做无幻觉的生成。
达到这三个目的之前我的思路是首先必备的要素是什么?
按照第一性原理,必备的要素肯定不是算力也不是人力,而是数据,
所以,怎么产生这些数据呢?这就是我们要设计的框架,
这个框架必须帮助最有能力产生这些数据的人,或者流程,先帮追他们提高十倍效率,一百倍效率
。让他们能够以人类顶尖的认知加上比现在高一两个数量级的效率来产出这些数据。
05
学界和业界目前的努力
5.1 浅显的逻辑分解优化
在自然语言或者非完备的形式拆解层面 Chain-of-Thought (CoT) 和 Tree-of-Thought (ToT)可以作为一个baseline。2023年姚期智老师团队发布了累计推理(CR)虽然表面上看起来类似于 Chain-of-Thought (CoT) 和 Tree-of-Thought (ToT),但CR通过其能够动态存储和利用所有历史验证的推理结果来进行组合,将其区别开来,形成有向无环图(DAG),而不仅仅是一个序列或树。这种结构上的灵活性使CR能够通过利用更广泛的已验证命题的上下文,解决更复杂的问题,从而克服CoT和ToT在处理复杂推理任务中的局限性。
CR的优越性根植于其在一个连贯框架内协同整合提议者、验证者和报告者角色,为推理过程引入了新视角,并优化了中间结果的累积和验证。这种整合方法促进了一个更深入、更精确的推理过程,同时具备适应性和容错性,反映了人类解决问题的细腻且迭代的本质。
但类似的实践却表明理想很丰满,现实很骨感。
其实不难想象,
一个先验包含的一阶逻辑越简单的,越直接,大模型进行模拟推理出错的概率越低。
当我们把这些逻辑论断不断拆解的时候,单步出错的概率也就越低。但一个显著的bug是,从自然语言中进行复杂逻辑拆解,抽象显然也需要较高的reasoning能力。所以这类方法的限制还是比较大的。
3.2 被遗忘的SAT/SMT理论
现代计算机科学的基础是什么?
符号逻辑是计算机科学的基础,为编程语言理论、数据库理论、人工智能、知识表示、自动推理以及形式验证提供了基础。
基于逻辑的形式方法通过提供精确语义的推理规则和表示方式,补充了统计方法和机器学习。这些方法在硬件和软件验证中起到了核心作用,同时也被用于解决数学中的未解问题。
可满足性(英语:Satisfiability)是用来解决给定的真值方程式,是否存在一组变量赋值,使问题为可满足。布尔可满足性问题(Boolean satisfiability problem;SAT )属于决定性问题,也是第一个被证明属于NP完全的问题。
命题逻辑可满足性问题(SAT)和可满足性模理论问题(SMT)是两个最重要的逻辑约束问题,SAT是命题逻辑上的约束求解问题, SMT是一阶谓词逻辑上的约束求解问题。它们不但在自动定理证明、软件工程等学术研究中有广泛应用,更是信息安全、集成电路设计自动化和软件验证等领域的底层计算引擎。
从七八十年代起欧美大学体系基于SMT理论开发了一系列的数学求解器。
进一步延伸的Mathematica,Wolfram这些非典型SMT的求解系统实质上将数学、科学、逻辑计算纳入了各种不同的形式化标准里面。不同类型的求解器(如SMT求解器、LP求解器、混合整数规划求解器、符号求解器等)的存在导致了解决问题的方法和形式化标准的不一致。这是因为不同类型的求解器是为特定类型的问题设计的,并根据不同的理论和方法工作。例如:
-
SMT求解器
:这些工具(如Z3、CVC4)主要用于验证软件和硬件设计,解决基于逻辑公式和特定理论(如布尔逻辑、线性整数算术等)的可满足性问题。
-
线性规划求解器
(LP Solver):这些求解器(如CPLEX、Gurobi)用于解决线性规划问题,即寻找一个线性目标函数在满足一组线性约束条件下的最优解。
-
混合整数规划求解器
(MIP Solver):这些求解器(如写作Gurobi也支持MIP)处理含有整数变量和实数变量的优化问题,并结合了线性规划和整数规划技术。
-
符号求解器
:如Wolfram Mathematica,这些工具用于求解符号积分、符号微分、代数公式求解等。
在一些早期工作上,这些混乱的形式化标准终于被大模型的训练有了纳入到一个体系的可能。2023,陶哲轩使用大模型加上Lean4求解器完成了PFR定理的证明。AI4Science在生化物之外第一次对要求完全确定性过程的数学有了实质性的影响。
这让一切看起来有了希望。与之同时期,一些自动化方案开始出现。
中山大学和香港中文的一些研究者开始把一些基础的大模型和智能体思维引入数学求解流程。
在这个流程里面,一些数学基础求解技能或者链路可以视为基础模块来协助进化出更高级的求解能力。并且通过简单的大模型+向量召回满足了索引需求。不过在这个过程中,
对于步骤,领域的解题模板的抽象和认知缺失导致这些工作都没有更进一步。
虽然是很简单的思路,取得的定理证明能力进步也有限,但不可否认的是
这是智能体可信数学解算向前进的一条可行路径。
在一些更小众的领域进展则更喜人。在AlphaGeometry上
-
-
没有找到解决方案时,语言模型会预测可能有用的新构造,供引擎进一步推理。
-
几何证明类题目可以更好的被完全形式化。所以几乎已经是wellsolved problem
-
-
使用了大量合成数据进行训练,使其能够解决更复杂的几何问题。
-
-
-
在历史IMO几何问题中,能解决83%的问题,相较之前的53%有显著提升。
结合蒙特卡洛过程,符号/SMT引擎,强化学习和LLM几乎成为各个数理领域的万金油,
虽然还有更多的数论,积分,代数,统计类问题,无法很统一的被良好形式化完备,但是人们似乎已经看到了希望。
5.3 数据系统的当下和未来
作为全村的希望,RAG和LLM的组合过去一年时间被无限提及。作为多智能体的基础组件,数据系统,决定着智能体如何和高质量的数据交互。但现有的RAG在针对整个文本语料库的全局问题上性能十分低下,例如“数据集的主要主题是什么?”,因为这是
一个本质上是面向查询的摘要(Query-Focused Summarization, QFS)任务,而不是显式检索任务。这严重制约了RAG应用在高价值场景上。
作为关键组件向量数据库承载了很大的责任。我们暂时可以把这类组件作为LLM的触角,让他能超越本体来获得其他数据。或者我们可以直接视向量为AI时代的json。
但向量数据库的处境却有些尴尬,一方面是召回性能对于高价值场景还是太低了,第二方面召回内容的压缩率还是太低。
向量数据库的性能其实根本就不重要
—— 以至于生产上 100% 精确的全表暴力扫描 KNN 有时候都是一种切实可行的选项。更何况向量数据库需要与模型搭配使用,当大模型 API 的响应时间在百毫秒 ~ 秒级时,把向量检索的时间从 10ms 优化到 1ms 并不能带来任何用户体验上的收益。
而另一个方向因为微软的项目又被重视起来,——Graph/KnowledgeGraph。
Graph最大的优点就是它存在于人类的符号体系内
,人能够很好的认知,理解,修正,同时也是结构化数据也能被计算机体系兼容。基于graph的方法具有用户问题的普遍性和源文本索引数量的可扩展性。通常在前期,LLM在两个阶段构建基于图的文本索引:首先从源文档中导出实体知识图,然后为所有密切相关实体的群体预。给定一个问题,每个摘要用于生成部分响应,之后所有部分响应再被总结成对用户的最终响应。
类似方案最大的好处在于能够站在一个全局知识上进行问题推理和抽象。这个全局理论上可以达到人类知识的总和和边界。其中可以迸发出的能量现在还很少有人能认识到。
我们不怀疑这类rag能够在短时间内提升召回性能。但因为知识图谱的原生结构缺陷,
单纯符号系统层面的处理会导致数据暴涨到后期,整体的维护成本剧增
。
-
-
向量空间是一个线性代数概念,它描述了向量的集合在一定维度和基下的分布和操作。例如,机器学习中的高维数据可以看作是向量空间中的点,不同的距离度量(如欧几里得距离、余弦相似度)可以用于计算点之间的关系。
-
-
符号空间是信息表示的一个抽象概念,通常用于逻辑和语言学领域。它包含规则和符号,用于描述复杂系统中的对象和关系。符号空间强调的是数据之间的结构和关系,而不是低维或高维向量的几何属性。
而知识图谱本质上可以视为结构化符号数据在图空间的存在。从这个角度看,如果我们设计一种能同时兼顾向量空间和符号空间的索引系统同时支持混合Cypher这类图查询语言和向量查询以及传统关系数据库查询。那能够带来的表示形式,数据协同上的优势会无比巨大。
5.4 看不清的未来还有什么