一个不合时宜的话题：语言模型的能力边界在哪里？

产品犬舍 · 公众号 · 产品 · 2025-02-25 09:15

正文

去年我在犬校的一个月经话题，就是聊 “语言模型的能力边界在哪里”。这个命题可能有点无聊，它的背景是一部分人认为随着技术涌现，大模型无所不能，必将带来人类社会的颠覆性大革命，类似于工业革命与信息革命，超越了移动互联网对人类社会的影响。

而我认为，这个未来过于遥远。现在一眼看到几十年后（几十年后你都老了），是一种对于 “我活在伟大时代，我还有事业机遇” 的心理暗示。尤其在移动互联网黄金十年结束后，这种心理暗示屡见不鲜。

行业公认的是，AI 智能化输出已经超出了大部分人的能力。怎样将 AI 能力深度植入产业链条，还需要好几年的摸索，用 AI 改造工作流与产业链，一根链条上的多个节点协同进化。

在 AI 还没有改变我们日常工作的时候，谈颠覆性大革命，心理暗示未免太强烈了。如果一定要这么畅想，那就来预测一下语言模型的能力边界。

一、语言模型的边界，是语言的边界

语言是一种信息压缩工具，通过压缩来实现高效率传输。

有时候语言的解码率高，比如数学与代码；有时候语言的解码率低，比如做产品的经验与手感。

所谓语言的解码率，意思是你想表达的完整的「元信息」，本来的完整的想法，完整的信息属性、结构与上下文，通过语言传输之后，损失了多少，保留了多少？

在这些语言表达里，绝大部分元信息被裁切掉了，输出一张模糊缩略图。接收方如果想解码这张缩略图，就得具备共识——也就是自身有着相似的元信息储备，才能将缩略图还原为共识。

想想看我举的这几个例子，用语言完整表达元信息是不可能做到的。理解基于共识，共识基于相似且庞大的信息背景。

如果没有这样的共识，有个网络热词很好地描述了处境：不明觉厉。

语言的发送方与接收方，对元信息的共识基础，决定了语言在传输过程中的损耗率。

听见和听懂是两码子事情。

听懂需要的不是聪明，而是相似的阅历。

这就能解释我长期以来对方法论的厌恶。我可以写很多方法，但不想看别人的方法。大概率我并不具备与别人相似的信息背景，面对着一张马赛克级别的模糊缩略图，不明觉厉。

那么，还有多少是任何显性内容都无法承载的元信息，包括丰富的经历，细腻的体感，复杂的情绪，琐碎的细节……

压根不具备这部分元信息语料的大模型，AI 智能的边界会到达哪里？

坊间传言，大模型语料在文本意义上大约几万 G 的数据，几乎所有的人类知识都在里面。这里指的是显性知识可以承载的人类 “知识”，但在人类知识背后还有几万倍语言无法容纳的元信息。

我的另一篇公众号：完整地聊聊我对 “隐性知识” 的观点，语言模型的边界同时也是语言的边界，更具体地描述了这个困境。经验大部分来自于隐性知识，隐性知识不可通过语言来传递，被语言压缩后损失了太多关键信息。因此阅读并不能帮助我们成为经验丰富的专家，“学习” 高度依赖实践环境而非书本与视频。

这一道藩篱不仅限制了大模型实现 AGI 的前景，可能也限制了大模型成为人类专家的前景。毕竟专家依赖于经验，而非知识。

一直以来，我对方法论的厌恶和对 AGI 的悲观，都出自同一个源头，即 “人类语言的局限性”。人与人之间对元信息的共识决定了解码率的高低，然而大部分元信息无法高效率传输，只能在漫长的人生和相似的环境中缓慢地吸收。

二、语言模型的边界，是语言输入的边界

关于语言的边界，有人说，大模型目前几万 G 的语料已经足够全面了，已经足够理解人类世界。

对于传输通用知识来说，这么讲没问题。但让用户运用通用知识，就要代入每一个用户自身的场景，这是大模型难以触达的禁区。

因为大模型并不知道，用户的个性化场景到底是什么。

首先，用户得理解对应知识点，应该收集整理身边的哪些信息点。

其次，用户得将这些信息点准确，完整地输入给大模型。如果说前者还有可能做到，后者简直令人绝望。

有可能需要输入的信息量太大，已经超越了语言承载的范围，比如说 “工作任务背景”，往往得是共同工作的同事，才能掌握共同的元信息。

有可能需要输入的信息点感性而难以精准表达，比如说 AIGC 的创作意图，越专业的创作意图越难用语言表达。内心的意图越精准（但又表达不好），则 AI 对意图的实现偏离度越高。专业创作意图一旦表达出口，迅速坍塌为一张满是马赛克的模糊缩略图。而完整的专业创作，恰恰高度依赖一系列精准的意图表达。

在现实中，比如一次专家咨询，通常是专家发起多轮提问，把对话拉到自己的专业逻辑线上，收集必要的信息之后，再给予解答。专家通过多轮启发式提问，才能拿到回答必须要的信息。

我接过几十次这样的产品专家咨询，事实上，一次专家咨询很难有什么满意的效果。因为两小时咨询，我获得的背景信息太少了，如果想要更好的答案，就得把两小时拉长到至少两天，我主动访谈核心业务部门，点名拉清单收集一批数据，才能给到对方更准确的问诊结果。这件事大模型又能如何做到呢？

最后，用户还得给大模型设置一个明确的，可行性较强的计算目标。如果是空洞的泛泛而问，只能得到空洞的泛泛而答。我们可以指望大模型的智力不断提升，却不能指望人类的提问能力不断提升。

基于以上的输入瓶颈，大模型解决问题的射程被限制在 “简短的提问和追问，能够描述清楚问题的个性化背景，并指向明确的答案。” 信息输入简洁清晰完整，才能获得满意的回答。

三、语言模型的边界，（暂时）是传统互联网的边界

目前大模型的应用开发，除了原生大模型厂商之外，主要由传统互联网公司引领。

你同时会发现，用户主要在用原生大模型。即便全体互联网公司下场，大模型应用依然不温不火。大模型可以发力的领域，除了搜索业务以外，和当前的互联网公司关联较小。

因为当前赛道主要解决「信息不对称」，帮助你找到想要的信息；而大模型主要解决「信息查询效率与内容组装」，帮助你更高效率地找到信息，组装内容。这种 gap 让 web2.0 时代的互联网公司一脸懵逼。

web1.0 也好，2.0 也好，解决的都是信息不对称问题，让你从茫茫信息中找到自己需要的。甚至为了这个目标，web2.0 先生产海量信息，再匹配搜索结果（算法推荐也是某种隐式搜索）。

为什么传统互联网公司对大模型一脸懵逼？在解决信息不对称的场景中，除了搜索业务以外，用户对于提升查询效率与内容组装是一个弱需求。