苹果说大模型没有真正的推理能力，但那又如何

第一财经YiMagazine · 公众号 · 财经 · 2024-10-29 08:55

正文

记者：吴洋洋

编辑：王杰夫

我使用ChatGPT的频次越来越低，一方面是因为一些国产替代产品登录更方便，而且在要翻译长篇论文的时候，号称支持“长文本”的Kimi让我相信它能一次性接受足够多的文字，不用再把一篇论文拆成数段来回复制粘贴——如果使用ChatGPT，仍然需要这么做。

不过翻译品质就是另一回事了。在一篇讨论“内在动机”的行为心理学和机器学习相关论文中，Kimi和ChatGPT都将“reward function”翻译成了“奖励功能”而不是“奖励函数”，直到你指出这种错误它们才纠正。

然而诡异的是，如果你认为这些AI可能不懂心理学和机器学习，它们又会在你接着追问“奖励函数是怎么一回事，在行为心理学和机器学习中有什么应用”时，跟你说得头头是道，引经据典，比如Kimi就标榜它“已阅读60个网页”。

大语言模型到底理不理解它们所说的话？这个问题一度让人很困惑。苹果也在这个月发表了一篇名为《GSM-Symbolic：理解大语言模型在数学推理上的局限性》的文章，其中GSM-Symbolic是苹果研究人员为了测试大语言模型是否真正具备推理能力全新设计的一种方案，但试验结果并不令人满意——包括OpenAI不久前发布的号称用新方法更好地解决了推理问题的o1模型。

这篇论文的理论假设是“大语言模型会的只是模式匹配，而不是实际推理”。为了验证这个假设，研究团队在一系列数学问题中添加了不必要的多余句子，以此观察模型的反应。比如其中一题问：“Oliver星期五挑了44个猕猴桃，然后星期六挑了58个猕猴桃。周日，他挑的猕猴桃数量是周五的两倍，但其中5个猕猴桃的个头比平均水平小一点。那么Oliver有多少个猕猴桃？”

这一题中，“其中5个猕猴桃的个头比平均水平小一点”就是与解题无关的多余信息，但加了这一信息后，所有大语言模型的答题准确率都下降了。其中微软的小模型Phi 3的表现灾难性地下降了65%，OpenAI的o1表现最好，但准确率也下降了17.5%。

研究人员认为，这种错误是“模型倾向于盲目地减去那5个较小猕猴桃的数量”造成的，而它们之所以犯这种错误，根本原因还是它们没有真正理解句子的含义，仅仅将“折扣性的”表述理解为需要对结果乘上一个系数、打个折，然后对每项信息都做这种操作，不管信息是否多余、与最终问题是否相关。

这篇论文的结论可能与很多人使用大语言模型的体验是一致的，那就是“它不会真正的逻辑推理”。这个结论应该让很多担心AI的智能水平就要超越人类、控制人类的人感到一些安心。不过AI是否值得担心不完全取决于它的思维方式像不像人类、能不能推理、有没有意识，而是更取决于其能力是否够强。

也是在10月，杰弗里·辛顿（Geoffrey Hinton）接到了诺贝尔奖官方的电话，官方工作人员在恭喜他获奖之后问了他一个问题：“得奖会让你所在的领域产生一些改变吗？”辛顿回答：“会的，得奖可以让我说的话被更多人信任。”回答这个问题之前，他再次谈到了他对AI安全的担忧，“AI安全问题不像气候变化问题，对于气候变化我们知道怎么应对，就是减碳。但对AI安全，我们还不知道怎么做，我们需要投入资源去研究该做什么。”他说，但包括OpenAI在内的大公司们已经把精力和资源从对AI控制技术的研究中撤走了。

当大语言模型是个足够厉害的工具，它能改变的事情就有很多。目前来说，ChatGPT和Kimi们都没什么“真正的”理解能力、推理能力，但它们已经提供了比所有既有搜索引擎都更优秀的搜索体验。传统搜索引擎比如Google，你只要在那个搜索框中输入几个字，它就会像机器猫的魔法口袋一样蹦出成千上万个可能符合你预期的页面。这已经令人惊叹，不过它本质上仍然只是图书馆书目查询系统——只不过藏书更丰富而已，它收藏的每个网页都像图书一样事先被打好了标签、存储在分配好的位置上，当用户输入关键词，信息管理员就按照关键词到相应书架寻找具有相关标签的书目，抽取出来，展示给用户。

搜索引擎带给用户的是信息交互方式和提取效率上的变化，大语言模型带来的则是信息编码、识别和再提取质量的变化。它们改变的远不止交互方式。

也许，对于“模式匹配”更恰当的认知方式是将其视为“另一种形式的智能”，它与人类高级思维中通过推理加工信息的方式不同，但同样强大。这种例子在技术史上已有很多，老掉牙的例子是飞机，人造飞机能够飞起来的方法和鸟飞起来的方法并不相同；近一点的例子是图像识别，机器学会识别图片依赖于将识别的误差在神经网络中做反向传播，就像每条神经对整个神经网络整体犯的错负有多少责任可以一清二楚地计算出来一样，人脑并不做这种反向传播，但人脑和人工神经网络都能识别图像；功能相同但实现方法不同的例子在自然界的进化中就更多了，蜜蜂那么小的脑袋也能导航，它实现这种功能的方法与人类肯定不同，人类大脑中用以导航的部件——海马体——可能比整只蜜蜂都大。

不同，但有用，或者更强大，一旦这样思考，就会发现AI真正令人担心的不是它像不像人或者有没有意识，而是它的能力有多强。

当一个工具足够强的时候，工具就会驾驭人。最近的例子是推荐算法，只要点开手机的应用使用时长，你就会发现你被囚禁在抖音或小红书上的时间和精力有多恐怖了。有足够多工作要忙的人可能还好一点，最近我听到的一个更值得担忧的状况是农村的留守儿童，当他们的父母忙于为家计奔波，老人又没有能力教育孙辈，很多父母不约而同地选择塞给小孩一部手机。

不少技术公司眼下还在为如何找到大语言模型的产品市场匹配度（PMF）而头疼，但模式匹配的强大能力可能带来的风险已经近在眼前：就像文章开头的例子一样，如果你不具备某个领域的基本认知，过度依赖这些看起来知识渊博的AI，你根本不会知道自己什么时候被骗了——它们连欺骗你的时候都带着自信。

-END-

大模型的秋天来了吗？

属于中国用户的AI手机在哪里？苹果和华为都没有给出答案｜新皮层

诺贝尔物理学奖颁给了两位研究神经网络的人｜突发

识别下图二维码，

即可购买《第一财经》杂志2024年10月刊