专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

爱可可-爱生活 · OpenAI发布的最新CHatGPT宣传片： ... · 22 小时前

SEO实战营 · AI颠覆SEO：DeepSeek三个月流量暴 ... · 22 小时前

SEO实战营 · AI颠覆SEO：DeepSeek三个月流量暴 ... · 22 小时前

爱可可-爱生活 · 【[23星]iFormer：为移动应用打造的 ... · 2 天前

黄建同学 · 终于还是来了……Pika 推出的 ... · 3 天前

爱可可-爱生活 · 想过ChatGPT的“大脑”是如何炼成的吗？ ... · 4 天前

51好读 › 专栏 › 新智元

清华姚班校友等揭Transformer致命缺陷，OpenAI科学家紧急回应：学术界节奏太慢

新智元 · 公众号 · AI · 2025-02-10 17:52

正文

新智元报道

编辑：编辑部 HYZs

【新智元导读】一篇报道，在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板，却引来OpenAI研究科学家的紧急回应。

谁能想到，一篇于2023年发表的LLM论文，竟然在一年半之后又「火」了。

聊天机器人开始面临根本性的限制

论文中，来自Ai2、华盛顿大学等机构研究人员称，Transformer在组合能力上存在限制。

以基本的乘法为例，让「GPT-4」计算两个三位数的乘积，最初的正确率仅有59%。当乘数增加到4位数时，准确率直接暴降到4%。

论文地址：https://arxiv.org/abs/2305.18654

与此同时，Quanta Magazined还在报道中引用了曾是哥大博士的彭炳辉于2024发表的论文，去论证Transformer存在着根本性的限制。

论文地址：https://arxiv.org/abs/2402.08164

论文地址：https://arxiv.org/abs/2412.02975

一作彭炳辉和导师同样验证了，由于Transformer缺乏组合能力，由此导致LLM产生了幻觉。

他们指出，「如果一个大模型只有单层Transformer结构，总参数量小于域的大小，AI便无法解决组合任务」。

实际上，这些研究本身并没有什么，但QM却称之为「最近」。评论区瞬间被网友们吐槽淹没了。

OpenAI研究员Noam Brown直言，「学术界研究节奏相对较慢，而LLM领域大发展速度远超其惯常步调」。

DeepMind研究科学家对此进行了反驳，我们在4-5位的算数运算上仍未达到完美的水平。

这些论文中的观点，如今都还成立吗？

四位数相乘，GPT-4正确率4%

艾伦人工智能研究所的科学家Nouha Dziri及其团队，对以ChatGPT为代表LLM进行测试，让它们尝试解决这类逻辑难题，模型的表现并不理想。

Dziri指出，当面对复杂任务时，LLM很难依据训练数据之外的信息进行推理，只能做近似推断，极有可能出错。

需要整合多个子问题的答案，才能得出最终结果的任务被称为组合性任务。

Nouha Dziri团队研究发现，大部分LLM仅依靠预测序列中的下一个词进行训练，在应对组合性推理任务时，存在根本性缺陷。

多数LLM采用的Transformer架构，在处理这类问题时，会受到数学层面的限制。

尽管科学家在突破Transformer的限制方面取得了一定成果，但这些成果越来越像是权宜之计。

这类模型存在基础计算瓶颈，或许是时候考虑转变研究思路了。

「这项研究的真正目的，是帮助学界判断，Transformer是否是适合通用学习的架构。」纽约大学的机器学习专家Andrew Wilson说道。

OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude，是在几乎所有能获取到的互联网数据上进行训练的。

LLM掌握了语法，积累了大量的语义知识。这些经过预训练的模型，还能进一步训练或优化，完成更复杂的任务，像总结复杂文档，生成游戏代码。

它强大到仿佛真的会推理，但同时也在一些方面表现得极差，笨得让人吃惊。

以基础乘法运算为例，像ChatGPT和GPT-4这样常见的LLM表现糟糕。

2023年初，Dziri团队对GPT-4进行测试，让它计算两个三位数相乘，最初的正确率仅为59%。当计算两个四位数相乘时，准确率更是急剧下降，只剩下4%。

团队还测试了LLM在谜题任务上的表现，结果同样不理想。

当谜题是两座房子，每座房子对应两个属性时，GPT-4还能每次都答对。但当谜题难度升级为四座房子，每座房子对应四个属性时，正确率就锐减至10%。

《国际生活》上的原始谜题版本，也就是五座房子，每座房子对应五个属性的情况，GPT-4的正确率直接归零。

Dziri认为「它只是在模仿自己见过的东西，并没有真正理解。」

LLM存在难以突破的限制

与此同时，另一个研究团队采用了不同的方法，来理解LLM为什么在处理组合性任务时会遇到困难。

当时，正在哥大读博的彭炳辉与导师Christos Papadimitriou等人一起研究LLM为什么会产生幻觉，生成与事实不符的错误信息。

下面三张图中的例子，分别展示了LLM在空间构成、时间构成和关系构成上产生的幻觉。

左右滑动查看

对此，团队怀疑原因在于Transformer缺乏「组合能力」。

假设给LLM输入两条信息：一是弗雷德里克·肖邦的父亲是尼古拉·肖邦，二是尼古拉·肖邦出生于1771年4月15日。然后问它：弗雷德里克·肖邦的父亲的出生日期是什么？

这时，LLM需要把这两条信息整合起来，才能作答。

实际上，它要解答的是一个嵌套问题，先找出弗雷德里克·肖邦的父亲是谁，再回答这个人的出生日期。

要是LLM给出的答案不对，出现了所谓的「幻觉」，很可能就是因为它没能成功完成这种组合性任务。

为了验证这个猜想，团队首先研究了一种简单Transformer的特性。

这种模型只有一层，在预测下一个单词时，会根据句子中单词的顺序和位置来判断。现代LLM通常包含多层这样的结构。

团队找到了Transformer层的复杂程度和域大小（也就是表示问题所需的比特数）之间的联系。

通过研究这个简单模型，他们证明了一个数学限制条件。

如果单层Transformer的总参数数量小于域的大小，从理论上来说，Transformer就解决不了组合性任务。

仅有一个Transformer层的LLM，在数学层面存在明显的局限性。

虽说这是一个很有说服力的理论成果，但它的实际影响还不明确，因为现代LLM要复杂得多。

于是，团队换了一种方法来研究更复杂的Transformer的能力。他们运用计算复杂性理论，通过分析解决问题所需的时间、内存等资源，来探究问题的本质。

他们借助一个著名的猜想证实，即使是多层Transformer在解决复杂的组合性问题时，计算能力也存在限制。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · OpenAI发布的最新CHatGPT宣传片：接下来我们要创造什么-20250210120945

22 小时前

SEO实战营 · AI颠覆SEO：DeepSeek三个月流量暴增30倍，传统优化师集体失业？

22 小时前

SEO实战营 · AI颠覆SEO：DeepSeek三个月流量暴增30倍，传统优化师集体失业？

22 小时前

爱可可-爱生活 · 【[23星]iFormer：为移动应用打造的高效视觉模型，将卷积-20250208142551

2 天前

黄建同学 · 终于还是来了……Pika 推出的 Pikadditions，能让-20250207195724

3 天前

爱可可-爱生活 · 想过ChatGPT的“大脑”是如何炼成的吗？Andrej Kar-20250207092756

4 天前

摄影图录 · 萌帅设计师爆改40平最小学区房，四室两厅还带一个后花园···

8 年前

凤凰财经 · 特朗普联手英国布了一个局：你穷，怪谁？

8 年前

高工锂电 · 【索尔科技•G20专栏】中航锂电去年锂电池产量2.41亿AH 暂不启用乘用车市场

7 年前

21财闻汇 · QDII产品集体发力嘉实QDII基金股债业绩双线第一

7 年前

备胎说车 · 涡轮车更容易“烧”机油吗？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!