【新智元导读】
一篇报道,在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板,却引来OpenAI研究科学家的紧急回应。
谁能想到,一篇于2023年发表的LLM论文,竟然在一年半之后又「火」了。
聊天机器人开始面临根本性的限制
论文中,来自Ai2、华盛顿大学等机构研究人员称,Transformer在组合能力上存在限制。
以基本的乘法为例,让「GPT-4」计算两个三位数的乘积,最初的正确率仅有59%。当乘数增加到4位数时,准确率直接暴降到4%。
论文地址:https://arxiv.org/abs/2305.18654
与此同时,Quanta Magazined还在报道中引用了曾是哥大博士的彭炳辉于2024发表的论文,去论证Transformer存在着根本性的限制。
论文地址:https://arxiv.org/abs/2402.08164
论文地址:https://arxiv.org/abs/2412.02975
一作彭炳辉和导师同样验证了,由于Transformer缺乏组合能力,由此导致LLM产生了幻觉。
他们指出,「如果一个大模型只有单层Transformer结构,总参数量小于域的大小,AI便无法解决组合任务」。
实际上,这些研究本身并没有什么,但QM却称之为「最近」。评论区瞬间被网友们吐槽淹没了。
OpenAI研究员Noam Brown直言,「学术界研究节奏相对较慢,而LLM领域大发展速度远超其惯常步调」。
DeepMind研究科学家对此进行了反驳,我们在4-5位的算数运算上仍未达到完美的水平。
这些论文中的观点,如今都还成立吗?
艾伦人工智能研究所的科学家Nouha Dziri及其团队,对以ChatGPT为代表LLM进行测试,让它们尝试解决这类逻辑难题,模型的表现并不理想。
Dziri指出,当面对复杂任务时,LLM很难依据训练数据之外的信息进行推理,只能做近似推断,极有可能出错。
需要整合多个子问题的答案,才能得出最终结果的任务被称为组合性任务。
Nouha Dziri团队研究发现,大部分LLM仅依靠预测序列中的下一个词进行训练,在应对组合性推理任务时,存在根本性缺陷。
多数LLM采用的Transformer架构,在处理这类问题时,会受到数学层面的限制。
尽管科学家在突破Transformer的限制方面取得了一定成果,但这些成果越来越像是权宜之计。
这类模型存在基础计算瓶颈,或许是时候考虑转变研究思路了。
「这项研究的真正目的,是帮助学界判断,Transformer是否是适合通用学习的架构。」纽约大学的机器学习专家Andrew Wilson说道。
OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude,是在几乎所有能获取到的互联网数据上进行训练的。
LLM掌握了语法,积累了大量的语义知识。这些经过预训练的模型,还能进一步训练或优化,完成更复杂的任务,像总结复杂文档,生成游戏代码。
它强大到仿佛真的会推理,但同时也在一些方面表现得极差,笨得让人吃惊。
以基础乘法运算为例,像ChatGPT和GPT-4这样常见的LLM表现糟糕。
2023年初,Dziri团队对GPT-4进行测试,让它计算两个三位数相乘,最初的正确率仅为59%。当计算两个四位数相乘时,准确率更是急剧下降,只剩下4%。
团队还测试了LLM在谜题任务上的表现,结果同样不理想。
当谜题是两座房子,每座房子对应两个属性时,GPT-4还能每次都答对。但当谜题难度升级为四座房子,每座房子对应四个属性时,正确率就锐减至10%。
《国际生活》上的原始谜题版本,也就是五座房子,每座房子对应五个属性的情况,GPT-4的正确率直接归零。
Dziri认为「它只是在模仿自己见过的东西,并没有真正理解。」
与此同时,另一个研究团队采用了不同的方法,来理解LLM为什么在处理组合性任务时会遇到困难。
当时,正在哥大读博的彭炳辉与导师Christos Papadimitriou等人一起研究LLM为什么会产生幻觉,生成与事实不符的错误信息。
下面三张图中的例子,分别展示了LLM在空间构成、时间构成和关系构成上产生的幻觉。
对此,团队怀疑原因在于Transformer缺乏「组合能力」。
假设给LLM输入两条信息:一是弗雷德里克·肖邦的父亲是尼古拉·肖邦,二是尼古拉·肖邦出生于1771年4月15日。然后问它:弗雷德里克·肖邦的父亲的出生日期是什么?
实际上,它要解答的是一个嵌套问题,先找出弗雷德里克·肖邦的父亲是谁,再回答这个人的出生日期。
要是LLM给出的答案不对,出现了所谓的「幻觉」,很可能就是因为它没能成功完成这种组合性任务。
为了验证这个猜想,团队首先研究了一种简单Transformer的特性。
这种模型只有一层,在预测下一个单词时,会根据句子中单词的顺序和位置来判断。现代LLM通常包含多层这样的结构。
团队找到了Transformer层的复杂程度和域大小(也就是表示问题所需的比特数)之间的联系。
通过研究这个简单模型,他们证明了一个数学限制条件。
如果单层Transformer的总参数数量小于域的大小,从理论上来说,Transformer就解决不了组合性任务。
仅有一个Transformer层的LLM,在数学层面存在明显的局限性。
虽说这是一个很有说服力的理论成果,但它的实际影响还不明确,因为现代LLM要复杂得多。
于是,团队换了一种方法来研究更复杂的Transformer的能力。他们运用计算复杂性理论,通过分析解决问题所需的时间、内存等资源,来探究问题的本质。
他们借助一个著名的猜想证实,即使是多层Transformer在解决复杂的组合性问题时,计算能力也存在限制。