专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
四川发布  ·  官宣!川渝将新增7座车站 ·  15 小时前  
四川发布  ·  四川省地质灾害应急响应升级为一级! ·  昨天  
自贡网  ·  2.8亿“大项目”!涉及62.4万人次—— ·  昨天  
四川日报  ·  王某(男,60岁),被当场抓获! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

LLM不会CoT隐性推理,只会显性推理!

深度学习自然语言处理  · 公众号  ·  · 2024-12-01 22:01

正文

这篇文章探讨了大型语言模型(LLMs)在隐式推理中的表现,发现尽管隐式推理理论上更为高效,但实际上并不等同于显式推理链(CoT)。研究表明,LLMs在进行隐式推理时并未真正进行逐步计算,而是依赖于经验和直觉,这使得其推理过程不稳定且不可靠。文章通过实验验证了这一点,并强调了显式CoT方法在处理复杂任务时的必要性。

论文: LLMs Do Not Think Step-by-step In Implicit Reasoning
链接: https://arxiv.org/pdf/2411.15862

研究背景

  1. 研究问题:探讨了大型语言模型(LLMs)在隐式链式思维(implicit CoT)推理中的表现,特别是与显式链式思维(explicit CoT)方法的比较。尽管隐式 CoT 在理论上更具效率,但实验表明其性能仍然落后于显式 CoT。
  2. 研究难点:如何有效探测和分析模型在隐式 CoT 中的中间步骤信息,以及如何验证隐式 CoT 是否真正等同于显式 CoT。
  3. 相关工作:包括 OpenAI 的 o1(Qin et al., 2024)等,这些工作展示了 CoT 训练的强大能力。然而,现有研究大多集中在基于知识的问题上,较少涉及基本的多步问题,如算术。

研究方法

这篇论文提出了通过实验探测模型在隐式 CoT 中的中间步骤信息,以验证其是否真正进行逐步推理。具体来说,

  1. 实验设计:使用简单的多步算术问题,通过提示强制模型在不使用 CoT 的情况下直接给出答案。例如,一个5步问题的提示如下: 问题:A 的值是多少?你必须直接回答 A=xxx。

  2. 数据收集:随机改变问题中的值,生成2000个不同样本,记录每个样本的中间结果。例如,上述示例的中间结果为 [8,3,5,10,9]。
  3. 线性探测方法:采用典型的线性探测方法,使用一层 MLP 从隐藏状态中预测每个中间结果。控制所有中间值在 -10 到 10 之间,使探测成为一个21类分类器(每个值对应一类)。
  4. 模型选择:选择大型模型 Qwen2.5-72B-Instruct 进行隐式推理,因为较小的7B级模型难以在没有 CoT 的情况下正确解决多步问题,而70B级模型的准确率超过50%。由于72B模型有80层,为了减少计算成本,将每4个连续层的隐藏状态平均。

实验设计

  1. 数据收集:生成2000个不同样本,每个样本包含5步算术问题的中间结果。
  2. 样本选择:每个样本的最后一个token作为主要研究对象,记录其每一层的隐藏状态。
  3. 参数配置:使用1600个样本训练分类器10个epoch,400个样本测试其准确率。每个隐藏状态组作为输入特征训练一个单独的分类器,最终得到 20∗num_steps 个分类器。

结果与分析

  1. 中间步骤探测结果:在3步和5步问题中,第一层和最后一层的结果总是可以成功探测,表明模型确实记住了输入值并构思了最终答案。然而,第二层的结果探测准确率较低,中间步骤的结果几乎无法检测。这表明模型可能具有2跳推理能力,但在涉及更多步骤时则不行。






请到「今天看啥」查看全文