专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
文旅山东  ·  速速收藏!刀郎演唱会山东酒店联动优惠来了 ·  21 小时前  
田俊国讲坛  ·  田俊国:大道从不外得,向内求才是出路 ·  23 小时前  
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  昨天  
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  昨天  
田俊国讲坛  ·  【2月26日】第32期《10天非凡心力训练营 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

学术前沿 | Transformer究竟如何推理?基于样例还是基于规则

人工智能学家  · 公众号  ·  · 2024-07-02 15:14

正文

导读


本文是对发表于 ICML 2024 的论文 Case-based or rule-based: How Do Transformers Do the Math? 的解读。文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。通讯作者为北京大学人工智能研究院助理教授张牧涵。


论文地址: (点击下方阅读原文)

https://arxiv.org/abs/2402.17709

项目主页:

https://github.com/GraphPKU/Case_or_Rule

01

Case-based or rule-based?

由于 rule-based reasoning 对于获得系统性的泛化能力 (systematic generalization) 至关重要,作者在文章中探讨了 transformers 在数学问题(例如 "a+b=?")中到底是使用何种推理机制。为了测试模型是否依赖特定样例来解决问题,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依赖的训练集中的样例,然后将它们从训练集中移除,以观察它们是否影响模型的测试性能。对于数学推理,作者的假设是,在解决某个测试样本时,transformers 倾向于依赖与测试样本 “接近” 的训练样本来进行推理。因此,作者在样本的二维空间中挖掉了一块正方形作为测试集(test square)。根据假设,若模型在做 case-based reasoning,且模型依赖的是与 test sample 距离较近的 training sample 来做推理,那么模型将无法答对正方形中心附近的 test samples,因为模型在训练集中没有见过接近的样例。


Scratchpad 是否会改变模型推理行为?



其他影响因素

Scratchpad 以外,作者也在文章中对 test square 的位置、大小,模型的大小(包括 GPT-2-Medium,与更大的模型: Llama-2-7B 和 GPT-3.5-Turbo ),数据集的大小等因素进行了丰富的测试。模型在做 case-based reasoning 的结论是统一的。具体的实验细节可见文章。


02

Rule-Following Fine-Tuning (RFFT)

通过上述的干预实验,作者发现 transformers 在数学推理中倾向于使用 case-based reasoning,然而,case-based reasoning 会极大地限制模型的泛化能力,因为这意味着模型如果要做对新的 test sample ,就需要在训练集中见过相似的样本。而在训练集中覆盖到所有未知推理问题的相似样本是几乎不可能的(尤其对于存在长度泛化的问题)。

图 4. direct answer,scratchpad 与 rule-following 三种方法的 input-output sequence

为了缓解此类问题,作者提出了名为 Rule-Following Fine-Tuning(RFFT)的规则遵循微调技术,旨在教 transformers 进行 rule-based reasoning。具体来说,如图 4 所示,RFFT 在输入中提供显式的规则,然后指导 transformers 逐行地回忆规则并执行。

实验中,作者在 1-5 位数的加法上使用图 4 所示的三种方法对 Llama-2-7B 和 GPT-3.5-turbo 进行了 fine-tune,并分别在 6-9 与 6-15 位数的 OOD 的加法任务上进行了测试。







请到「今天看啥」查看全文