学术前沿 | Transformer究竟如何推理？基于样例还是基于规则

人工智能学家 · 公众号 · · 2024-07-02 15:14

正文

导读

本文是对发表于 ICML 2024 的论文 Case-based or rule-based: How Do Transformers Do the Math? 的解读。文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。通讯作者为北京大学人工智能研究院助理教授张牧涵。

论文地址：（点击下方阅读原文）

https://arxiv.org/abs/2402.17709

项目主页:

https://github.com/GraphPKU/Case_or_Rule

Case-based or rule-based?

由于 rule-based reasoning 对于获得系统性的泛化能力 (systematic generalization) 至关重要，作者在文章中探讨了 transformers 在数学问题（例如 "a+b=?"）中到底是使用何种推理机制。为了测试模型是否依赖特定样例来解决问题，作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依赖的训练集中的样例，然后将它们从训练集中移除，以观察它们是否影响模型的测试性能。对于数学推理，作者的假设是，在解决某个测试样本时，transformers 倾向于依赖与测试样本 “接近” 的训练样本来进行推理。因此，作者在样本的二维空间中挖掉了一块正方形作为测试集（test square）。根据假设，若模型在做 case-based reasoning，且模型依赖的是与 test sample 距离较近的 training sample 来做推理，那么模型将无法答对正方形中心附近的 test samples，因为模型在训练集中没有见过接近的样例。

Scratchpad 是否会改变模型推理行为？

其他影响因素

Scratchpad 以外，作者也在文章中对 test square 的位置、大小，模型的大小（包括 GPT-2-Medium，与更大的模型： Llama-2-7B 和 GPT-3.5-Turbo ），数据集的大小等因素进行了丰富的测试。模型在做 case-based reasoning 的结论是统一的。具体的实验细节可见文章。

Rule-Following Fine-Tuning (RFFT)

通过上述的干预实验，作者发现 transformers 在数学推理中倾向于使用 case-based reasoning，然而，case-based reasoning 会极大地限制模型的泛化能力，因为这意味着模型如果要做对新的 test sample ，就需要在训练集中见过相似的样本。而在训练集中覆盖到所有未知推理问题的相似样本是几乎不可能的（尤其对于存在长度泛化的问题）。

图 4. direct answer，scratchpad 与 rule-following 三种方法的 input-output sequence

为了缓解此类问题，作者提出了名为 Rule-Following Fine-Tuning（RFFT）的规则遵循微调技术，旨在教 transformers 进行 rule-based reasoning。具体来说，如图 4 所示，RFFT 在输入中提供显式的规则，然后指导 transformers 逐行地回忆规则并执行。

实验中，作者在 1-5 位数的加法上使用图 4 所示的三种方法对 Llama-2-7B 和 GPT-3.5-turbo 进行了 fine-tune，并分别在 6-9 与 6-15 位数的 OOD 的加法任务上进行了测试。