专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
51好读  ›  专栏  ›  数据派THU

大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解

数据派THU  · 公众号  · 大数据  · 2025-03-18 17:00

正文

图片

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处

本文约1500字,建议阅读5分钟

本文将语言数据集和GPT模型展开为蒙特卡洛语言树。


MLNLP社区 是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。


社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。


思维链(CoT)为什么能够提升大模型的表现?大模型又为什么会出现幻觉?


北大课题组的研究人员,发现了一个分析问题的新视角,将语言数据集和GPT模型展开为 蒙特卡洛语言树。


具体来说,数据集和模型分别被展开成了Data-Tree 和GPT-Tree


图片


结果,他们发现,现有的模型 拟合训练数据的本质是在寻求一种更有效的数据树近似方法 (即 )。


进一步地,研究人员认为,大模型中的推理过程, 更可能是概率模式匹配,而不是形式推理。


将数据和模型拆解为蒙特卡洛树


在预训练过程中,大模型通常学习的是如何预测下一个token(也就是将每个token的似然进行最大化),从而对大规模数据进行无损压缩。



其中, 是优化上述似然得到的模型参数。


作者发现, 任何语言数据集 都可以用蒙特卡洛语言树 (简称“Data-Tree”) 完美地表示 ,参数化为


具体来说,作者采样第一个token作为根节点(例如“For”),枚举其下一个token作为叶子节点(例如“the”或“example”),并计算条件频率( )作为边。


重复这一过程,就可以得到被语言数据集扁平化的“Data-Tree”。形式上,Data-Tree 满足以下条件:



其中, 代表频率函数, 代表第 个token。作者从理论上证明了Data-Tree的 是上述最大似然的最优解。换句话说,最大化似然得到的模型参数 最终都在不断靠近







请到「今天看啥」查看全文