本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处本文约1500字,建议阅读5分钟
本文将语言数据集和GPT模型展开为蒙特卡洛语言树。
MLNLP社区
是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
思维链(CoT)为什么能够提升大模型的表现?大模型又为什么会出现幻觉?
北大课题组的研究人员,发现了一个分析问题的新视角,将语言数据集和GPT模型展开为
蒙特卡洛语言树。
具体来说,数据集和模型分别被展开成了Data-Tree
和GPT-Tree
。
结果,他们发现,现有的模型
拟合训练数据的本质是在寻求一种更有效的数据树近似方法
(即
)。
进一步地,研究人员认为,大模型中的推理过程,
更可能是概率模式匹配,而不是形式推理。
将数据和模型拆解为蒙特卡洛树
在预训练过程中,大模型通常学习的是如何预测下一个token(也就是将每个token的似然进行最大化),从而对大规模数据进行无损压缩。
其中,
是优化上述似然得到的模型参数。
作者发现,
任何语言数据集
都可以用蒙特卡洛语言树
(简称“Data-Tree”)
完美地表示
,参数化为
。
具体来说,作者采样第一个token作为根节点(例如“For”),枚举其下一个token作为叶子节点(例如“the”或“example”),并计算条件频率(
)作为边。
重复这一过程,就可以得到被语言数据集扁平化的“Data-Tree”。形式上,Data-Tree
满足以下条件:
其中,
代表频率函数,
代表第
个token。作者从理论上证明了Data-Tree的
是上述最大似然的最优解。换句话说,最大化似然得到的模型参数
最终都在不断靠近
。