本文创新性地提出利用特定形式语言(特别是 k-Shuffle Dyck 语言)预训练 Transformer 模型,能显著提升自然语言学习的数据效率和句法泛化能力,其核心在于形式语言的层级结构与 Transformer 模型的学习偏好相契合,预训练阶段学习到的注意力机制可以有效迁移到自然语言处理任务中,为提升数据效率和模型性能提供了新颖而有效的策略,并揭示了形式语言预训练背后潜在的机制。
[CL]《Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases》M Y. Hu, J Petty, C Shi, W Merrill... [New York University] (2025)
网页链接