专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  【Transformer详解(Slides) ... ·  昨天  
黄建同学  ·  价格还有下探空间//@老师木:DeepSee ... ·  3 天前  
AI前线  ·  刚刚,DeepSeek ... ·  3 天前  
机器之心  ·  DeepSeek一天能赚多少钱?官方突然揭秘 ... ·  3 天前  
51好读  ›  专栏  ›  爱可可-爱生活

本文创新性地提出利用特定形式语言(特别是 k-Shuffle D-20250303053947

爱可可-爱生活  · 微博  · AI  · 2025-03-03 05:39

正文

2025-03-03 05:39

本文创新性地提出利用特定形式语言(特别是 k-Shuffle Dyck 语言)预训练 Transformer 模型,能显著提升自然语言学习的数据效率和句法泛化能力,其核心在于形式语言的层级结构与 Transformer 模型的学习偏好相契合,预训练阶段学习到的注意力机制可以有效迁移到自然语言处理任务中,为提升数据效率和模型性能提供了新颖而有效的策略,并揭示了形式语言预训练背后潜在的机制。
[CL]《Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases》M Y. Hu, J Petty, C Shi, W Merrill... [New York University] (2025) 网页链接






请到「今天看啥」查看全文