专栏名称: 爱可可-爱生活

知名互联网资讯博主北邮PRIS模式识别实验室陈老师

目录

相关文章推荐

爱可可-爱生活 · 【Transformer详解(Slides) ... · 昨天

黄建同学 · 价格还有下探空间//@老师木:DeepSee ... · 3 天前

AI前线 · 刚刚，DeepSeek ... · 3 天前

AI前线 · 不用英伟达严选？DeepSeek最新开源项目 ... · 3 天前

机器之心 · DeepSeek一天能赚多少钱？官方突然揭秘 ... · 3 天前

51好读 › 专栏 › 爱可可-爱生活

本文创新性地提出利用特定形式语言（特别是 k-Shuffle D-20250303053947

爱可可-爱生活 · 微博 · AI · 2025-03-03 05:39

正文

2025-03-03 05:39
本条微博链接

本文创新性地提出利用特定形式语言（特别是 k-Shuffle Dyck 语言）预训练 Transformer 模型，能显著提升自然语言学习的数据效率和句法泛化能力，其核心在于形式语言的层级结构与 Transformer 模型的学习偏好相契合，预训练阶段学习到的注意力机制可以有效迁移到自然语言处理任务中，为提升数据效率和模型性能提供了新颖而有效的策略，并揭示了形式语言预训练背后潜在的机制。

[CL]《Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases》M Y. Hu, J Petty, C Shi, W Merrill... [New York University] (2025)

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【Transformer详解(Slides)】 'Transf-20250303082401

昨天

黄建同学 · 价格还有下探空间//@老师木:DeepSeek 每台机器输出吞吐-20250301152448

3 天前

AI前线 · 刚刚，DeepSeek 突然公布成本利润率高达545%！做 AI Infra 的该慌了？！

3 天前

AI前线 · 不用英伟达严选？DeepSeek最新开源项目再刷新认知，为何被赞“颠覆存储架构”

3 天前

机器之心 · DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

3 天前

电竞头条15W · LPL第二周次日综述：赛场首现超神青钢影

8 年前

沙黾农 · 02.20股市早8点：凸现“大盘涨停板级利好”！

8 年前

塔罗牌解忧馆 · 揭秘：在两性相处中，男生更看重你哪点？

8 年前

参考消息 · 月底流量吃紧！关注新华社微信，注册新华社客户端，各送100兆流量！

7 年前

21世纪经济报道 · 5月19日“2017中国汽车新创峰会”深度讨论汽车产业变革

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!