专栏名称: 少年伯爵
波波利海岸 POPOLI COAST 技术顾问 V+优质创作者 2023微博新锐新知博主 科学科普博主 In the noisy confusion of life keep peace with your soul.
目录
51好读  ›  专栏  ›  少年伯爵

#DeepSeek发布技术论文# 《原生稀疏注意力:硬件对齐且可-20250219113053

少年伯爵  · 微博  ·  · 2025-02-19 11:30

正文

2025-02-19 11:30

#DeepSeek发布技术论文# 《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention) #DeepSeek最新技术论文梁文锋是共创之一# 论文PDF地址是➠ 网页链接 如图1~图7所示——目前世界各国的AI竞赛,本质上就是数学模型收敛速度的比拼,谁的模型公式收敛最快,谁就最牛啤。

就像阿马努金的π收敛公式那样,两步就逼近了π,简直不像地球人。

deepseek这次更是直接祭出了“稀疏注意力”,替代了“全注意力”,相当于进化到了我们碳基人类的潜意识/下意识程度。

在超快速长文本训练与推理的过程中,省时省力,并且省显卡。

打个比方——“全注意力”就是我们还没有学会骑自行车的时候,需要满头大汗+小心翼翼的控制车身不要倾斜摔倒。

而“稀疏注意力”则是指我们已经熟练掌握骑车技巧,身体可以下意识的自动控制车辆,脑子的显意识里可以想回家的最优路线,以及晚上吃什么饭。






请到「今天看啥」查看全文