#DeepSeek发布技术论文# 《原生稀疏注意力：硬件对齐且可-20250219113053_少年伯爵的专栏文章_微信文章

#DeepSeek发布技术论文# 《原生稀疏注意力：硬件对齐且可-20250219113053

少年伯爵 · 微博 · · 2025-02-19 11:30

正文

2025-02-19 11:30
本条微博链接

#DeepSeek发布技术论文# 《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention） #DeepSeek最新技术论文梁文锋是共创之一# 论文PDF地址是➠

网页链接如图1~图7所示——目前世界各国的AI竞赛，本质上就是数学模型收敛速度的比拼，谁的模型公式收敛最快，谁就最牛啤。

就像阿马努金的π收敛公式那样，两步就逼近了π，简直不像地球人。

deepseek这次更是直接祭出了“稀疏注意力”，替代了“全注意力”，相当于进化到了我们碳基人类的潜意识/下意识程度。

在超快速长文本训练与推理的过程中，省时省力，并且省显卡。

打个比方——“全注意力”就是我们还没有学会骑自行车的时候，需要满头大汗+小心翼翼的控制车身不要倾斜摔倒。

而“稀疏注意力”则是指我们已经熟练掌握骑车技巧，身体可以下意识的自动控制车辆，脑子的显意识里可以想回家的最优路线，以及晚上吃什么饭。

#DeepSeek发布技术论文# 《原生稀疏注意力：硬件对齐且可-20250219113053

正文

请到「今天看啥」查看全文