#DeepSeek发布技术论文#
《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)
#DeepSeek最新技术论文梁文锋是共创之一#
论文PDF地址是➠
网页链接
如图1~图7所示——目前世界各国的AI竞赛,本质上就是数学模型收敛速度的比拼,谁的模型公式收敛最快,谁就最牛啤。
就像阿马努金的π收敛公式那样,两步就逼近了π,简直不像地球人。
deepseek这次更是直接祭出了“稀疏注意力”,替代了“全注意力”,相当于进化到了我们碳基人类的潜意识/下意识程度。
在超快速长文本训练与推理的过程中,省时省力,并且省显卡。
打个比方——“全注意力”就是我们还没有学会骑自行车的时候,需要满头大汗+小心翼翼的控制车身不要倾斜摔倒。
而“稀疏注意力”则是指我们已经熟练掌握骑车技巧,身体可以下意识的自动控制车辆,脑子的显意识里可以想回家的最优路线,以及晚上吃什么饭。
就像阿马努金的π收敛公式那样,两步就逼近了π,简直不像地球人。
deepseek这次更是直接祭出了“稀疏注意力”,替代了“全注意力”,相当于进化到了我们碳基人类的潜意识/下意识程度。
在超快速长文本训练与推理的过程中,省时省力,并且省显卡。
打个比方——“全注意力”就是我们还没有学会骑自行车的时候,需要满头大汗+小心翼翼的控制车身不要倾斜摔倒。
而“稀疏注意力”则是指我们已经熟练掌握骑车技巧,身体可以下意识的自动控制车辆,脑子的显意识里可以想回家的最优路线,以及晚上吃什么饭。