专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【[445星]EvalScope:一站式大模 ... ·  12 小时前  
爱可可-爱生活  ·  LLM的长文本处理为何频频“走神”?MuDA ... ·  18 小时前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250220074249 ·  昨天  
机器之心  ·  DeepSeek ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

DeepSeek的新论文,梁文峰也是作者之一介绍了NSA(Nat-20250219090223

黄建同学  · 微博  · AI  · 2025-02-19 09:02

正文

2025-02-19 09:02

DeepSeek的新论文,梁文峰也是作者之一 [赞]

介绍了NSA(Native Sparse Attention),一种与硬件对齐且可原生训练的稀疏注意力机制,旨在加速长文本处理的训练和推理速度。

NSA的核心组成包括动态层次稀疏策略、粗粒度的Token压缩以及细粒度的Token选择。通过为现代硬件优化设计,NSA在降低预训练成本的同时加快了推理速度,并能在通用基准测试、长文本任务和基于指令的推理中与全注意力模型匹敌或超越。

(1) NSA采用的动态层次稀疏策略,允许模型根据任务需求动态调整注意力的分布,从而有效利用计算资源。

(2) 粗粒度的Token压缩通过减少处理的Token数量来减小模型的负担,而细粒度的Token选择确保关键信息得以保留,从而不牺牲模型的性能。

(3) NSA的设计充分考虑了与现代硬件的兼容性,使其在执行长文本处理任务时更加高效。

(4) 研究结果显示,NSA在各种任务上的表现不仅快速而且高效,证明了其作为一种优化AI模型处理长文本能力的有效方法。

论文:arxiv.org/abs/2502.11089

#ai创造营# #DeepSeek# #科技#






请到「今天看啥」查看全文