专栏名称: 上海证券报
《上海证券报》1991年7月1日伴随着新中国证券市场的建立而创刊,是我国第一张提供权威金融证券专业资讯的全国性财经日报。《上海证券报》是新华社重点报刊,中国证监会、保监会、银监会指定信息披露报纸。
目录
相关文章推荐
证券时报  ·  稳外资!两部门重磅部署! ·  昨天  
中国证券报  ·  百度发布业绩!李彦宏谈及DeepSeek ·  2 天前  
上海证券报  ·  DeepSeek“上岗”,机器人“上街”! ·  2 天前  
上海证券报  ·  两大险企,联合设立 ·  2 天前  
上海证券报  ·  明天,首席经济学家谈民营经济 ·  3 天前  
51好读  ›  专栏  ›  上海证券报

DeepSeek发布最新技术论文!梁文锋参与署名

上海证券报  · 公众号  · 证券  · 2025-02-18 22:01

正文


2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。据介绍,这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。


同时,记者注意到,在这篇论文的署名中,DeepSeek创始人梁文锋也作为共创在列。


DeepSeek发布最新技术论文报告


记者注意到,在这篇《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。



根据论文摘要,DeepSeek团队表示,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。


据悉,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。


NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。



一位网友评论道:“稀疏注意力机制确实能减少计算开销,DeepSeek的NSA架构虽然新颖,但在实际部署中,还得看具体应用场景和硬件优化,不能光看浏览量。”


“开源”激起AI迭代浪潮


1月20日,DeepSeek推出了人工智能模型DeepSeek-R1。此后,DeepSeek火遍全网。


2月18日,大模型创业公司阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。阶跃星辰称,AGI的实现离不开全球开发者的共同努力,阶跃星辰开源的初心,是希望跟大家分享最新的多模态大模型技术成果,为全球开源社区贡献一份来自中国的力量。


围绕开源,相关生态也不断建设与完善。


商汤相关负责人透露,面向开发者的一站式开源Agent应用开发框架——LazyLLM即将在2025全球开发者先锋大会亮相。据介绍,该框架以数据为核心,支持在应用开发过程中持续迭代数据,从而不断提升数据效果。该框架也能通过精细化模块设计和符合直觉的代码风格,使开发者能够更快地实现想法产品落地。


“为更好提供价值,商汤将保持产品开放性,接入更多、更好的模型。”商汤相关负责人表示,随着AI技术不断迭代,AI商业化最终落脚点还是在客户价值。如何更好服务C端和B端用户尤为关键。


技术迭代仍是大模型企业的攻关要点。“目前,团队正在底层生态方面加快自主创新。团队会加快优化‘线性注意力’机制,也将继续打造多模态模型。”MiniMax(上海稀宇科技有限公司)相关负责人告诉记者,高水平模型的持续开源,能够让更多人免费体验到优秀大模型的技术能力,这将进一步提高AI渗透率。







请到「今天看啥」查看全文


推荐文章
证券时报  ·  稳外资!两部门重磅部署!
昨天
中国证券报  ·  百度发布业绩!李彦宏谈及DeepSeek
2 天前
上海证券报  ·  DeepSeek“上岗”,机器人“上街”!
2 天前
上海证券报  ·  两大险企,联合设立
2 天前
上海证券报  ·  明天,首席经济学家谈民营经济
3 天前
北京小升初网  ·  【推荐】2018年小升初清朝人朝目标辅导班
7 年前
程序员大咖  ·  程序员简历应该怎么写?
7 年前