根据论文摘要,DeepSeek团队表示,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。
据悉,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。
NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。
一位网友评论道:“稀疏注意力机制确实能减少计算开销,DeepSeek的NSA架构虽然新颖,但在实际部署中,还得看具体应用场景和硬件优化,不能光看浏览量。”
“开源”激起AI迭代浪潮
1月20日,DeepSeek推出了人工智能模型DeepSeek-R1。此后,DeepSeek火遍全网。
2月18日,大模型创业公司阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。阶跃星辰称,AGI的实现离不开全球开发者的共同努力,阶跃星辰开源的初心,是希望跟大家分享最新的多模态大模型技术成果,为全球开源社区贡献一份来自中国的力量。
围绕开源,相关生态也不断建设与完善。
商汤相关负责人透露,面向开发者的一站式开源Agent应用开发框架——LazyLLM即将在2025全球开发者先锋大会亮相。据介绍,该框架以数据为核心,支持在应用开发过程中持续迭代数据,从而不断提升数据效果。该框架也能通过精细化模块设计和符合直觉的代码风格,使开发者能够更快地实现想法产品落地。
“为更好提供价值,商汤将保持产品开放性,接入更多、更好的模型。”商汤相关负责人表示,随着AI技术不断迭代,AI商业化最终落脚点还是在客户价值。如何更好服务C端和B端用户尤为关键。
技术迭代仍是大模型企业的攻关要点。“目前,团队正在底层生态方面加快自主创新。团队会加快优化‘线性注意力’机制,也将继续打造多模态模型。”MiniMax(上海稀宇科技有限公司)相关负责人告诉记者,高水平模型的持续开源,能够让更多人免费体验到优秀大模型的技术能力,这将进一步提高AI渗透率。