2025年2月21日,全球开发者大会(Global Developers Conference, GDC) 在上海线下盛大召开。
本次大会聚焦人工智能技术的最新突破,围绕
算法
与
算力 两大核心议题展开深入探讨,展示了AI技术如何驱动产业升级与场景落地的最新成果。
作为AI领域的重要盛会,GDC吸引了全球顶尖的开发者、技术专家和产业领袖参与。大会中涵盖了从算法优化到智能算力升级再到具身AI的技术探索的诸多前沿主题,深入探讨了大模型、强化学习、稀疏化技术、算力适配和机器人交互等领域的最新趋势与应用。
以下是本次大会的核心内容总结,重点阐述算法和算力的技术跃迁与突破,以及 具身智能的探索与创新。我们诚邀您跟随3C,一起探索本次大会揭示的人工智能领域的最新进展和未来趋势,并分析这些发现对投资者可能带来的影响。
1. 算法趋势:从Dense模型到Sparse模型,从短序列到长序列,从单模态到多模态
本届大会上,关于算法的讨论聚焦在以下几个关键趋势:
-
从Dense模型到Sparse模型:密集连接(Dense)模型正向稀疏(Sparse)模型转型,参数量从千亿级增长到万亿级甚至十万亿级,同时通过稀疏化技术降低计算成本,提升效率。
-
从短序列到长序列的演进:传统大模型多用于短序列任务,而未来的算法将进一步优化长序列建模能力,支持更复杂的输入场景,如超长对话生成、文档理解等。
-
从单模态到多模态的转型:模型正在从单模态任务逐步扩展到多模态融合,能够统一处理文本、图像、视频等多种数据形式,提升模型的通用感知能力。
2. 算力趋势:异构算力与开发者生态的繁荣
算力是AI技术发展的基础支撑,本次大会上也探讨了多项算力趋势:
3. 具身智能趋势:虚拟与现实的深度融合
具身智能(Embodied AI)领域也成为本次大会的重要探讨方向。相关技术正在推动虚拟智能体与物理机器人之间的深度融合,从虚拟仿真环境到实际设备执行任务的闭环正在逐步建立。未来,具身智能将在工业机器人、家庭服务和多模态交互等场景实现更多落地。
稀疏注意力机制正在成为大模型算法优化的关键方向,尤其是在处理长序列任务时,其在计算效率和资源利用率上的优势逐步凸显。
NSA(Native Sparse Attention):硬件对齐的稀疏注意力
Deepseek最新的论文提出了 NSA(Native Sparse Attention),这是一种专为处理长序列建模而设计的新型架构,通过利用Softmax Attention的内在稀疏性提升效率。NSA在理论与实际应用中实现了真正的性能突破,其核心创新包括:
-
硬件对齐的推理速度优化:通过内存高效算法减少在预填充和解码阶段的计算瓶颈,实现与FlashAttention相当的推理速度。
-
训练感知的算法设计:引入可训练的操作符,降低训练成本,同时保留模型性能。
NSA借助Triton实现硬件对齐的稀疏Attention内核,并采用共享KV缓存(如GQA/MQA)优化大语言模型的内存和计算效率。其关键创新在于内核设计:
-
查询分组(GQA分组):将共享稀疏KV块的查询分组加载到SRAM中,避免了低效的内存访问模式。
-
双循环操作:外部循环加载查询至SRAM,内部循环获取稀疏KV块并在SRAM中完成Attention计算。这种设计最大化了算术强度,优化了内存利用率。
通过这些硬件感知的优化设计,NSA成功在理论稀疏性与实际部署之间架起桥梁,在推理和训练任务中均达到了近乎最佳的性能。
MoBA(Mixture of Block Attention):动态稀疏化的突破
月之暗面最新提出的 MoBA(Mixture of Block Attention) 架构,则通过引入动态稀疏化技术,显著降低了长序列模型的计算成本,同时保留了复杂任务中的模型表现力。MoBA的创新点在于:
-
块稀疏注意力(Block Sparse Attention):通过分块机制将上下文分割为多个块,并采用门控机制(Gating Mechanism)为每个查询Token动态选择最相关的KV块,从而降低计算成本。
-
动态路由:引入类似Mixture of Experts(MoE)的动态选择策略,使每个查询Token仅与相关块交互,从而实现高效的计算分配。
实验结果表明,MoBA显著提升了长序列任务的效率,尤其在涉及大量上下文信息的任务中表现出色。其架构不仅减少了训练和推理成本,还为长序列建模提供了可扩展的解决方案。
在推理与强化学习的结合领域,阶跃星辰在GDC的开放日提到了他们在强化学习算法领域的最新研究。
Deepseek团队的R1论文曾经介绍了 GRPO(Grouped Policy Optimization),一种无需值模型的强化学习方法。GRPO通过分组评分替代传统的值函数估计,大幅降低了训练资源需求。当与Deepseek-V3-Base模型结合时,GRPO在数千次强化学习步骤后展现出强大的推理能力,并在推理基准测试中表现优异。
然而,Harry Shum和姜大昕团队的研究表明,GRPO并非推理模型的必要条件。他们提出了一种极简的强化学习方法,基于标准PPO(Proximal Policy Optimization)与GAE(广义优势估计)相结合,辅以简单的规则化奖励策略,成功开发了 Open-Reasoner-Zero——首个开源大规模推理强化学习框架。
-
低资源成本:与Deepseek-R1-Zero-Qwen-32B对比,该方法仅需1/30的训练步骤即可在GPQA Diamond基准测试中取得更优结果。
-
全面开源:包括代码、参数配置、训练数据和模型权重,进一步推动推理强化学习领域的开放创新。
Minimax作为全球首个商用 线性注意力机制 的公司,在会议中分享了其技术应用的最新成果。其核心技术在于通过优化Transformer架构,解决了传统Attention机制在长序列建模中的 计算复杂度瓶颈。这一突破使得模型在处理复杂任务时的效率显著提升,尤其是在以下方面表现突出:
-
长序列任务:当前大模型技术已从短序列迁移到长序列任务应用场景,例如复杂文档理解、超长对话生成等。Minimax的线性Attention机制可以高效处理 400万Token 的长文本输入,是GPT-4的20-30倍。
-
多模态融合:线性Attention机制增强了不同模态(如文本、图像、视频等)之间的信息交互能力。这种优化使得多模态模型在统一感知与决策上更进一步。
此外,RWKV-7架构也在大会上受到高度关注。RWKV元始智能的创始人表示:
“RWKV-7引入高效高性能的训推一体设计,超越了attention/linear attention范式。”
RWKV-7以其高效高性能的设计获得了与会开发者的高度认可。许多开发者纷纷表示,未来将在更多实际场景中从传统Transformer架构切换到RWKV-7。RWKV团队还在会议期间展示了RWKV-7的实际应用成果和demo演示,进一步证明了其在推理效率、资源占用率和商业化潜力方面的价值。