GDC 2025全球开发者大会回顾：算法与算力的双重革新

AI科技评论 · 公众号 · · 2025-03-09 12:00

正文

本文来源于3C AGI Partners：

2025年2月21日，全球开发者大会（Global Developers Conference, GDC）在上海线下盛大召开。本次大会聚焦人工智能技术的最新突破，围绕算法与算力两大核心议题展开深入探讨，展示了AI技术如何驱动产业升级与场景落地的最新成果。

作为AI领域的重要盛会，GDC吸引了全球顶尖的开发者、技术专家和产业领袖参与。大会中涵盖了从算法优化到智能算力升级再到具身AI的技术探索的诸多前沿主题，深入探讨了大模型、强化学习、稀疏化技术、算力适配和机器人交互等领域的最新趋势与应用。

以下是本次大会的核心内容总结，重点阐述算法和算力的技术跃迁与突破，以及具身智能的探索与创新。我们诚邀您跟随3C，一起探索本次大会揭示的人工智能领域的最新进展和未来趋势，并分析这些发现对投资者可能带来的影响。

前沿洞察：算法、算力与具身智能的最新趋势

1. 算法趋势：从Dense模型到Sparse模型，从短序列到长序列，从单模态到多模态

本届大会上，关于算法的讨论聚焦在以下几个关键趋势：

从Dense模型到Sparse模型：密集连接（Dense）模型正向稀疏（Sparse）模型转型，参数量从千亿级增长到万亿级甚至十万亿级，同时通过稀疏化技术降低计算成本，提升效率。
从短序列到长序列的演进：传统大模型多用于短序列任务，而未来的算法将进一步优化长序列建模能力，支持更复杂的输入场景，如超长对话生成、文档理解等。
从单模态到多模态的转型：模型正在从单模态任务逐步扩展到多模态融合，能够统一处理文本、图像、视频等多种数据形式，提升模型的通用感知能力。

2. 算力趋势：异构算力与开发者生态的繁荣

算力是AI技术发展的基础支撑，本次大会上也探讨了多项算力趋势：

开发者生态的爆发：算力门槛的降低正在推动开发者生态的繁荣，结合算力资源与工具链支持，开发者能够更高效地完成大模型的训练、微调和应用发布。这种趋势将进一步推动AI技术的普及，也可能对传统技术岗位带来一定冲击。
云算力的灵活性：云算力设施正在向高性能GPU集群方向发展，同时电力成本优化也成为关键考量因素。具备灵活API调用和高显存支持的云服务，能够更好地满足大模型训练和推理任务的需求。

3. 具身智能趋势：虚拟与现实的深度融合

具身智能（Embodied AI）领域也成为本次大会的重要探讨方向。相关技术正在推动虚拟智能体与物理机器人之间的深度融合，从虚拟仿真环境到实际设备执行任务的闭环正在逐步建立。未来，具身智能将在工业机器人、家庭服务和多模态交互等场景实现更多落地。

核心内容：算法与算力的双重 革新

1. 算法：技术跃迁与未来趋势

稀疏注意力机制与长序列优化

稀疏注意力机制正在成为大模型算法优化的关键方向，尤其是在处理长序列任务时，其在计算效率和资源利用率上的优势逐步凸显。

NSA（Native Sparse Attention）：硬件对齐的稀疏注意力

Deepseek最新的论文提出了 NSA（Native Sparse Attention），这是一种专为处理长序列建模而设计的新型架构，通过利用Softmax Attention的内在稀疏性提升效率。NSA在理论与实际应用中实现了真正的性能突破，其核心创新包括：

硬件对齐的推理速度优化：通过内存高效算法减少在预填充和解码阶段的计算瓶颈，实现与FlashAttention相当的推理速度。
训练感知的算法设计：引入可训练的操作符，降低训练成本，同时保留模型性能。

NSA借助Triton实现硬件对齐的稀疏Attention内核，并采用共享KV缓存（如GQA/MQA）优化大语言模型的内存和计算效率。其关键创新在于内核设计：

查询分组（GQA分组）：将共享稀疏KV块的查询分组加载到SRAM中，避免了低效的内存访问模式。
双循环操作：外部循环加载查询至SRAM，内部循环获取稀疏KV块并在SRAM中完成Attention计算。这种设计最大化了算术强度，优化了内存利用率。

通过这些硬件感知的优化设计，NSA成功在理论稀疏性与实际部署之间架起桥梁，在推理和训练任务中均达到了近乎最佳的性能。

MoBA（Mixture of Block Attention）：动态稀疏化的突破

月之暗面最新提出的 MoBA（Mixture of Block Attention）架构，则通过引入动态稀疏化技术，显著降低了长序列模型的计算成本，同时保留了复杂任务中的模型表现力。MoBA的创新点在于：

块稀疏注意力（Block Sparse Attention）：通过分块机制将上下文分割为多个块，并采用门控机制（Gating Mechanism）为每个查询Token动态选择最相关的KV块，从而降低计算成本。
动态路由：引入类似Mixture of Experts（MoE）的动态选择策略，使每个查询Token仅与相关块交互，从而实现高效的计算分配。

实验结果表明，MoBA显著提升了长序列任务的效率，尤其在涉及大量上下文信息的任务中表现出色。其架构不仅减少了训练和推理成本，还为长序列建模提供了可扩展的解决方案。

推理与强化学习的结合：PPO与GRPO的对比

在推理与强化学习的结合领域，阶跃星辰在GDC的开放日提到了他们在强化学习算法领域的最新研究。

Deepseek团队的R1论文曾经介绍了 GRPO（Grouped Policy Optimization），一种无需值模型的强化学习方法。GRPO通过分组评分替代传统的值函数估计，大幅降低了训练资源需求。当与Deepseek-V3-Base模型结合时，GRPO在数千次强化学习步骤后展现出强大的推理能力，并在推理基准测试中表现优异。

PPO的极简优化与开源突破

然而，Harry Shum和姜大昕团队的研究表明，GRPO并非推理模型的必要条件。他们提出了一种极简的强化学习方法，基于标准PPO（Proximal Policy Optimization）与GAE（广义优势估计）相结合，辅以简单的规则化奖励策略，成功开发了 Open-Reasoner-Zero——首个开源大规模推理强化学习框架。

低资源成本：与Deepseek-R1-Zero-Qwen-32B对比，该方法仅需1/30的训练步骤即可在GPQA Diamond基准测试中取得更优结果。
全面开源：包括代码、参数配置、训练数据和模型权重，进一步推动推理强化学习领域的开放创新。

线性注意力机制的技术突破

Minimax作为全球首个商用线性注意力机制的公司，在会议中分享了其技术应用的最新成果。其核心技术在于通过优化Transformer架构，解决了传统Attention机制在长序列建模中的计算复杂度瓶颈。这一突破使得模型在处理复杂任务时的效率显著提升，尤其是在以下方面表现突出：

长序列任务：当前大模型技术已从短序列迁移到长序列任务应用场景，例如复杂文档理解、超长对话生成等。Minimax的线性Attention机制可以高效处理 400万Token 的长文本输入，是GPT-4的20-30倍。
多模态融合：线性Attention机制增强了不同模态（如文本、图像、视频等）之间的信息交互能力。这种优化使得多模态模型在统一感知与决策上更进一步。

此外，RWKV-7架构也在大会上受到高度关注。RWKV元始智能的创始人表示：

“RWKV-7引入高效高性能的训推一体设计，超越了attention/linear attention范式。”

RWKV-7以其高效高性能的设计获得了与会开发者的高度认可。许多开发者纷纷表示，未来将在更多实际场景中从传统Transformer架构切换到RWKV-7。RWKV团队还在会议期间展示了RWKV-7的实际应用成果和demo演示，进一步证明了其在推理效率、资源占用率和商业化潜力方面的价值。

GDC 2025全球开发者大会回顾：算法与算力的双重革新

正文

请到「今天看啥」查看全文