专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
昆明发布  ·  西服从天而降 无人机配送真的来了! ·  9 小时前  
春城晚报  ·  云南一医院宣布:集中清退! ·  昨天  
51好读  ›  专栏  ›  AI科技评论

GDC 2025全球开发者大会回顾:算法与算力的双重革新

AI科技评论  · 公众号  ·  · 2025-03-09 12:00

正文

本文来源于3C AGI Partners:
图片

2025年2月21日,全球开发者大会(Global Developers Conference, GDC) 在上海线下盛大召开。 本次大会聚焦人工智能技术的最新突破,围绕 算法 算力 两大核心议题展开深入探讨,展示了AI技术如何驱动产业升级与场景落地的最新成果。

作为AI领域的重要盛会,GDC吸引了全球顶尖的开发者、技术专家和产业领袖参与。大会中涵盖了从算法优化到智能算力升级再到具身AI的技术探索的诸多前沿主题,深入探讨了大模型、强化学习、稀疏化技术、算力适配和机器人交互等领域的最新趋势与应用。

以下是本次大会的核心内容总结,重点阐述算法和算力的技术跃迁与突破,以及 具身智能的探索与创新。我们诚邀您跟随3C,一起探索本次大会揭示的人工智能领域的最新进展和未来趋势,并分析这些发现对投资者可能带来的影响。


1

前沿洞察:算法、算力与具身智能的最新趋势

1. 算法趋势:从Dense模型到Sparse模型,从短序列到长序列,从单模态到多模态

本届大会上,关于算法的讨论聚焦在以下几个关键趋势:

  • 从Dense模型到Sparse模型:密集连接(Dense)模型正向稀疏(Sparse)模型转型,参数量从千亿级增长到万亿级甚至十万亿级,同时通过稀疏化技术降低计算成本,提升效率。

  • 从短序列到长序列的演进:传统大模型多用于短序列任务,而未来的算法将进一步优化长序列建模能力,支持更复杂的输入场景,如超长对话生成、文档理解等。

  • 从单模态到多模态的转型:模型正在从单模态任务逐步扩展到多模态融合,能够统一处理文本、图像、视频等多种数据形式,提升模型的通用感知能力。

2. 算力趋势:异构算力与开发者生态的繁荣

算力是AI技术发展的基础支撑,本次大会上也探讨了多项算力趋势:

  • 开发者生态的爆发:算力门槛的降低正在推动开发者生态的繁荣,结合算力资源与工具链支持,开发者能够更高效地完成大模型的训练、微调和应用发布。这种趋势将进一步推动AI技术的普及,也可能对传统技术岗位带来一定冲击。

  • 云算力的灵活性:云算力设施正在向高性能GPU集群方向发展,同时电力成本优化也成为关键考量因素。具备灵活API调用和高显存支持的云服务,能够更好地满足大模型训练和推理任务的需求。

3. 具身智能趋势:虚拟与现实的深度融合

具身智能(Embodied AI)领域也成为本次大会的重要探讨方向。相关技术正在推动虚拟智能体与物理机器人之间的深度融合,从虚拟仿真环境到实际设备执行任务的闭环正在逐步建立。未来,具身智能将在工业机器人、家庭服务和多模态交互等场景实现更多落地。


2

核心内容:算法与算力的双重 革新
1. 算法:技术跃迁与未来趋势
稀疏注意力机制与长序列优化

稀疏注意力机制正在成为大模型算法优化的关键方向,尤其是在处理长序列任务时,其在计算效率和资源利用率上的优势逐步凸显。

NSA(Native Sparse Attention):硬件对齐的稀疏注意力

Deepseek最新的论文提出了 NSA(Native Sparse Attention),这是一种专为处理长序列建模而设计的新型架构,通过利用Softmax Attention的内在稀疏性提升效率。NSA在理论与实际应用中实现了真正的性能突破,其核心创新包括:

  • 硬件对齐的推理速度优化:通过内存高效算法减少在预填充和解码阶段的计算瓶颈,实现与FlashAttention相当的推理速度。

  • 训练感知的算法设计:引入可训练的操作符,降低训练成本,同时保留模型性能。

NSA借助Triton实现硬件对齐的稀疏Attention内核,并采用共享KV缓存(如GQA/MQA)优化大语言模型的内存和计算效率。其关键创新在于内核设计:

  • 查询分组(GQA分组):将共享稀疏KV块的查询分组加载到SRAM中,避免了低效的内存访问模式。

  • 双循环操作:外部循环加载查询至SRAM,内部循环获取稀疏KV块并在SRAM中完成Attention计算。这种设计最大化了算术强度,优化了内存利用率。

通过这些硬件感知的优化设计,NSA成功在理论稀疏性与实际部署之间架起桥梁,在推理和训练任务中均达到了近乎最佳的性能。

MoBA(Mixture of Block Attention):动态稀疏化的突破

月之暗面最新提出的 MoBA(Mixture of Block Attention) 架构,则通过引入动态稀疏化技术,显著降低了长序列模型的计算成本,同时保留了复杂任务中的模型表现力。MoBA的创新点在于:

  • 块稀疏注意力(Block Sparse     Attention):通过分块机制将上下文分割为多个块,并采用门控机制(Gating Mechanism)为每个查询Token动态选择最相关的KV块,从而降低计算成本。

  • 动态路由:引入类似Mixture     of Experts(MoE)的动态选择策略,使每个查询Token仅与相关块交互,从而实现高效的计算分配。

实验结果表明,MoBA显著提升了长序列任务的效率,尤其在涉及大量上下文信息的任务中表现出色。其架构不仅减少了训练和推理成本,还为长序列建模提供了可扩展的解决方案。

推理与强化学习的结合:PPO与GRPO的对比

在推理与强化学习的结合领域,阶跃星辰在GDC的开放日提到了他们在强化学习算法领域的最新研究。

Deepseek团队的R1论文曾经介绍了 GRPO(Grouped Policy Optimization),一种无需值模型的强化学习方法。GRPO通过分组评分替代传统的值函数估计,大幅降低了训练资源需求。当与Deepseek-V3-Base模型结合时,GRPO在数千次强化学习步骤后展现出强大的推理能力,并在推理基准测试中表现优异。

PPO的极简优化与开源突破

然而,Harry Shum和姜大昕团队的研究表明,GRPO并非推理模型的必要条件。他们提出了一种极简的强化学习方法,基于标准PPO(Proximal Policy Optimization)与GAE(广义优势估计)相结合,辅以简单的规则化奖励策略,成功开发了 Open-Reasoner-Zero——首个开源大规模推理强化学习框架。

  • 低资源成本:与Deepseek-R1-Zero-Qwen-32B对比,该方法仅需1/30的训练步骤即可在GPQA     Diamond基准测试中取得更优结果。

  • 全面开源:包括代码、参数配置、训练数据和模型权重,进一步推动推理强化学习领域的开放创新。

线性注意力机制的技术突破

Minimax作为全球首个商用 线性注意力机制 的公司,在会议中分享了其技术应用的最新成果。其核心技术在于通过优化Transformer架构,解决了传统Attention机制在长序列建模中的 计算复杂度瓶颈。这一突破使得模型在处理复杂任务时的效率显著提升,尤其是在以下方面表现突出:

  • 长序列任务:当前大模型技术已从短序列迁移到长序列任务应用场景,例如复杂文档理解、超长对话生成等。Minimax的线性Attention机制可以高效处理 400万Token 的长文本输入,是GPT-4的20-30倍。

  • 多模态融合:线性Attention机制增强了不同模态(如文本、图像、视频等)之间的信息交互能力。这种优化使得多模态模型在统一感知与决策上更进一步。

此外,RWKV-7架构也在大会上受到高度关注。RWKV元始智能的创始人表示:

“RWKV-7引入高效高性能的训推一体设计,超越了attention/linear attention范式。”

RWKV-7以其高效高性能的设计获得了与会开发者的高度认可。许多开发者纷纷表示,未来将在更多实际场景中从传统Transformer架构切换到RWKV-7。RWKV团队还在会议期间展示了RWKV-7的实际应用成果和demo演示,进一步证明了其在推理效率、资源占用率和商业化潜力方面的价值。






请到「今天看啥」查看全文