专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
机器之心  ·  为什么说DeepSeek的R1-Zero比R ... ·  3 天前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250130060712 ·  3 天前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250130061221 ·  3 天前  
爱可可-爱生活  ·  【[112星]mini_qwen:从零开始打 ... ·  5 天前  
51好读  ›  专栏  ›  机器之心

通过无限的后训练『补丁』,就能实现AGI吗?

机器之心  · 公众号  · AI  · 2025-02-02 09:30

正文

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。

o1 模型的推出将研究方向从预训练带向了推理层,尽管给大模型「打补丁」的方式取得了一定效果,但无限地通过扩展测试时间计算,就能实现通用人工智能吗?规模能扩展到什么程度?计算资源、时间成本问题如何解决?无限的知识和数据是否意味着大模型具有真实的泛化能力?

强化学习之父 Richard Sutton 这样形容当下的业内研究方向,「就像是在路灯下找钥匙的问题,我丢了钥匙会在路灯下找,因为那里能看见,尽管那可能不是钥匙所在的地方。」

分别来自阿尔伯塔大学、Google DeepMind的两项研究工作跳出了「在路灯下找钥匙」的视野范围,指出了实现更强 AI 的两个可能方向。


目录

01. o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?

o1 离 AGI 还有多远?在推理阶段给大模型「打补丁」之外,实现 AGI 还有哪些思路?
02. 阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能
流式深度 RL 方法有哪些优势?对 Richard Sutton 推崇的持续学习有何影响?
03. Google DeepMind 的「苏格拉底学习」:扩展实现 AI 自主、自我完善能力的重要途经
苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径?存在哪些挑战?
01  o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?
1、近期,OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 业内的关注点逐渐转向推理层。
2、 尽管 o1 等推理模型在复杂推理等方面的能力显著提升,但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑,从而输出正确结论。「测试时训练」技术像是一块「补丁」,通过给大模型一个「临时记忆」,临时调整反应,让大模型能够回答问题。尽管大模型能够输出正确的答案,但并不意味着其能真正理解或具有推理能力。
3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外,AI 业内的大佬们提出了一些不同的思路,如 Yann Lecun 提出的世界模型路线,Richard Sutton 提出的持续学习等。
4、近期,有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围,指出了实现更强 AI 的两个可能思路。
① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作,提出了一个新的深度强化学习算法「stream-x」,解决了流式深度强化学习中的流式障碍问题,为持续学习和终身学习提供了支撑;
② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法,即「苏格拉底式学习」,突破了传统训练数据的局限,是实现自主且自我完善的人工智能的重要途径。

02  阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能
1、阿尔伯塔大学近期的一项新工作,得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习(Deep Reinforcement Learning,DRL)算法「stream-x」,解决了流式深度强化学习中的流式障碍问题。[1]
① 「stream-x」算法能够在没有经验回放(Experience Replay)、目标网络(Target Networks)或批量更新(Batch Updates)的情况下进行有效的学习。
② 研究者发现,「stream AC」算法能够在没有存储和重用样本的情况下,通过实时处理数据流,实现与 PPO 算法相近的学习效果和任务性能,甚至在某些复杂环境中超越了批量强化学习算法的性能。
2、相比于目前主流的批量学习,流式学习有很大的发展空间,适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域,流式强化学习的优势更大......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。