专栏名称: 深度学习基础与进阶
一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
51好读  ›  专栏  ›  深度学习基础与进阶

AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

深度学习基础与进阶  · 公众号  ·  · 2025-03-19 11:18

正文


AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。
  • 论文标题:Atom of Thoughts for Markov LLM Test-Time Scaling
  • 论文地址:https://arxiv.org/abs/2502.12018
  • 项目地址:https://github.com/qixucen/atom

从 “长链推理” 到 “原子思维”:AoT 的诞生

大语言模型(LLM)近年来凭借训练时扩展(train-time scaling)取得了显著性能提升。然而,随着模型规模和数据量的瓶颈显现,测试时扩展(test-time scaling)成为进一步释放潜力的新方向。然而,无论是思维链(CoT)、思维树(ToT)等提示策略和推理框架,还是 OpenAI o1/o3 和 DeepSeek-R1 等推理模型,在推理时都过度依赖完整历史信息,导致计算资源浪费,同时冗余信息干扰有效推理。
具体来说,基于链的方法每进行一步推理,都需回顾已有的完整链条;基于树的方法则需要追踪祖先和同层节点;基于图的方法允许节点任意连接,进一步加重了历史信息依赖,导致计算复杂度上升。随着推理规模扩大,特别是以 OpenAI 的 o1/o3 和 DeepSeek-R1 为代表的推理模型,飙升的计算资源需求用于处理不断积累的历史信息。相比之下,人类推理倾向于将复杂问题拆分为独立的子问题,逐步解决并整合后续推理所需的信息,而不执着于保留每步细节。这种 “原子化思考” 启发了 AoT 的设计,使其专注当前状态的推理,摒弃历史依赖。
基于此观察,研究人员推出了 Atom of Thoughts(AoT),AoT 的核心洞察是:复杂推理可通过一系列轻量的 “原子问题” 实现,这些问题的执行仅依赖自身,摆脱历史信息依赖。AoT 将推理过程构建为马尔可夫过程(Markov process),通过不断进行状态转移,逐步简化问题并始终保持和原问题等价,最终求解轻量的原子问题来回答原问题。
AoT 论文 X 平台获得近 40 万浏览量,并获 NLP 巨匠、2024 冯诺伊曼奖得主 Christopher Manning 转发。

AoT 如何推理?由拆解收缩双阶段组成的马尔可夫转移过程

在马尔可夫过程中,状态从原问题 Q0 初始化,问题所需的推理时间可通过拆解生成的 DAG 结构复杂度反映。随着拆解和收缩迭代,当前状态 Qi 的推理时间逐步降低。
AoT 的一次状态转移由两个核心步骤组成:拆解(Decomposition)和收缩(Contraction)。这两个步骤共同完成一次状态转换,生成一个简化的问题作为下一轮拆解与收缩的 “原问题”。这一过程不断迭代,直到达到最大次数限制 —— 该限制由首次拆解生成的图的深度确定,以避免无限循环。






请到「今天看啥」查看全文