2月25日,谷歌 DeepMind首席科学家Jack Rae接受访谈,就谷歌思维模型的发展进行深入讨论。
Jack Rae指出,
推理模型是
AI
发展的新范式
,
推理模型并非追求即时响应,而是通过增加推理时的思考时间来提升答案质量,这导致了一种新的Scaling Law,
“慢思考”模式是提升
AI
性能的有效途径。
Jack Rae认为长语境对于推理至关重要 ,“延长上下文、加速运算、降低成本”这一循环过程将持续推进。
Jack Rae表示,无限语境可能存在一个模糊的边界。用户真正需要的或许不是无限的输入长度,而是模型能够有效地处理和利用长语境信息,并在合理的时间内给出高质量的答案。此外,他还指出,推理模型是构建强大 AI Agent 的核心驱动力。
以下是本次对话实录,经翻译编辑:
Logan:
在今天的节目中,我们邀请到了Google DeepMind的首席科学家Jack Rae,他也是Gemini推理项目的主要负责人之一。欢迎你,Jack。
Jack:
你好,Logan。感谢邀请。
Logan:
Jack,你能否快速介绍一下,推理模型在最基本的层面上究竟是什么?
推理模型的定义
Jack:
如果我们先考虑预训练模型,它可能已经吸收了大量关于世界的有用知识。而推理模型的关键直觉在于,它会尝试将这些知识组合应用于可能新颖或前所未见的特定场景。它会尝试超越已知信息进行泛化。
推理过程实际上就是对已知信息的整合,并可能在逻辑上遵循一系列陈述。
也许它还会进一步探究问题本身,或者更深入地探究自身的知识体系。正是这种组合过程,使得模型能够在全新的场景中实现真正的泛化,而这正是我们所定义的推理。
Logan:
对于不熟悉我们在推理领域工作的朋友们,你能否简要概述一下我们在过去两个月里发布了哪些成果,以及我们目前的进展?
Jack:
当然。我们有一个推理模型,名为Gemini Flash Thinking。它目前已经发布,你可以在AIStudio上免费使用。这款模型速度非常快,而且功能强大。它在速度和能力之间实现了很好的权衡。目前,它的工作原理主要是,我们对其进行了训练,使其在回答问题时能够生成大量的中间思考步骤。如果你在AI Studio上用自然语言提出一个复杂的问题,你可以查看、检查和阅读模型在回答问题时生成的这些中间思考过程。这些思考步骤有助于模型处理问题,收集中间细节,搜索或推理各种不同的方法(如果问题很困难),并最终帮助模型找到更正确或更合理的解决方案。这就是我们一月份发布的模型。实际上,我们一直都在快速迭代。我们在去年12月份也发布了一个版本。所以,Gemini Flash Thinking就像是V2版本,目前仍处于实验阶段,因为我们还在不断迭代并收集反馈。这就是我们目前的进展。
Logan:
你能再简要概括一下,这些模型实际上是用来做什么的吗?
推理模型的应用场景
Jack:
我认为,
对于许多不需要模型立即响应且对延迟不敏感的用例来说,推理模型都非常适用。
例如,在编码应用中,如果你希望模型编写一段重要的、有一定难度的代码,比如构建一个React组件,并且你已经详细说明了你的需求,那么模型可能需要首先深入思考它需要导入哪些库,以及如何构建这个组件。实际上,你需要的是这样一种模型:它能够在真正开始编写第一行代码之前,就先规划和思考任务的各个方面。这只是推理模型应用的一个例子。另一个例子可能是,你有一份可能非常复杂的财务文件,可能有数百页,包含图表和文本。你需要提取的信息并非仅存在于单一位置,无法通过简单的查找完成,而是需要汇总多处信息。在这种情况下,你可能也需要一个模型,它能够首先思考可以从哪些地方查询信息,然后收集这些信息,并利用一些思考token——即一些文本——来整合信息,最终得出解决方案。因此,这两种情况都属于复杂任务。你愿意为了换取模型在给出答案前进行思考而接受一定的延迟。你对答案的质量有更高的期望。我认为以上这些都是人们需要推理模型的典型应用场景。
Logan:
我很喜欢你说的这些。关于这一点,我想快速追问两个问题。第一,如果大家还没看过那张图表,我记得它应该在GDM网站的推理/思考版块。图表显示,许多指标都呈线性上升趋势,这让我感到非常兴奋。稍后我想深入探讨一下这张图表。但在我们深入了解模型性能提升的进展之前,我想先问一下,如果我只是一个日常的大语言模型用户,比如通过常用的聊天应用程序、Gemini应用程序或其它外部界面来使用大语言模型,那么,对于像我这样的普通用户,或者说不是开发者的用户而言,模型具备推理能力究竟能带来什么?
Jack:
我认为,最重要的提升是能力增强。过去,我们会训练一组预先设定好的、不同规模的预训练模型,它们会使用不同的计算量来响应你的问题。规模较大的模型会消耗更多计算资源,但也意味着模型可能更复杂,更理解你的问题意图,从而给出更好的答案。现在,我们有了一种新的方案,可以利用现有模型,无需扩大模型规模,而是花费更多推理时间进行计算。本质上,通过增加思考时间,模型能够尝试完成原本超出其能力范围的任务,避免在没有充分思考的情况下仓促给出答案。因此,对于普通用户而言,我认为在许多对延迟不敏感的场景中,当你寻求更高确定性的答案,或者希望体验更强大的未来模型时,这种特性就显得非常直观且实用,你也愿意为此等待模型进行更深入的思考。
推理模型是新范式,模型“慢思考”,能力大幅提升
Logan:
我不知道是否只有我一个人有这种感觉,我很想知道其他人或听众的想法。但我发现,仅仅让模型思考更长时间就能获得更好答案,这非常不符合直觉。你可能会认为模型有一个基本能力水平,能够解决一定难度的问题,在少数情况下,深入思考可能会帮助以不同方式解决问题。但通常情况下,用同样的智力水平重新审视自己的工作,为何能带来更好的结果呢?所以我很想知道,是否存在一些潜在的原则或机制,使得更多思考或花费更多tokens进行推理与模型给出更好答案之间存在关联?我很想知道,你是否了解更多相关背景。
Jack:
我认为,实际上这非常直观,即使对于人类而言,我们在回应之前也会花更多时间思考。我们有所谓的“快思考和慢思考”的概念。我们可能会有一些直觉的初步反应。也许这些初步反应很大程度上受到语言模型强烈先验知识的引导,即答案应该是什么。但是,一旦我们真正开始详细阐述要说的逻辑过程或进行更深入的思考,就可能会发现错误。我们会发现最初提出的一些条件,然后意识到其中一些实际上没有意义,需要重新评估。因此,我们可以进行批判,可以进行修改。我们还可以探索多种方法来尝试解决问题,即使我们不太确定如何准确解决,我们会尝试多种不同的方法。
很多情况都发生在模型进行更长时间思考时。反过来,这通常会使其更准确。
Logan:
关于我们在推理模型方面取得的进展。我们在12月发布首个2.0flash版本后不久,就发布了第一个推理模型,并分享了一系列进展。评估指标非常出色。紧接着在1月21日,我们又推出了第二个版本的思考模型。与此同时,世界现在对推理模型以及能够思考并在推理时计算、测试时计算的模型感到非常兴奋。从您的角度来看,是什么促成了如此快速的创新步伐?是数据效率的大幅提升吗?还是算法取得了大量突破,亦或是计算资源变得充裕了?那么,究竟是什么在驱动这种能力在如此短时间内实现疯狂的提升呢?
Jack:
我们现在看到的确实是
一个新的范式。我们发现了多种途径可以在推理时间上投入更多计算资源,就像在响应过程中,模型正在输出思考
Token
。这导致了一种新的
Scaling Law
,
即如果我们不断增加在X轴上的推理算力投入,并采用对数刻度,X轴为对数刻度,Y轴为我们关心的指标,比如数学或编码任务。我们观察到一种对数线性关系,性能呈线性增长,而推理时间算力则呈指数增长。尽管这些推理时间算力的范围完全在我们可用的算力领域之内,因为我们一直在扩展高性能计算集群,以服务于大语言模型。我们具备这种能力,并且一直在投资以获取更多高性能算力用于预训练。现在,我们可以将这些算力重新用于另一种计算范式,这就像一道闪电击中我们一样,因为这在很短时间内发生,而且我们确实看到了令人印象深刻的能力提升,与过去几年相比,这是肯定的。我认为这是一个值得关注的现象。
Logan:
作为一个快速的跟进,您最初的职业生涯是做预训练相关的工作。您能回顾一下您从预训练到今天所做的工作吗?
Jack:
过去五年或六年,
预训练工作实际上主要集中在扩展算力上,
包括扩展训练规模,以及在预训练大语言模型时所使用的数据量和每秒浮点运算次数。这也有一个非常符合经验规律的现象。大语言模型的可压缩性、负对数似然与训练所用的算力之间存在幂律关系。在过去的五六年里,这一直是改进AI语言模型的指导方向。
现在我们有了一个新的方向。
所以,我觉得这也许是我思考AI如何进步的方式。AI的进步往往伴随着新发现的、但又符合经验规律的现象。我们通常需要做的就是遵循这些现象,以提高整体能力。
Logan:
也许这是一个有点奇怪的后续问题。您认为,如果我们回到大约一年半以前,甚至不是六年,考虑到那时GPT-3时代早期模型的能力水平,我们是否能够做到今天我们正在做的事情?或者说,是否需要一个循序渐进的过程,基础模型必须变得足够强大,推理能力才能真正开始发挥作用?因为最终,模型正在进行某种内在反省,或者无论如何定义模型在思考时如何看待Token才更合适。我们是否需要所有其他基础模型的进步才能实现今天的成果?
Jack:
我认为这是一个非常好的问题。现在看来很明显,拥有一个非常强大的基础模型,几乎使这项发现变得异常容易。你有一个更强大的模型,它实际上已经在互联网上阅读了大量的自我批评或推理的例子。因此,它已经对如何使用这些工具,以及工具箱的概念有了一定的理解。当我们用强化学习训练它时,我认为这些工具又重新显现出来,并且模型非常擅长详细地推理事情,捕捉错误等等。因此,拥有一个强大的基础模型,使得发现这种方法变得非常具有吸引力。我不知道如果我们使用一个较弱的模型会怎么样,也许这些能力也可能出现。我认为这是一个很好的问题。我认为要建立起这样一套系统会更加脆弱,以至于所有组件都能协同工作并启动。但是,是的,我猜想人们肯定会尝试这样做,因为大家都喜欢使用尽可能小的模型。而且我猜想人们会尝试探索这种想法。
Logan:
我有一个随机的题外问题。模型是否有可能花费大量时间进行推理,但实际上对改进结果没有任何帮助?就像他们只是在说一些随机的东西,或者自言自语,或者制定一个最终没有成功的计划,就像人类有时也会做的那样。我们是否看到过这种情况发生?或者,如果发生这种情况,这是否属于评估数据集的问题?
Jack:
你肯定可以找到很多关于思考模型的有趣例子,尤其是在处理比较棘手的数学问题时。一开始可能存在一个简单而优雅的解决方案,但模型可能一开始就走错了方向,然后花费大量时间思考,结果却陷入了最初的错误想法中,无法摆脱。是的,我认为我们已经看到过这样的情况。我们一直在努力训练模型,使其变得更好。我猜这有点像模型版本的怯场。模型似乎执着于某个特定的想法,然后就卡在这个想法里,无法跳出来,说出真正有用的东西。但是,这种情况确实会发生,我们也在不断改进模型。所以,这种情况可能会偶尔发生,但频率不高。
Logan:
Jack,您和我们都多次提到过这一点。您之前是正式从事预训练相关的工作。我想我对您在DeepMind的一些经历有所了解,您能否重点介绍一下,在今天您和Nome共同领导Gemini的推理工作之前,您主要从事哪些方面的工作?
Jack:
我在2014年加入了位于伦敦的DeepMind,当时正值谷歌收购DeepMind不久后。从一开始,我就专注于内存系统的研究。那时,DeepMind的主要精力都集中在用于游戏的强化学习上,尤其是Atari游戏。因此我在强化学习领域做了很多关于内存方面的工作。一些Atari游戏需要相当大的内存,比如《Montezuma'sRevenge》这类游戏,玩家需要在迷宫中探索,可能需要记住捡拾的物品或去过的地点。但在某个时候,我个人对更贴近真实世界的任务产生了浓厚的兴趣,希望借此评估内存系统。语言建模恰好是其中之一,它尤其吸引我,因为语言建模需要使用内存,而且使用方式多种多样。不仅仅是简单地回忆过去提到的具名实体等事实性信息,还可能需要关联关键细节,有时还需要积累信息。我感觉语言建模就像是一个需要AGI才能完全解决的任务,同时也以多种不同的方式运用了内存。因此,我当时主要关注的是,用现在的术语来说,可以称之为用于语言建模的长上下文。后来,当GPT-2模型发布后,它让我意识到,我一直专注于扩展语言模型的上下文长度,但对扩展数据算力的关注还不够。因此,我们转移了研究重点,并在DeepMind伦敦启动了一项大规模的语言建模工作。我们在那个方向上进展迅速,并且成为首个在谷歌跨多个TPU Pod训练大语言模型的团队,我们在2020年实现了这一目标。我在大规模语言模型扩展方面获得了许多乐趣。我想在主要从事语言模型研究工作八年后,我在去年决定完全转变研究方向,转而研究思考。因此,我更多地回到了强化学习领域,并与来自Google DeepMind的一组杰出的后训练和推理研究人员合作,当然也包括与Nome合作,他一直是我非常仰慕的语言建模领域的明星研究员。我读过他所有的论文。所以,他是一位非常棒的合作伙伴。是的,这一切都发生在最近五六个月内。因此,从某些方面来看,这仍然是一个相当新的转变。
长语境的关键作用
Logan:
我从中体会到的一点是,当前的创新实际上在很大程度上是建立在先前的创新之上的。也许我理解有误,Jack,您需要帮我确认一下,但所有这些创新似乎都是在先前创新的基础上迭代发展的。我之前没有将这些联系起来,但现在感觉,就像我们之前讨论的,优秀的预训练和后训练模型可能是实现推理能力的前提。长上下文似乎也是如此。模型需要能够对非常长的输出和输入进行推理。您是否认为,
如果我们没有长输出或长输入,我们今天就无法利用推理模型实现现在的成果?
Jack:
我认为这些能力扩展带来的倍增效应真的很酷。显然,
在竞相扩展
Gemini
的上下文长度时,我们并没有预见到这会成为一个应用方向。
但关键在于,如果你不断构建这些能力,它们往往会产生巨大的附加值。所有你已知的功能用途固然有用,但那些我们未曾预料到的用途,往往最令人惊喜。所以我完全认同,我们能够提供快速思考能力,不仅支持超长上下文,还能以超长输出来呈现结果,这非常酷,而且长上下文的创新是解锁这一能力的关键所在。
Logan:
是的,趁着今天采访你的机会,我必须向你请教一个问题。我们已经见证了100万token上下文,以及200万token上下文。很久以前我们就提到过,从理论研究角度来看,1000万token上下文是有可能实现的。作为长期从事上下文研究的开发者之一,我认为开发者们会持续要求扩展上下文长度。我们该如何持续扩展上下文呢?你认为我们现有的方法是否还能支持我们扩展到1000万甚至更长的上下文?如果要将上下文窗口扩展到100万到200万token以上,是否需要技术突破或另辟蹊径?
Jack:
通常,当我们取得新发现,并找到提高效率和降低成本的方法时,成本降低就会随之而来。对于长上下文而言,我们不仅延长了上下文长度,还经常找到加速和降低成本的途径。
我认为
“延长上下文、加速运算、降低成本”这一循环过程将持续推进。
目前,许多有待探索的研究方向都展现出推动这一进程的潜力。我也认为“无限上下文”的概念很有意思。感觉在某种程度上,无限上下文的定义以及何时能称之为“无限”将变得模糊。但我认为很多人确实希望感受到,他们可以持续输入任意数量的历史记录和数据,而模型能够真正理解所有内容,关联所有信息,并能非常出色地加以应用。我认为,这就是人们理想中的“无限上下文”。这感觉是有可能实现的。我真的不认为这实际上需要研究上的突破。我不认为这是科幻小说般的幻想,我认为我们已经具备大部分要素,剩下的只是工程实现了。这只是我的猜测。
Logan:
让我们来谈谈关于模型思考能力的开发者用例。我认为我们已经看到了很多,我个人已经看到了很多围绕编码的激动人心的应用。开发者们正在探索各种各样新奇的用例。你提到了财务分析的用例,我认为它非常有前景,并且能够创造巨大的价值。实际上,在深入探讨这些用例之前,我想先了解一下,从研究角度来看,你们的研究目标是如何设定的?例如,你们是否认为“我们需要通过评估指标来衡量模型的能力,因此我们设计了许多优秀的学术评估方法”?或者,你们构建推理模型的目的是“为了让推理模型擅长我们预期的特定用例,因为市场反馈表明这些用例具有商业价值”?从研究方法论的角度来看,你们是如何做的?
Jack:
研究方向的选择,以及评估指标的选取,实际上都非常微妙。你可能会想当然地认为,将所有你关心的事物和能力的评估指标都集中起来,会更有利。但实际情况往往是,这样做细粒度的信号反而会被掩盖,关键算法的开发也会变得更加困难。因此,我们通常会专注于非常具体的基准,这在外界看来可能有些奇怪。这并非因为我们真的认为这些基准本身是衡量模型能力的绝对指标,而是我们认为,这些基准有助于我们理清思路,从而更好地进行算法的开发和改进工作。
然而,我们仍然会进行更广泛的评估,以此来要求自己,确保在各个方面都能取得进步。因此,我认为我们的工作方式是将这种“内部循环”和“外部循环”结合起来。“内部循环”侧重于小范围的评估,而“外部循环”则更贴近开发者实际的应用场景。我们始终致力于不断改进评估方法。我们不断创新,并持续扩充评估指标,这几乎与算法开发本身同等重要,因为只有能够有效衡量,才能获得有意义的反馈信号。以上就是我对“内部循环”和“外部循环”的理解。目前,我认为我们在算法上取得了一些非常重要的突破,我们希望能借此全面提升Gemini模型的通用推理能力。我们希望模型在任何领域都能有效运用思考能力,并切实提升性能。
因此,我们不断寻找思考能力尚未充分发挥作用的领域,并对自身保持高标准要求。我认为,目前的闪电思考在代码生成方面已经表现出色,但我们仍有更高的目标。因为我们身处一个快速发展的竞争环境中。因此,
代码生成领域是我们关注的重点,我们需要投入额外的精力,确保推理能力能够充分提升代码在各种应用场景下的性能。
这是我目前重点思考的问题之一。
Logan:
因此,你我一直在努力推动Gemini最新版本,希望为“Gemini思考模型”启用工具功能。目前,我们已经启用了代码执行功能,并正积极探索将搜索功能也整合为工具。但一直让我有些困惑的是,为什么模型在思考过程中不能使用工具?人类在验证工作成果时,会自然而然地使用各种工具,例如计算器、文字处理器和互联网等等。你认为,对于这些推理模型而言,未来在多大程度上应该仅仅依赖于自身的“思考”和原始token?而不是在思考过程中配备一套工具,从而产出更优质的结果?
Jack:
完全正确。我完全认同模型在思考过程中会越来越多地使用工具,以便深入理解问题的核心和本质。工具的意义在于增强模型的能力。模型不仅需要学会使用代码执行和搜索工具,还需要学习使用各种其他类型的工具。我们可以预见,未来工具的种类将更加多样化。据我所知,在Gemini应用程序中,模型通常已经可以使用其他工具,例如搜索、地图集成以及其他Google内部集成的工具。总而言之,我认为这是一个非常有趣的发展方向,它能提升模型的“能动性”,不仅在执行操作时,甚至在思考时也是如此。这非常重要。
Logan:
Jack,我们刚才讨论了工具等问题,而工具恰恰是用户反馈中最集中的一点。实际上,除了长上下文之外,在最初的用户反馈中,开发者们集中反映了两点:一是希望模型支持更长的上下文(例如100万token甚至更长),二是希望Gemini模型能够支持工具和函数调用等功能。开发者们还表示,希望模型能够像之前的Gemini模型一样,支持工具使用、函数调用以及其他功能。你刚才也提到了用户反馈的重要性。那么,从你的角度来看,开发者反馈对模型发展方向、功能发布等方面究竟起着怎样的影响?
Jack:
是啊,当然。我很高兴能尽快发布一个实验性模型,这样我们就能开始了解用户如何使用它,用户在使用过程中遇到了哪些困惑,以及他们的反馈是什么。实际上,长上下文功能让我有些意外,说来也挺有意思的。我当时完全专注于思考推理能力本身,甚至没有意识到32K上下文可能无法满足用户的需求。模型发布后,我向一些正在研究中使用推理模型的学者询问他们的使用体验如何。他们表示,他们面临两难:既想输入大量论文,又想深入探讨技术主题,但32K的上下文长度限制了他们。所以他们要么选择Flash模型,并将所有内容放入上下文中(因为Flash模型当时支持长上下文),要么使用Flash Thinking模型,但只能选择一篇论文或相关材料进行分析。我这才意识到,这完全超出了我的认知,直到现在我们才意识到这个问题,我们会尽快解决它。
另一个问题是,这只是一个相对简单的问题。在去年12月份发布时,如果用户尝试在API层面将模型从Flash切换到Flash Thinking,则需要修改代码,因为当时API会同时返回思考过程的内容和最终答案。因此,用户如果不注意调用模型的方式,可能会从思考内容中错误地提取答案或期望的输出。这个问题给一些运行基准评测的用户造成了困扰。所以,我们进行了一些沟通和指导,但也意识到,下次我们应该改进,以便用户能够无缝切换模型并正常使用。那么,我们该如何实现这一点呢?在1月份的更新中,我们默认关闭了思考过程内容的输出,因为这个功能确实容易引起混淆。是的,以上就是我们收到的一些反馈。我知道你处于各种反馈意见的中心。我很好奇是否有让你觉得特别有趣或意外的反馈?
Logan:
是的,问得很好。我认为你说的“风暴眼”这种说法非常贴切。我目前最大的挑战是如何有效地收集开发者反馈,并传递给像Jack这样的人,并确保这些反馈能够付诸行动。我认为最有趣的反馈之一,也让我想起了去年12月首次发布推理模型时,我分享过的一张图片,是关于多模态性能的。我看到许多非常棒的用例,而且并非模型在多模态处理上犯了什么明显的错误,而是用户普遍在积极探索多模态能力。
这与我们之前讨论的许多话题都息息相关:这些新功能的出现,确实全面提升了开发者们关注的所有应用场景的性能。所以我个人非常期待看到多模态推理领域即将迎来的突破。因为目前,关于生成式AI的讨论,要么过于关注代码生成,要么过于关注文本处理,但似乎缺乏对多模态推理的系统性阐述。不过,我已经注意到在Twitter和其他平台上出现了一些初步的探索。所以我期待开发者们能深入挖掘多模态推理的潜力。
Jack:
是啊,这真是个很好的观点。我实际上认为,像Gemini Flash Thinking模型在图像方面,例如视觉推理,它非常强大。我实际上认为我们真的没有充分强调它。这是我实际上也觉得它非常有用的一个领域。我一直在大量尝试它。是的,我认为这是因为基本上公平地说,在整个Gemini模型系列中,图像,例如视觉推理,然后还有视频推理一直都是被重点强调的东西。我们试图使Gemini成为多模态优先的某种项目,而且我认为它真的得到了回报,我们没有,这是真的。我们真的没有充分告诉人们关于它的信息。
Logan:
是啊,我有一个问题,之后我想聊聊Agent。我觉得这就像一个非常重要的方向,回归到开发者们对什么感到兴奋?我认为大家想要构建智能体,但在我们深入探讨智能体、工具使用等等之前,我想先问一下。为什么推理模型在数单词中的字母时会遇到困难?还有,你是否从叙事的角度思考过,为什么这个用例会如此受到关注?我们之前也来回讨论过很多次,关于数草莓里“R”字母的例子。为什么这对推理模型来说会成为一个问题呢?
Jack:
数草莓里的“R”字母简直是我们的噩梦,我们存在的噩梦。我认为坦诚的回答是,根本问题在于模型的分词,我个人也对根本原因感到好奇。但是,当你让模型数草莓中“R”的数量时,我认为,如果我们回顾一下这个问题出现的历史,因为我稍微研究了一下,我认为这实际上是在GPT-4发布后开始流行起来的一个测试,因为它相对于GPT-3.5出现了退步。GPT-3.5通常会回答“三个”,而GPT-4出于某些原因通常会回答“两个”,然后很多人指出了这个问题。之后人们开始用它作为一种测试,这个问题就变得流行起来,所以它实际上比推理模型更早出现。
然后我的感觉是,来自OpenAI方面,随着各种传言,你经常会看到人们将OpenAI正在研发的某种神秘算法与“草莓里有多少个R”这个问题联系起来。所以它在这方面变得有点像病毒式传播。但是,为什么这对这些模型来说具有挑战性呢?我认为可能是因为某些PDF文本在进行光学字符识别(OCR)时,双“R”被映射到了一个奇怪的双“R”Unicode字符,导致模型对这些字符的确切作用感到不确定。模型不是逐字符阅读文本的。我们首先使用tokenizer将文本预处理成tokenized形式,我认为这最终变成了一个有趣的对抗性任务,尽管模型理解很多很多事情,一旦你将token组合在一起形成单词和概念,但这种细枝末节的、单词本身组成的细节,在可靠性方面仍然让模型感到困惑.这就是我的看法。但是,我也不确定具体原因。
Logan:
我有一个可能有点silly的后续问题,为什么我们不能轻松地训练模型来解决这个问题呢?如果Tokenization是根本限制,为什么我们不直接加入一些额外的步骤,比如将一个词按字符拆分,然后在字符周围添加一些buffer,让模型以计算单词字母为训练任务来训练模型?或者说,问题实际上是在于获取单词并在那个过程中拆分它?
Jack:
不,我认为如果你创建一个任务,一个强化学习任务,即使模型目前在Tokenization方面存在问题,需要拼写单词,需要数字母,模型仍然可以学会可靠地完成这项任务。而且我认为,这并不是人们专门策划的任务,因为它确实是一个很奇怪的任务。但是,是的,这确实是解决问题的另一种方法。
Logan:
Jack,你是否可以介绍一下推理技术创新的时间线?我的个人感受是,看到我们在过去两三个月里取得的巨大进步,我感到非常兴奋,而且我认为很多内部人员也有同感。
Jack:
你可以把时间拨回到十月份,那时我们组建了一个专注于“思考”的团队,整合了许多推理模型。但实际上,甚至在那之前,我想指出的是,我们在去年一整年都在Gemini中融入了很多非常酷的基于强化学习的推理技术。我们从DeepMind一些顶尖的推理研究团队那里获得了很多基础技术。最初我们只是把大家召集起来,重新分组,确立了我们的“北极星”目标,以及我们将如何协同工作,然后就开始行动了。我们在十月份启动,我想说,到十一月份,我们对所取得的进展感到非常惊讶,我们致力于推动更深入的“思考”研究,即在模型给出回复之前进行更多思考,并采用更优的强化学习方法。我们看到在数学、科学、技术、工程和数学、编码、多模态等领域的能力都得到了显著提升。所以当时大家都很兴奋,因为一切都在朝着好的方向发展,将大家聚集在一起是非常有价值的。
我和Nome对整个项目都感觉非常好。然后问题就来了,我们是否有可能在今年发布一个足够好的模型?我们觉得这是有可能的,尽管当时项目才启动大约四周。所以我们继续推进。到十二月中旬,我们有了一个感觉可以放心发布的模型。我们希望它是一个实验性模型,以获得一些真实的开发者反馈。我们也认为用户会非常乐于使用这个模型。它是免费、快速且高性能的。所以我们就发布了那个模型。在假期期间,我们收到了很多反馈,并且持续迭代模型方案。到一月中旬,我们实际上有了一个明显更出色的模型,我们认为它在很多关键领域都得到了显著改进,并缓解了一些开发者反馈的问题。那时,我们整个团队都感到士气高涨。我感觉,将大家聚集在一起进行实验的策略奏效了。大家都能感受到强劲的发展势头。我们发布了那个模型,我认为用户很喜欢它。它还具备工具使用、更长的上下文窗口以及其他一些用户非常欣赏的功能。现在这个团队,我认为,它像一个真正的整体,我们士气高昂,动力十足。我们感觉我们已经发布的模型已经是“昨天的旧闻”了,我们期待着未来发布更多令人兴奋的新版本。
GA 思维模型的方向
Logan:
开发人员的反馈之一是,这个反馈在我们所有模型的版本迭代中都很常见,不只是推理模型。所以,Jack,不必有压力,大家都期待正式发布GA(GeneralAvailability通用可用性)版本。他们觉得模型很棒,我们试用后也认为这是一个积极的信号,表明我们正在做的事情受到了外界的认可。从研究角度来看,你认为正式发布GA版本的时间表是怎样的?或者说,从研究角度,我们是在修复最后的Bug收尾阶段,还是在性能指标上继续努力?对于FlashThinking模型而言,通往正式发布GA的路径是怎样的?
Jack:
我们希望为用户提供更优秀的正式发布GA模型,这是重中之重。在研究方面,我们有很多方向性的改进想要实现。同时,模型的稳定性也至关重要。正式发布GA版本对我们至关重要,因为用户显然希望以这个模型为基础进行构建,并将其作为稳定的基石,正式发布GA版本是关键。所以,正式发布GA版本已在规划中。
Logan:
您和团队是如何权衡这种平衡的?比如,回顾三个月前,11月份的时候,似乎没人预料到我们会在几周内发布正式发布GA版本。但现在情况突然转变,在你们出色地完成了模型开发之后,重心转向“我们需要尽快发布,让大家基于它进行开发”。你们是如何看待探索性研究与模型产品化、提升模型能力这两者之间存在的张力的?
Jack:
我认为需要对不同团队进行职能划分。核心研究团队就像高速列车,不会减速。我们需要找到方法,将研究成果移交给专门的团队,让他们负责后续的发布工作。对我们而言,保证核心研究持续高速推进至关重要,模型发布不应拖慢研究的节奏。所以,关键是严格划分职能。这有点像软件开发,可以设立主分支和实验性分支。实验性分支可以定期合并主分支的更新,同时保持自身开发工作的持续进行。我个人是这样理解的。
Logan:
我认为,无论是外部开发者生态,还是内部AI Studio团队,以及Gemini应用团队,都在讨论一个有趣的话题:思考模型的用户体验应该是怎样的?当模型开始“思考”时,响应时间不可避免会延长。过去两年,大家一直关注首个Token响应时间、延迟等指标。但FlashThinking模型的出现,似乎颠覆了这种传统思路。现在,我们反而希望模型能“静下心来,好好思考”。我想知道,从研究角度来看,在探索思考模型的全新用户体验方面,还有哪些工作要做?对于开发者而言,在考虑如何基于这类模型构建产品,以及如何应对模型固有的行为特点时,您有什么想法或建议吗?
Jack:
关于思考模型的用户体验,一些重要的研究问题确实与我们愿意投入多少“思考预算”相关。目前,Flash Thinking模型会根据训练情况自主决定思考的程度和时长。模型会力求高效,尽可能减少思考,但在需要时也会增加思考量。但未来,这可能无法为用户提供充分的控制。我们希望模型能够实现“可操控”,例如,用户可以设定“思考预算”,以T恤尺码(小、中、大)或具体的数值(如Token预算)来定义思考量。这是一个研究与产品体验交叉的领域,我们正在积极探索,而且我认为非常有趣。
另一个研究方向是关于“提前终止思考过程”。用户可能不介意模型长时间思考,但希望能随时中断思考,并让模型在当前状态下,尽力给出最佳答案。
我认为这是一个非常有价值的功能,目前模型还不具备,我们希望未来有机会探索实现。我同意你的看法,对于思考模型而言,除了提升模型性能的研究外,产品体验本身也是一个持续演进的研究领域。我们需要不断探索,才能发现用户期望思考模型以何种方式呈现。目前,最佳的解决方案还不清楚。这些想法对您有所启发吗?
Logan:
我还有一个补充问题,是关于人机协作的。我想知道,从训练或模型的角度来看,是否有可能引导模型主动与用户互动?例如,当模型判断“仅靠自身思考无法取得进展”时,主动向用户请求更多输入?你认为未来我们会探索这种人与模型之间的互动模式吗?
Jack:
我在网上看到有人说,很多人发现在使用推理模型时,为了避免模型误解提问或提问者自身表述不清,在模型长时间思考前,明确提示模型先提出几个澄清问题,这样做非常有用。因此,我认为必须提示模型这样做有点笨拙,我们应该训练模型使其更自然地在适当时候主动提问。我是这样认为的,多轮交互式训练非常重要。
Logan:
我想请教一个高层次的问题,或者说一个观点,希望听听你的看法。我们最近推出了Gemini2.0Flash,并将其定位为“为智能体时代构建的模型”,这成为了新闻头条。我感觉推理模型正是我们实现“构建AI智能体”这一使命的关键。从你目前所看到的情况来看,你认为这种说法有多正确?如果我们放弃所有在推理方面的努力,我们还有可能构建出世界所期望的智能体能力吗?或者说,推理是否真的是实现智能体的必经之路?
推理模型驱动 AI Agent
Jack:
是的,我深信如此。我认为,
对于构建有用的智能体能力而言,推理能力至关重要,原因有二:首先是可靠性。
在智能体应用场景中,模型需要执行大量的操作,并且要确保每个操作都正确无误,尽管其中许多操作可能非常简单。我认为,在智能体应用中,模型的可靠性至关重要。目前的大语言模型,即使在自然语言文本生成方面,可靠性也并不高。它们经常出现幻觉或小错误。我认为,除了追求模型能力的极限之外,推理以及我们正在研究的思维训练方法,还可以显著提升模型的可靠性。模型可以在行动之前进行思考,并在“思维空间”中发现并纠正错误,然后再将其付诸“行动空间”。这是推理的价值之一。
其次是复杂问题的解决能力。
智能体要发挥作用,还需要能够解决非常复杂和开放式的问题。为了实现这一目标,模型需要在真正开始执行第一个动作之前,充分理解要做什么以及为什么要做。模型可能需要进行大量的思考,尤其是在编写软件库或处理其他重要任务时。因此,我认为智能体能力与思考和推理能力是紧密相连、不可分割的。
Logan:
Jack,在一月份发布的模型中,有一个亮点是,该模型在LMS评测中排名第一。LMS作为用户偏好的一个代表,在业界备受关注。你对此有何看法?你认为用户为什么更喜欢这个模型?是因为我们改变了模型的个性或行为吗?你能详细谈谈吗?
Jack:
是的,我认为,在思考研究和后训练方法中,我们投入了大量精力来提升模型在各种推理基准上的表现,几乎没有花时间去优化模型以迎合人类偏好。因此,有趣的是,模型在LMS评测中表现更好了。在某些方面,比如编码和需要大量推理的谜题类难题,模型性能提升显著,这或许可以理解。此外,与去年12月份的模型相比,一月份发布的模型在训练后,输出文本长度更长,也更健谈,平均生成更多的tokens和文本。我认为,这可能给用户一种更健谈、内容更丰富的印象。我并不认为模型在个性或风格上发生了根本变化,它仍然像是Flash模型的风格,但内容更加丰富,能够更详细地解释事物,并生成更多文本。这也许是用户偏好提升的原因之一。但实际上,我们并没有刻意针对风格进行优化,也没有使用任何LMS指标来指导优化。看到模型在LMS评测中取得进步固然是好事,但我们关注的基准还有很多。
Logan:
这实际上是一个很好的引言,可以过渡到我一直在思考的一些事情,这些事情是基于您之前就模型进展以及与此并行的大量评估指标的快速饱和所做的评论,而这些评估指标在历史上一直被我们视为模型质量的代表。我很好奇,并且围绕这个问题正在进行一场大型辩论,随着过去几个月出现的所有新模型。但是,从评估的角度来看,您认为我们未来6到12个月会走向何方?就像我们是否真的需要,你知道,需要编写评估扩展定律,然后由生态系统实际执行,以确保我们有一种方法来评估这些模型的能力。
Jack:
评估正变得越来越具有挑战性。我认为看到像Scale这样的机构为社区贡献评估标准,真的很棒,例如他们最近赞助了类似人文科学期末考试的评估。他们过去也做过其他基准,比如Seal。而且,是的,我认为关键在于,我们确实需要一些独立的第三方来创建真正有挑战性的评估,这些评估最好能够反映我们在AI领域真正关注的实际应用。我认为SweetBench是另一个很好的例子,它有效地推动了编码智能体的能力发展,并将其融入到一个基准测试中,这个基准测试非常具有挑战性,我们也看到了由此带来的进步。所以,是的,未来6到12个月情况会如何发展呢?我的意思是,作为一个对技术进步速度非常乐观的人,我确实认为,未来某些模型将不得不开始在实际任务中接受评估,这些任务不能再是简单的或纯学术性的基准,它们应该真正成为衡量实际应用价值的指标,甚至本身就应该是有实际用途的。
所以,我不太清楚这具体会如何演变,但你知道,我们期望这些模型在未来能够达到SweetBench所设定的软件工程师的专业水平,如果真的达到了,我们又该如何衡量模型的进步呢?我认为我们或许需要将标准提升到顶尖软件工程师的水平,而新的基准,也应该只有顶尖的软件工程师才能真正完成。然而,我个人甚至乐观地认为,在未来12个月内,我们就能超越这个标准。到那时,我真的不知道该如何评估这些模型了。