谷歌豪华阵容打造AI科学家，用测试时间计算加速科学发现，CEO皮猜也来站台了

Dots机构投资者社区 · 公众号 · · 2025-02-23 08:15

正文

本文转自微信公众号“量子位”，作者：关注前沿科技。

CEO皮猜亲自站台，谷歌的最新研究狠狠火了——

为科学家群体推出“科研搭子” AI co-scientist ，一个能够利用高级推理综合大量文献、生成新颖假设，并提出详细研究计划的多智能体AI系统。

划重点，该系统将与OpenAI o1/DeepSeek-R1相似的 测试时间计算 用来加速科学发现。

据皮猜介绍，这个系统已经在 肝脏纤维化治疗、抗菌耐药性和药物再利用 等重要研究领域取得了初步成果。

而且趁热打铁，谷歌这次还面向全球科学家推出了一个“可信测试计划”，大家现在都可以申请。

另外，从致谢名单可以看到，这项研究集齐了谷歌内部豪华阵容，包括Google Research、Deepmind以及Cloud AI teams，还有顶尖高校科学家参与测试……

正如网友所言，说不定AI智能体未来某天就获得诺贝尔奖了。

直接来看 AI co-scientist的运作过程 。

其目标非常清晰，当科学家文字给出研究主题后，它会借助多个AI智能体帮助生成新的研究假设、详细的研究概述和实验方案。

参与其中的智能体包括但不限于：

这些智能体通过 自动化反馈 不断迭代，生成、评估和改进假设，从而形成自我优化循环，最终输出高质量研究方案。

而作为科学家，具体可以通过以下几种方式参与协作。

比如最开始给系统提供粗略的想法或一些研究主题or方向，让它帮你进一步细化；或者对AI的输出提供自然语言反馈，让它进一步调整。

此外，科学家还能使用其他工具，如网络搜索或一些专业领域的AI模型，来进一步提高研究质量。

深挖二者具体协作过程，还能看到当科学家提出研究目标后，有一个 监督智能体 （Supervisor Agent）来负责工作分配。

从上面可以看出，整个AI co-scientist系统的运作较为简单。

当然，这项研究的主要亮点是：

扩展测试时间计算（test-time）来大大增强其推理能力 ，包括上面提到的自我对弈、假设排名和进化过程等关键推理步骤。

在研究中，AI co-scientist利用 Elo评级系统 来衡量和提升其在解决科学问题方面的能力。

具体而言，Elo评级是一个动态的评估指标，通常用于衡量比赛者的相对技能水平。研究人员对比了AI co-scientist（蓝色线）和Gemini 2.0（红色线）在GPQA（General Problem-solving Question Answering）基准测试上的平均准确率。

结果发现，高Elo评级的系统在解决挑战性问题时，能够提供更准确答案。（正相关）

这表明了， Elo评级可以作为一个有效的指标 ，用来预测和提升AI co-scientist在科学问题解决方面的性能。

接下来，七位领域专家精选了15个开放的研究目标，并提出了相应的最佳解决方案。

目标是，利用自动化的Elo评估指标，来对比AI co-scientist和其他最先进智能体和推理模型（Gemini 2.0 Pro版本和推理版本，以及人类专家）