专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

谷歌豪华阵容打造AI科学家，用测试时间计算加速科学发现，CEO皮猜也来站台了

量子位 · 公众号 · AI · 2025-02-20 14:17

正文

一水发自凹非寺
量子位 | 公众号 QbitAI

CEO皮猜亲自站台，谷歌的最新研究狠狠火了——

为科学家群体推出“科研搭子” AI co-scientist ，一个能够利用高级推理综合大量文献、生成新颖假设，并提出详细研究计划的多智能体AI系统。

划重点，该系统将与OpenAI o1/DeepSeek-R1相似的 测试时间计算 用来加速科学发现。

据皮猜介绍，这个系统已经在 肝脏纤维化治疗、抗菌耐药性和药物再利用 等重要研究领域取得了初步成果。

而且趁热打铁，谷歌这次还面向全球科学家推出了一个“可信测试计划”，大家现在都可以申请。

另外，从致谢名单可以看到，这项研究集齐了谷歌内部豪华阵容，包括Google Research、Deepmind以及Cloud AI teams，还有顶尖高校科学家参与测试……

正如网友所言，说不定AI智能体未来某天就获得诺贝尔奖了。

文献综述/提出假设/报告一条龙搞定

直接来看 AI co-scientist的运作过程 。

其目标非常清晰，当科学家文字给出研究主题后，它会借助多个AI智能体帮助生成新的研究假设、详细的研究概述和实验方案。

参与其中的智能体包括但不限于：

生成（Generation）：提出新的假设或想法
反思（Reflection）：评估和分析生成的假设
排名（Ranking）：对假设进行优先级排序
进化（Evolution）：通过迭代改进假设
邻近性（Proximity）：探索与现有知识相近或相关的领域
元审查（Meta-review）：对整个过程进行监督和优化

这些智能体通过 自动化反馈 不断迭代，生成、评估和改进假设，从而形成自我优化循环，最终输出高质量研究方案。

而作为科学家，具体可以通过以下几种方式参与协作。

比如最开始给系统提供粗略的想法或一些研究主题or方向，让它帮你进一步细化；或者对AI的输出提供自然语言反馈，让它进一步调整。

此外，科学家还能使用其他工具，如网络搜索或一些专业领域的AI模型，来进一步提高研究质量。

深挖二者具体协作过程，还能看到当科学家提出研究目标后，有一个 监督智能体 （Supervisor Agent）来负责工作分配。

专业智能体（红色框，具有独特的角色和逻辑）；
科学家的输入和反馈（蓝色框）；
系统信息流（深灰色箭头）；
智能体间的反馈（智能体内部的红色箭头）。

从上面可以看出，整个AI co-scientist系统的运作较为简单。

测试时间计算用于科学发现

当然，这项研究的主要亮点是：

扩展测试时间计算（test-time）来大大增强其推理能力 ，包括上面提到的自我对弈、假设排名和进化过程等关键推理步骤。

在研究中，AI co-scientist利用 Elo评级系统 来衡量和提升其在解决科学问题方面的能力。

具体而言，Elo评级是一个动态的评估指标，通常用于衡量比赛者的相对技能水平。研究人员对比了AI co-scientist（蓝色线）和Gemini 2.0（红色线）在GPQA（General Problem-solving Question Answering）基准测试上的平均准确率。

结果发现，高Elo评级的系统在解决挑战性问题时，能够提供更准确答案。（正相关）

这表明了， Elo评级可以作为一个有效的指标 ，用来预测和提升AI co-scientist在科学问题解决方面的性能。

接下来，七位领域专家精选了15个开放的研究目标，并提出了相应的最佳解决方案。

目标是，利用自动化的Elo评估指标，来对比AI co-scientist和其他最先进智能体和推理模型（Gemini 2.0 Pro版本和推理版本，以及人类专家） 在解决这些复杂问题上的表现 。

结果显示，AI co-scientist明显表现最佳。

此外，随着AI系统 投入更多时间进行推理和改进 ，其自我评估的质量得到了显著提升，甚至超出了传统模型以及在某些情况下无法解决问题的人类专家的水平。

更关键的，基于对11个研究目标子集的分析，专家评估认为AI co-scientist在 新颖性 和 影响力 方面的表现优于其他基线模型。

为了进一步评估AI co-scientist用于科学发现的实际潜力，研究团队进行了一系列端到端的实验室实验。

这些实验专注于三个关键的生物医学领域： 药物再利用、新治疗靶点的提出以及抗菌耐药性的背后机制 。

实验中，AI co-scientist不仅受到了专家的指导和反馈，而且涵盖了从简单到复杂的多种研究场景。

话不多说，我们具体来看其取得的初步成果。

首先，药物再利用是一种将已经批准用于其他疾病的药物用于治疗新疾病的策略。这种方法能够缩短药物开发的时间和成本，并且可以快速地将有效的治疗方案带给患者。

这一次，研究人员将目光瞄准了 急性髓系白血病（AML） ，AI co-scientist通过分析大量的生物医学数据，包括药物的化学结构、药效学和遗传信息，来预测哪些现有药物可能对AML有效。

最终，AI co-scientist提出了3种可能药物。而且在进一步验证中，它所建议的药物在多个AML细胞系中，以临床相关的浓度抑制了肿瘤的活力，证明了其有效性。

而比药物再利用更复杂的 识别新型治疗靶点 中，研究人员聚焦于肝纤维化这种疾病。

肝纤维化 的治疗是当前肝病研究的重点，而寻找有效的治疗靶点是关键。

过程中，AI co-scientist通过对大量生物医学数据的分析，包括基因表达谱、蛋白质互作网络和已知药物数据库，来识别与肝纤维化相关的关键分子和生物学路径。

对比它所提出的一系列潜在治疗方案，和传统的纤维化诱导剂（作为阴性对照）以及抑制剂（作为阳性对照）来看，所有由AI co-scientist建议的药物都显示出有希望的活性（p值小于0.01）。

这意味着这些药物在治疗肝纤维化方面具有很高的可能性。

最后，在第三次实验中，通过分析大量的遗传学、蛋白质结构和药物活性数据，AI co-scientist也被发现能够识别和预测细菌耐药的潜在机制。

谷歌豪华阵容打造AI科学家，用测试时间计算加速科学发现，CEO皮猜也来站台了

正文

一水 发自 凹非寺 量子位 | 公众号 QbitAI

文献综述/提出假设/报告一条龙搞定

测试时间计算用于科学发现

请到「今天看啥」查看全文

一水发自凹非寺
量子位 | 公众号 QbitAI