本文转自微信公众号“量子位”,作者:关注前沿科技。
一水 发自 凹非寺
量子位 | 公众号 QbitAI
CEO皮猜亲自站台,谷歌的最新研究狠狠火了——
为科学家群体推出“科研搭子”
AI co-scientist
,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。
划重点,该系统将与OpenAI o1/DeepSeek-R1相似的
测试时间计算
用来加速科学发现。
据皮猜介绍,这个系统已经在
肝脏纤维化治疗、抗菌耐药性和药物再利用
等重要研究领域取得了初步成果。
而且趁热打铁,谷歌这次还面向全球科学家推出了一个“可信测试计划”,大家现在都可以申请。
另外,从致谢名单可以看到,这项研究集齐了谷歌内部豪华阵容,包括Google Research、Deepmind以及Cloud AI teams,还有顶尖高校科学家参与测试……
正如网友所言,说不定AI智能体未来某天就获得诺贝尔奖了。
文献综述/提出假设/报告一条龙搞定
直接来看
AI co-scientist的运作过程
。
其目标非常清晰,当科学家文字给出研究主题后,它会借助多个AI智能体帮助生成新的研究假设、详细的研究概述和实验方案。
参与其中的智能体包括但不限于:
-
生成(Generation):提出新的假设或想法
-
反思(Reflection):评估和分析生成的假设
-
排名(Ranking):对假设进行优先级排序
-
进化(Evolution):通过迭代改进假设
-
邻近性(Proximity):探索与现有知识相近或相关的领域
-
元审查(Meta-review):对整个过程进行监督和优化
这些智能体通过
自动化反馈
不断迭代,生成、评估和改进假设,从而形成自我优化循环,最终输出高质量研究方案。
而作为科学家,具体可以通过以下几种方式参与协作。
比如最开始给系统提供粗略的想法或一些研究主题or方向,让它帮你进一步细化;或者对AI的输出提供自然语言反馈,让它进一步调整。
此外,科学家还能使用其他工具,如网络搜索或一些专业领域的AI模型,来进一步提高研究质量。
深挖二者具体协作过程,还能看到当科学家提出研究目标后,有一个
监督智能体
(Supervisor Agent)来负责工作分配。
-
专业智能体(红色框,具有独特的角色和逻辑);
-
科学家的输入和反馈(蓝色框);
-
系统信息流(深灰色箭头);
-
智能体间的反馈(智能体内部的红色箭头)。
从上面可以看出,整个AI co-scientist系统的运作较为简单。
测试时间计算用于科学发现
当然,这项研究的主要亮点是:
扩展测试时间计算(test-time)来大大增强其推理能力
,包括上面提到的自我对弈、假设排名和进化过程等关键推理步骤。
在研究中,AI co-scientist利用
Elo评级系统
来衡量和提升其在解决科学问题方面的能力。
具体而言,Elo评级是一个动态的评估指标,通常用于衡量比赛者的相对技能水平。研究人员对比了AI co-scientist(蓝色线)和Gemini 2.0(红色线)在GPQA(General Problem-solving Question Answering)基准测试上的平均准确率。
结果发现,高Elo评级的系统在解决挑战性问题时,能够提供更准确答案。
(正相关)
这表明了,
Elo评级可以作为一个有效的指标
,用来预测和提升AI co-scientist在科学问题解决方面的性能。
接下来,七位领域专家精选了15个开放的研究目标,并提出了相应的最佳解决方案。
目标是,利用自动化的Elo评估指标,来对比AI co-scientist和其他最先进智能体和推理模型
(Gemini 2.0 Pro版本和推理版本,以及人类专家)