专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
汇易咨询  ·  成本支撑边际增强与替代需求萎缩博弈加剧 ... ·  20 小时前  
北京吃货小分队  ·  北京「规模最大」新地标 · 终于开放了 ·  5 天前  
北京晚报  ·  北京这6名小孩哥,必须表扬! ·  3 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

谷歌豪华阵容打造AI科学家,用测试时间计算加速科学发现,CEO皮猜也来站台了

Dots机构投资者社区  · 公众号  ·  · 2025-02-23 08:15

正文

本文转自微信公众号“量子位”,作者:关注前沿科技。

一水 发自 凹非寺
量子位 | 公众号 QbitAI

CEO皮猜亲自站台,谷歌的最新研究狠狠火了——

为科学家群体推出“科研搭子” AI co-scientist ,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。

划重点,该系统将与OpenAI o1/DeepSeek-R1相似的 测试时间计算 用来加速科学发现。

图片

据皮猜介绍,这个系统已经在 肝脏纤维化治疗、抗菌耐药性和药物再利用 等重要研究领域取得了初步成果。

而且趁热打铁,谷歌这次还面向全球科学家推出了一个“可信测试计划”,大家现在都可以申请。

图片

另外,从致谢名单可以看到,这项研究集齐了谷歌内部豪华阵容,包括Google Research、Deepmind以及Cloud AI teams,还有顶尖高校科学家参与测试……

图片

正如网友所言,说不定AI智能体未来某天就获得诺贝尔奖了。

图片

文献综述/提出假设/报告一条龙搞定

直接来看 AI co-scientist的运作过程

其目标非常清晰,当科学家文字给出研究主题后,它会借助多个AI智能体帮助生成新的研究假设、详细的研究概述和实验方案。

参与其中的智能体包括但不限于:

  • 生成(Generation):提出新的假设或想法

  • 反思(Reflection):评估和分析生成的假设

  • 排名(Ranking):对假设进行优先级排序

  • 进化(Evolution):通过迭代改进假设

  • 邻近性(Proximity):探索与现有知识相近或相关的领域

  • 元审查(Meta-review):对整个过程进行监督和优化

这些智能体通过 自动化反馈 不断迭代,生成、评估和改进假设,从而形成自我优化循环,最终输出高质量研究方案。

图片

而作为科学家,具体可以通过以下几种方式参与协作。

比如最开始给系统提供粗略的想法或一些研究主题or方向,让它帮你进一步细化;或者对AI的输出提供自然语言反馈,让它进一步调整。

此外,科学家还能使用其他工具,如网络搜索或一些专业领域的AI模型,来进一步提高研究质量。

图片

深挖二者具体协作过程,还能看到当科学家提出研究目标后,有一个 监督智能体 (Supervisor Agent)来负责工作分配。

  • 专业智能体(红色框,具有独特的角色和逻辑);

  • 科学家的输入和反馈(蓝色框);

  • 系统信息流(深灰色箭头);

  • 智能体间的反馈(智能体内部的红色箭头)。

图片

从上面可以看出,整个AI co-scientist系统的运作较为简单。

测试时间计算用于科学发现

当然,这项研究的主要亮点是:

扩展测试时间计算(test-time)来大大增强其推理能力 ,包括上面提到的自我对弈、假设排名和进化过程等关键推理步骤。

在研究中,AI co-scientist利用 Elo评级系统 来衡量和提升其在解决科学问题方面的能力。

具体而言,Elo评级是一个动态的评估指标,通常用于衡量比赛者的相对技能水平。研究人员对比了AI co-scientist(蓝色线)和Gemini 2.0(红色线)在GPQA(General Problem-solving Question Answering)基准测试上的平均准确率。

结果发现,高Elo评级的系统在解决挑战性问题时,能够提供更准确答案。 (正相关)

这表明了, Elo评级可以作为一个有效的指标 ,用来预测和提升AI co-scientist在科学问题解决方面的性能。

图片

接下来,七位领域专家精选了15个开放的研究目标,并提出了相应的最佳解决方案。

目标是,利用自动化的Elo评估指标,来对比AI co-scientist和其他最先进智能体和推理模型 (Gemini 2.0 Pro版本和推理版本,以及人类专家)







请到「今天看啥」查看全文