25年1月来自 Texas Dallas 分校的论文“LLM4SR: A Survey on Large Language Models for Scientific Research”。
近年来,大语言模型 (LLM) 的快速发展改变科学研究的格局,为研究周期的各个阶段提供支持。本文系统地探讨 LLM 如何彻底改变科学研究过程。LLM 在研究的四个关键阶段发挥独特作用:假设发现、实验规划和实施、科学写作和同行评审,如图所示。本文全面展示特定任务的方法和评估基准,确定当前的挑战并提出未来的研究方向。
科学研究流程,是启蒙运动在系统探究方面所取得成就的证明 [17, 58, 58]。在这种传统范式中,科学研究涉及一系列明确的步骤:研究人员首先收集背景知识,提出假设,设计和执行实验,收集和分析数据,最后通过经过同行评审的手稿报告研究结果。这个循环过程导致现代科学技术的突破性进步,但它仍然受到人类研究人员固有的创造力、专业知识以及有限的时间和资源限制。几十年来,科学界一直试图通过自动化科学研究的各个方面来增强这一过程,旨在提高科学家的生产力。早期的计算机辅助研究可以追溯到 20 世纪 70 年代,引入Automated Mathematician [74, 75] 和 BACON [71] 等系统,这些系统展示机器在协助定理生成和经验定律识别等专门研究任务方面的潜力。最近,AlphaFold [62] 和 OpenFold [4] 等系统已成为自动化特定研究任务的开创性努力典范,显著加快各自领域的科学进步速度,速度提高数千倍。然而,直到基础模型的出现和大语言模型 (LLM) 的近期爆炸式增长 [2, 154],跨多个研究领域的全面人工智能辅助的愿景,才成为现实 [190]。
近年来,LLM 取得显著进步,改变了人工智能和自然语言处理 (NLP) 的各个领域。这些模型,例如 GPT-4 [2] 和 LLaMA [154],在理解、生成和与人类语言交互方面,树立了标杆。它们的能力通过海量数据集和创新架构得到增强,现已超越传统的 NLP 任务,扩展到更复杂和特定领域的挑战。特别是,LLM 处理海量数据、生成类似人类的文本和协助复杂决策的能力引起科学界的极大关注 [92, 141]。这些突破表明,LLM 有可能彻底改变科学研究的开展、记录和评估方式[156, 165, 174]。
本文的结构如下所示:
在“科学假设发现 LLM”这一领域出现之前,最为相关的研究领域是“基于文献的发现”和“归纳推理”。
科学发现
使用 LLM 生成新的科学假设是一个新的研究课题,主要源自两个相关的研究领域,即“基于文献的发现”和“归纳推理”。
基于文献的发现
基于文献的发现 (LBD)
最早由 Swanson [151] 提出。其核心思想是“如果独立创建的片段在逻辑上相关但从未被检索、汇总和解释,则知识可以是公开的,但未被发现。”因此,如何检索可以汇总以创建新知识的公共知识,仍然是一个挑战。
Swanson [151] 提出 LBD 的经典形式化,即“ABC”模型,其中如果两个概念 A 和 C 都与论文中的某个中间概念 B 同时出现,则假设它们是关联的。最近的研究使用词向量 [155] 或链接预测模型 [152、160、171] 来发现概念之间的联系以构成假设。
然而,经典的 LBD 方法没有对人类科学家在构思过程中考虑的背景进行建模,并且仅限于预测离散概念之间的成对关系 [47]。为了克服这些限制,Wang [159] 首次尝试将 LBD 置于自然语言上下文中以约束生成空间,并且使用生成的句子作为输出,而不是像传统 LBD 那样只预测关系。
LBD 的另一个限制是,它长期以来被认为仅适用于非常具体的、狭窄的假设类型 [159]。然而,最近的科学发现进展表明,LBD 可能具有更广泛的适用范围。特别是,Yang [174] 和 Yang [176] 与社会科学和化学研究人员进行广泛的讨论,发现大多数现有的社会科学和化学发表的假设(而不仅仅是狭窄类型的假设)都可以用 LBD 模式来制定。这可能预示着未来社会科学和化学领域中即将发表的假说,也可能来自于现有知识的(正确的)联系和联想。
归纳推理
归纳推理是从具体的“观察”中寻找具有广泛适用范围的一般“规则”或“假设”[175]。例如,地心说、日心说和牛顿万有引力定律,都是基于对恒星和行星运动的“观察”而提出的“规则”。科学发现是一项极其困难的归纳推理任务,每一条“规则”都是一个新的科学发现。
科学哲学界从归纳推理中总结“规则”的三个基本要求[113],即(1)
“规则”不应与“观察”相冲突
;(2)
“规则”应该反映现实
; (3)
“规则”应呈现一种通用模式,能应用于比“具体”观察更大的范围,涵盖观察中不存在的新信息
。此前归纳推理研究主要由“归纳逻辑编程”社区 [26] 进行,该社区使用形式语言和符号推理器。Yang [173] 首次在自然语言处理领域研究生成归纳推理,即利用语言模型从具体的自然语言观察中生成自然语言规则,引入科学哲学界对归纳推理的要求。受语言模型倾向于生成模糊而非具体规则的经验启发,他们额外提出第四个要求:
(4)“规则”要清晰、足够的详细
。第四个要求可能由于太过明显而被科学哲学界忽视。受这些要求的启发,Yang [173] 设计一种先-过度生成-后-过滤的机制,利用语言模型先生成许多初步规则,然后过滤掉那些不满足要求的规则。这些方法用自我改进来代替过滤,并使用更多的推理步骤来获得更好的规则 [120, 163, 191, 194]。然而,这一系列工作试图归纳的“规则”,要么是已知知识,要么不是科学知识而是合成的模式。
Yang [174] 首次尝试将经典的归纳推理任务设置(发现已知/合成知识)扩展到真实的科学发现设置:利用 LLM 从公开的网络数据中自主发现有效的社会科学科学假设。具体来说,他们收集新闻、商业评论和维基百科上关于社会科学概念的页面作为发现假设的网络数据。
Majumder [107, 108] 进一步提出“数据-驱动的发现”的概念,即利用网络上的所有公共实验数据(以及手头的私人实验数据)跨学科发现假设。他们的动机是,大量公开的实验数据潜力尚未得到充分利用,因此可以从现有数据中发现大量新的科学假设。
方法的发展
在为科学发现而开发的方法中,有一个明确的方法发展轨迹。
主要轨迹
总体而言,这种科学发现方法的发展轨迹,可以看作是将更多关键组件纳入方法中。下表总结认为重要的关键组件,并指出每种方法是否都纳入这些组件。具体来说,它们是“灵感检索策略”、“新颖性检查器”、“有效性检查器”、“清晰度检查器”、“进化算法”、“多重灵感的利用”、“假设排序”和“自动研究问题构建”。这里,每个“关键组件”都是指一种详细而独特的方法,已被证明对科学发现任务有效。排除可能直观上似乎有帮助但不清楚概念中的特定方法如何有效完成这项任务的广泛一般概念(例如,工具使用)。接下来,介绍这些关键组件。对于每个关键组件,用一两段话来简要概述,总结其发展轨迹。
灵感检索策略
。除了依赖背景知识外,基于文献的发现 (LBD) 还有助于检索其他知识作为制定新假设的灵感来源。SciMON [159] 首次将 LBD 的概念引入发现任务,表明新知识可以由现有知识的联系组成。至关重要的是,灵感不应该是之前已知与背景相关的,或者至少不应该以已知方式与背景相关联 [176]。否则,该假设就不是新颖的。
受经典 LBD 形式化中的“ABC”模型启发,给定背景知识,SciMON 检索语义相似的知识、知识图谱邻点和引用图邻点作为灵感。具体而言,如果两个知识来自 SentenceBERT [127] 的嵌入具有较高的余弦相似度,则它们被识别为“语义相似”;他们构建的知识图谱遵循“
[方法、用途、任务]
”格式。 ResearchAgent 严格遵循“ABC”模型,构建概念图,其中链接表示两个连接的概念节点之前曾出现在同一篇论文中。它检索与概念图上背景概念相关的灵感概念(
概念共现
)。Scideator 根据语义匹配(语义学者 API 推荐)和概念匹配(包含同一主题、同一子领域和不同子领域相似概念的论文)检索灵感论文。SciPIP [164] 从语义相似的知识(基于 SentenceBERT)、概念共现和引用图邻点中检索灵感。它提出过滤方法来滤除概念共现检索中无用的概念。
与选择语义或引用图邻点作为灵感不同,SciAgents 随机抽取另一个与引用图中背景概念(通过长路径或短路径)相关的概念作为灵感。
MOOSE [174] 提出使用 LLM 选择的灵感:给定研究背景和上下文中的一些灵感候选,并要求 LLM 从候选中选择研究背景的灵感。然后 MOOSE-Chem [176] 也采用它。MOOSE-Chem 假设在对数亿篇科学论文进行训练后,LLM 可能已经具备一定水平的能力,可以识别背景的灵感知识,从而构成新知识发现。MOOSE-Chem 通过注释 2024 年发表的 51 篇化学论文(只是在 2024 年在线),分析这一假设,并查看采用截至 2023 年训练数据的 LLM 是否可以在仅给出背景的情况下检索注释的灵感。他们的结果显示检索率非常高,表明该假设可能基本正确。然后,Nova 也采用了 LLM 选择的灵感,其动机是利用 LLM 的内部知识来确定对新想法有用的知识应该能够超越传统基于实体或关键字的检索方法。
反馈模块
。下一个关键组成部分是在新颖性、有效性和清晰度方面对生成的假设进行迭代反馈。这三个反馈首先由 MOOSE 提出,其动机是归纳推理中对假设的要求 [113, 173]。这三个方面足够客观,可以给出反馈,并且每个方面对于一个好的假设都是必不可少的。
-
•
新颖性检查器
。生成的假设与现有文献相比应该是新的发现。当假设趋向于与现有假设相似时,增强其新颖性的反馈可能有利于假设的制定。现有的新颖性反馈方法都是基于 LLM 的。一般来说,有三种方法可以提供新颖性反馈。第一种方法根据相关调查 (MOOSE) 评估每个生成的假设;第二种方法迭代检索相关论文进行比较 (SciMON、SciAgents、Scideator、CoI);第三种方法直接利用 LLM 内部知识进行评估 (Qi,ResearchAgent,AIScientist,MOOSE-Chem,VirSci)。
-
•
有效性检查器
。生成的假设应该是有效的科学/工程发现,能够准确反映客观世界 [113]。真正的有效性反馈应该来自实验结果。然而,对每个生成的假设进行实验既费时又费钱。因此,目前,有效性反馈几乎完全依赖于 LLM 或其他经过训练的神经模型启发式方法。例外是 FunSearch、HypoGeniC、LLM-SR 和 SGA。具体来说,FunSearch 是为数学问题生成代码的。编译器和验证代码是自然高效且有效的验证器;HypoGeniC 和 LLM-SR 专注于数据驱动的发现,这意味着它们可以访问可用于检查与每个生成假设的一致性观察示例;SGA 创建一个虚拟物理模拟环境来模拟真实实验。然而,有效性检查器仍然是科学发现界面临的重大挑战。未来的研究方向包括机器人和自动化实验室,它们可以自动执行湿-实验室实验(例如,生物学和化学实验)来验证生成的假设。对于与计算机科学相关的假设,未来的研究方向可能是更先进的自动代码实现系统。
-
•
清晰度检查器
。生成的假设在传达信息方面应该足够清晰,并提供足够的细节 [173]。然而,LLM 往往会生成细节不足的假设 [159]。因此,提供清晰度方面的反馈以完善假设并详细扩展它,将是有益的[174]。当前的方法(MOOSE,ResearchAgent,MOOSE-Chem和VirSci)都采用LLM来提供清晰度的自我评估。
进化算法
。进化算法是受生物进化原理启发的优化算法一个子集。它假设存在一个“环境”,不能适应它的实体将被“淘汰”,超级实体将从环境具有一定适应性实体之间特征“重组”中进化而来(这个过程也称为“突变”)。
这个关键组成部分很重要,因为(1)真实的实验评估和对生成假设的启发式评估自然地充当“环境”。(2)科学假设发现的本质,从根本上可以看作是从已知知识输入突变为未知但有效的知识。尽管目标相似,但当前的科学发现方法以不同的方式利用进化算法。
FunSearch 首次将进化算法引入到科学发现任务中。他们采用基于岛屿的进化算法,每个岛屿都是一组相似的方法,每个岛屿不断变异为新的假设。在某些时间间隔内,一些排名最低的岛屿被“淘汰”,每个岛屿中表现最好的假设,组成在一起构成新岛屿,其鼓励岛屿之间优点的“重组”。LLM-SR 采用类似的基于岛屿进化算法。
SGA 将其用作“进化搜索”,即在每次迭代中生成多个后代并保留最佳选择。他们还采用进化交叉,其中 LLM 从各种过去的实验中生成新的假设以进行更好的探索。
MOOSE-Chem 将其设计为“进化单元”,以更好地关联背景知识和灵感知识。具体来说,给定背景和灵感知识,他们首先生成多个独特的假设来将两者关联起来。然后分别完善每个假设,最后重新组合完善的假设,以更好地将背景和灵感知识整合成一个有凝聚力的假设。它鼓励来自相同输入的不同突变变体,并从每个突变变体中收集优势。
利用多种灵感
。这里讨论的
“利用多种灵感”(LMI)
组件是关于明确识别几种灵感,以便这些已识别的灵感将全部利用到最终假设中(例如,以顺序方式)。这很重要,因为不同的方法有不同的原因。
MOOSE-Chem 是第一个引入此组件的,其动机是观察到许多学科(例如化学和材料科学)通常需要多个灵感才能制定完整且可发表的假设。具体来说,他们将看似无法解决的问题 𝑃(假设 | 研究背景)分解为许多更小、更实用和可执行的步骤。他们通过为分解制定数学证明来实现这一点。一般来说,较小的步骤包括确定起始灵感,根据背景和灵感制定初步假设,找到另一个灵感来解决初步假设中的空白,然后用新的灵感制定更新的假设等等。他们利用多个灵感的目标,是重新发现在《自然》或《科学》等高影响力期刊上发表的化学和材料科学假设。
除了 MOOSE-Chem,Nova 还以连续的方式检索多个灵感,但目标不同,即产生更多样化和新颖的研究假设。他们的动机源于 IGA 的实验结果,即生成假设的多样性趋于饱和。他们认为其中一个主要原因,是输入的背景信息相同,而通过引入灵活的输入,结合不同的灵感集可以大大缓解这个问题。
假设排序
。这个关键部分是关于对生成的假设进行全面排序。这很重要,因为 LLM 可以在短时间内生成大量假设,而验证每个假设的真实实验室实验既耗时又费钱。因此,让科学家知道应该先测试哪个假设将非常有益。一些方法(例如 MOOSE)采用自动评估方法来提供对生成假设的初步了解。自动评估方法自然可以用于排名,但上表 仅关注方法论部分(但不关注自动评估部分)中如何使用排名。
大多数方法采用 LLM 的评分作为奖励值,可用于排名(MCR [145]、AIScientist、MOOSE-Chem、CycleResearcher)。FunSearch 专注于代码生成问题,因此可以通过运行并检查结果直接精确评估生成的代码。ChemReasoner [146] 对特定于任务的图神经网络模型进行微调以获得奖励。HypoGeniC [193] 和 LLM-SR [140] 专注于数据驱动的发现,这意味着他们可以访问可用于检查与生成假设的一致性观察示例,其中一致示例的数量可用作排名的奖励值。
与直接预测奖励分数不同,IGA 进行成对比较,因为他们发现当直接要求预测最终分数或决策时,LLM 的标定效果很差,但在成对比较中判断哪篇论文更好时,可以实现不平凡的准确性。受 IGA [141] 的启发,CoI [77] 提出一种成对自动评估系统,名为 Idea Arena。Nova [49] 也采用成对自动评估方法。
自动研究问题构建
。这个关键组件是关于研究问题的自动构建,以便自动化科学发现方法可以将其用作输入来发现假设。它表明 LLM 系统在科学发现中的不同角色:没有它,LLM 充当copilot,依靠研究人员提出好的研究问题;有了它,系统就会以“全自动驾驶”模式运行,能够在没有人工输入的情况下独立发现。“全自动驾驶”模式最早由MOOSE 引入,被定义为科学发现的“自动化”设置。具体来说,他们采用基于LLM的智体不断搜索与学科相关的网络语料库以寻找有趣的研究问题。AIScientist 利用起始代码实现作为输入来探索研究方向。MLR-Copilot 通过分析输入论文中的研究差距来寻找研究方向。SciAgents 和 Scideator 通过直接根据概念配对生成假设来跳过研究问题。VirSci 通过利用基于 LLM 的科学家智体进行头脑风暴,来生成研究问题。CoI 通过收集方法的发展路线然后预测下一步,来寻找研究问题。Nova 直接从输入论文和常见想法提议的模式中,生成种子想法,跳过研究问题构建步骤。
其他方法
与“主要轨迹”方法不同的方法,其本身非常多样化,侧重于科学发现的不同方面。例如,Dong [30] 利用了一种独特的方法,Pu [118] 专注于 HCI,Liu [96] 也考虑实验结果的整合,Li [80],Weng [167] 利用评论作为偏好学习来微调假设提出者模型。
Dong [30] 尝试使用 GPT-4 来解决非常具有挑战性的研究问题:“是否 P = NP 或者不”。他们提出“苏格拉底式推理”,鼓励 LLM 递归地发现、解决和整合问题,同时促进自我评估和改进。他们的方法,在试图证明一个非常具有挑战性的现有假设时可能会有用。
IdeaSynth [118] 是一个研究创意开发系统,它将创意概念表示为画布上的链接节点。在人机交互场景中研究其效果。他们通过实验室研究发现,与使用强大 LLM 基线的人类参与者相比,使用 IdeaSynth 的人类参与者可以探索更多替代想法,并以更多细节扩展初始想法。
Liu [96] 首次尝试将基于文献的发现和数据驱动的发现统一起来。给定一组初始实验结果,它检索相关文献并采用迭代细化方法不断改进假设,使其与实验结果一致并利用从检索文献中得出的发现。
Weng [167] 提出一个包括 CycleResearcher 和 CycleReviewer 的双系统,其中 CycleResearcher 负责构思和撰写论文,CycleReviewer 负责对撰写的论文进行评分。双系统具有协同作用,CycleReviewer 的分数可以组成偏好数据来训练 CycleResearcher。双系统只关注构思和撰写论文,跳过实验规划和实施。
Li [80] 提出微调 LLM 成为更好的创意生成器,并引入一种新框架,该框架采用结合监督微调 (SFT) 和可控强化学习 (RL) 的两阶段方法。他们专注于可行性、新颖性和有效性的维度。维度控制器可以动态调整生成过程。
基准
总体而言,自动化科学发现中的任务可分为“基于文献的发现”和“数据驱动的发现”。研究人员分别为每项任务设计不同的基准。
基于文献的发现
基于文献的发现通常是将现有出版物中的知识(片段)联系起来,并将它们关联起来以创建新知识。在此过程中,首先要掌握的知识来自研究背景。研究背景可视为由两个部分组成:(1)研究问题,(2)背景调查,讨论研究问题的最新方法或知识。有了研究背景中的起始知识,其他要连接的知识通常是通过搜索现有出版物获得的。这里将其他知识称为“灵感” [159, 174]。然后将研究背景和检索到的灵感联系起来,以创建“假设”。
下表总结基于文献的发现基准,旨在获得新的科学发现。关键组成部分包括研究问题、背景调查、灵感识别和假设。假设来自“摘要”部分[159]、“方法论”部分[174, 176]或“未来工作”和“局限性”部分[68]。表中还包括数据集的大小(分析的论文数量)、论文的学科以及论文的出版日期。
出版日期对于缓解/避免数据污染问题很重要。原因是主要目标之一是重新发现基本假设,日期可以指示要使用哪些 LLM 进行重新发现(其训练数据应早于日期以避免潜在的数据污染问题)。
一些基准可用于训练,因为它们规模很大 [119, 159],而一些基准主要用于评估,因为它们是由博士生注释的[68, 174, 176]。
数据驱动的发现
Majumder [107] 提出“数据驱动的发现”的概念。这里的“数据”指的是实验结果。他们的动机是,鉴于对大量(公共和私人)现有在线实验结果的“观察”,LLM 可能能够找到这些数据的一般模式,其中一般模式可能是一个新的研究假设。鉴于具体观察和一般假设之间的关系,“数据驱动的发现”与归纳推理任务非常相关,其中观察空间是网络上完整的公开实验结果和手头的私人实验结果。
DiscoveryBench [108] 是第一个数据驱动的发现基准。它包括从 20 多篇已发表论文和 903 个合成任务中手动提取的 264 个发现任务。任务的输入包括一个研究问题和一组实验数据。目标是用一个可以由实验数据支持的假设来回答研究问题。它还为生成的假设引入一种结构化形式,即假设应由三个部分组成:上下文、变量和关系。具体来说,假设是关于上下文下两个变量之间的关系。
DiscoveryWorld [57] 是第一个具有虚拟环境的发现基准。主要动机有两个:(1)现实世界的实验成本高昂,需要大量的领域专业知识;(2)从特定于任务的细节中抽象出来鼓励开发更通用的发现方法。为了应对这些挑战,它为智体建立一个虚拟环境来发现假设。它包括 120 个不同的挑战任务,其中的假设反映世界的真实模式。
评估发展趋势
科学发现任务的评估方法是多种多样的。可以说,几乎每篇论文都提出一种使用不同评估方法的新方法。然而,它们的指标表现出明显的交集,在这些方法中可以观察到评估方法的一些新趋势。
评估标准的交集是“新颖性”、“有效性”、“清晰度”和“重要性”。一些较少使用的评估标准包括“相关性”、“趣味性”和“有用性”。有效性的另一个名称是“可行性”。它们可能在许多情况下互换使用。
“有效性”是指发现的科学知识是否准确反映客观世界,而“可行性”则涉及工程发现的实用性。“有用性”是一种主观评价,基于发现系统的目标是充当研究人员 copilot 的想法;因此,研究人员认为它的有用性很重要。
在评估者选择方面,评估方法可分为基于 LLM 的评估和基于专家的评估。在社会科学领域,LLM 的直接评估与专家评估显示出较高的一致性 [174]。然而,在化学等自然科学学科中,人们认为 LLM 缺乏提供可靠评估的能力 [146]。专家评估通常被认为是可靠的。然而,在化学等具有挑战性的领域,即使是专家的直接评估也可能缺乏足够的可靠性 [176]。这是由于 (1) 学科的复杂性;(2) 研究主题的细微变化可能需要完全不同的背景知识进行评估,而专家通常有专门的研究重点,可能无法涵盖相对可靠评估所需的全部知识。
根据对参考的需求,评估方法可分为直接评估和基于参考的评估。由于对直接评估的可靠性担忧,基于参考的评估作为一种替代方案 [68, 108, 176],它从生成的假设中提到的基本事实假设中计算关键成分。
此外,除了直接为生成的假设分配标量评估分数外,Si[141] 还提出基于比较的评估,以减轻基于 LLM 直接评分评估的无能:要求 LLM 评估者不断比较生成的假设对,直到可以进行排序。它可以用于比较两种方法生成假设的质量,但可能无助于判断假设的绝对质量。
然而,最终的评估应该只能通过真实的(湿-实验室)实验。它对机器人技术和自动实验实施领域提出挑战。
发现假设的主要进展/成就
Yang [174] 首次证明 LLM 能够生成有效的科学假设,这已通过专家评估得到证实。他们找到三名社会科学博士生来直接评估生成社会科学假设的新颖性和有效性。然后 Si [141] 通过聘请 100 多名 NLP 研究人员,首次对 LLM 生成的假设进行大规模专家评估。他们得出一个具有统计意义的结论,即 LLM 可以产生比人类研究人员更新但有效性略低的研究假设。然后,Yang [176] 表明,直到 2023 年 10 月可用数据训练的 LLM,基于此的框架可以重新发现 2024 年在《自然》、《科学》或类似水平上发表的许多化学和材料科学假设主要创新(仅在 2024 年在线提供)。
挑战和未来工作
挑战
第一,科学发现是寻找尚未通过湿-实验室实验验证的新知识。在化学等某些学科中,即使是专家对生成的新假设的评估也不够可靠。这导致需要进行自动化实验来验证大规模机器生成的假设。
第二,此外,当前的科学发现方法高度依赖于现有 LLM 的能力。在通用任务上具有更好能力的 LLM ,通常也能发现质量更好的假设 [174]。因此,基于 LLM 的发现方法,可能存在性能上限,受到最先进 LLM 能力的限制。然而,如何增强 LLM 在科学发现任务上的能力,在很大程度上(如果不是完全)不清楚。
第三,科学发现是否有足够的内部推理结构尚不清楚:当前的研究严重依赖从高质量知识源(例如文献)中检索信息作为产生假设的灵感。但目前还不清楚是否还有其他内部推理结构可以帮助这一过程。
最后,建立准确且结构良好的基准高度依赖于专家。然而,专家编写的基准规模通常非常有限。目前还不清楚应该如何扩大一个准确且结构良好、面向发现的基准。
未来的工作
未来工作的第一步,是增强自动化实验执行,因为它仍然是检验假设有效性的最可靠方法。这个过程可能因学科而异。在计算机科学中,瓶颈可能是编码能力,尤其是编写大型系统的能力。在化学或生物学中,瓶颈可能在于机器人进行实验的方法[14]。
未来工作的第二个方向,是增强 LLM 生成假设的能力。目前,如何提高这种能力还不是很清楚。这些方面可能包括训练数据收集方法和训练策略。
未来工作的第三条路线,是研究科学发现过程的其他内部推理结构。这可能需要跨学科的努力,涉及科学哲学(也称为科学科学)[36]。
未来工作的第四个方面,是研究如何利用 LLM 自动收集准确且结构良好的基准。
除了生成假设之外,LLM 还在科学研究中被越来越多地用于自动化实验设计和简化工作流程。LLM 拥有全面的内部世界知识,使其能够在现实世界中执行明智的操作,而无需在特定领域数据上进行训练。为了最大限度地发挥其潜力,LLM 采用基于智体的方式进行设计,具有两个关键属性 [64]:模块化和工具集成。模块化确保 LLM 可以与外部系统(如数据库、实验平台和计算工具)无缝交互,而工具增强框架使 LLM 能够充当工作流中的中央控制器,与用于数据检索、计算和实验控制的专用模块交互。
优化实验设计
LLM 正在通过实现更高效、更灵活的科学研究工作流程来改变实验设计流程。它们处理和分析大量数据集的能力使研究人员能够分解复杂任务、选择最佳方法并增强实验的整体结构。
任务分解涉及将实验分解为更小、更易于管理的子任务,这一过程通常是现实世界研究的复杂性所必需的,以确保与特定研究目标保持一致 [55]。许多研究 [14、15、52、125、136、168] 展示 LLM 如何通过定义实验条件和指定期望输出来简化复杂问题。例如,HuggingGPT [136] 利用 LLM 将用户查询解析为结构化任务列表,同时确定执行顺序和资源依赖关系。类似地,CRISPR-GPT [52] 通过促进选择合适的 CRISPR 系统、设计向导 RNA、推荐细胞递送方法、起草方案和规划验证实验,实现基于 CRISPR 基因编辑实验设计的自动化。ChemCrow [15] 采用迭代推理和动态规划,使用结构化的“思考、行动、行动输入、观察”循环 [177] 根据实时反馈改进其方法。多 LLM 系统(例如 Coscientist [14] 和 LLM-RDF [131])进一步利用专门的智体从文献中提取方法,将自然语言描述转换为标准化协议,为自动化平台生成执行代码,并在执行过程中自适应地纠正错误。
上述研究中经常采用基于提示的高级技术,例如上下文学习、思维链 [166] 和 ReAct [177],以提高 LLM 辅助工作流程中实验规划的可靠性和准确性。此外,LLM 还能够通过反思和改进来增强实验设计 [106, 139],这一过程使它们能够不断评估和改进实验计划。例如,通过模拟专家讨论,LLM 参与协作对话 [81],挑战假设,并通过迭代分析改进其输出 [90]。这种方法反映现实世界的科学问题解决,其中专家意见之间的差异促进对问题空间的更深入探索,并通过严格的辩论和综合不同的观点达成共识。
自动化实验过程
LLM 通过自动化实验过程中重复且耗时的任务,彻底改变科学研究。这种自动化显著提高生产力,使研究人员能够将数据准备、实验执行、分析和报告等劳动密集型流程委托给基于 LLM 的系统 [158]。
数据准备
数据准备是研究中劳动最密集的方面之一,包括清理 [21, 185]、标记 [153, 196] 和特征工程 [46] 等任务。大语言模型 (LLM) 可以自动化这些过程,尤其是在处理大型数据集时,手动数据管理效率低下。此外,在难以获得数据的情况下,LLM 可以直接合成实验数据 [82, 85, 98]。例如,在社会科学中,对人类受试者进行实验通常既昂贵又不道德,Liu [98] 设计一个沙盘来模拟社交环境,并部署多个智体 (LLM) 来相互交互。这种方法允许研究人员收集智体社交互动的数据以供后续分析。
实验执行和工作流自动化
为了实现科学研究中实验工作流的自动化,基于 LLM 智体可以通过预训练 [95, 128]、微调 [35, 44] 和工具增强学习相结合的方式获得特定于任务的能力。对大量数据集进行预训练可提供基础知识,而对特定域数据集进行微调则可以针对目标科学应用完善这些知识。为了增强任务执行能力,LLM 通常与特定域的知识库 [14, 15, 157] 或预配置的工作流 [14, 99] 相结合。高级提示技术(如上下文学习和思维链提示 [99, 179])使 LLM 能够快速适应新的实验方案。此外,通过任务特定的反馈循环进行迭代调整,LLM 能够根据实验目标完善其输出 [124, 179]。
基于这些原则,LLM 在跨不同学科实验工作流自动化中发挥着多种作用。在化学领域,LLM 化学智体 ChemCrow [15] 利用 18 位专家设计的工具自主规划和执行复杂的化学合成,连接计算领域和实验领域。类似地,Coscientist [14] 将 LLM 与实验室自动化相结合,以优化钯催化合成等反应。LLM 还被用于进化搜索策略,以探索广阔的化学空间 [157],从而能够在减轻实验负担的同时识别候选分子。Ramos [124] 将自然语言输入与贝叶斯优化相结合,用于催化剂合成,简化迭代设计周期。此外,LLM 已用于假设情景测试和反应设计,通过假设预筛选最大限度地减少实验迭代 [145, 146]。在药物发现方面,ChatDrug [99] 集成提示、检索和领域反馈模块,以促进药物编辑,而 DrugAssist [179] 通过人机对话迭代优化分子结构。在生物和医学研究中,ESM-1b [128] 和 ESM-2 [95] 等模型可编码蛋白质序列,捕获预测任务的结构特性,例如二级和三级结构预测,从而无需进行劳动密集型实验。通过对蛋白质家族的 LLM 进行微调,Ferruz & Höcker [35] 生成高度发散但功能齐全的蛋白质序列。此外,He [44] 引入一种用于从头设计 SARS-CoV-2 抗体的抗体生成 LLM,实现特异性和多样性,同时减少对天然抗体的依赖。
数据分析和解释
除了自动执行实验外,LLM 还通过生成自然语言解释和构建有意义可视化,来协助数据分析,这对于解释复杂的数据集和确保得出的见解可访问且可操作,至关重要 [143]。传统上,数据分析需要广泛的统计专业知识、手动计算和大量实验结果的解释。 LLM 通过自动执行统计建模和假设检验等任务来简化这一过程。例如,Li [79] 证明 LLM 可以充当建模器,根据真实世界数据提出、拟合和改进概率模型,同时还通过后验预测检验等技术对模型性能提供关键反馈。此外,LLM 擅长发现文本数据中隐藏的模式、趋势和关系。在社交媒体数据分析中,LLM 提供对公众情绪和新趋势的洞察 [172];在环境数据解释中,它们有助于提高对环境科学的理解和决策能力 [114]。此外,它们在主题分析中也发挥着重要作用 [27, 126],有助于识别定性数据中的主题和模式。它们的应用也扩展到金融数据分析,在那里它们增强预测和风险评估能力 [188]。AutoGen [168] 提供一个通用框架,允许使用多个可定制智体 (LLM) 创建不同的应用程序。这些智体可以通过自然语言和代码进行交互,支持广泛的下游任务,如数据建模和数据分析[61]。
基准
基准对于评估 LLM 如何有效地支持实验工作流程的各个方面至关重要。虽然许多基准并非专门为 LLM 辅助实验实施而创建,但它们足够灵活,可以应用于这些任务。例如,MLAgentBench [54] 通过帮助分解复杂的研究任务来涵盖任务分解,通过自动化数据加载和转换等流程来涵盖数据处理,通过优化机器学习实验执行来涵盖工作流管理。
这些基准提供不同的场所,因此方法各不相同。评估方法包括任务成功率、准确性和执行一致性以及与人类基准的比较。这些差异凸显 LLM 可以集成到研究过程中的多种方式。下表列出更多详细信息:LLM 辅助实验规划和实施的基准。ED = 优化实验设计,DP = 数据准备,EW = 实验执行和工作流自动化,DA = 数据分析和解释。学科中的“通用”意味着基准不是为特定学科设计的。
挑战和未来工作
挑战
。使用 LLM 进行实验规划和实施的挑战,既来自其内在的局限性,也来自其在特定领域任务中的应用。一个根本的限制是它们的规划能力。正如 Kambhampati [64] 所阐明的那样,自主模式下的 LLM 通常无法生成可执行规划。他们容易产生幻觉,这可能导致不合理的规划、偏离任务提示或无法遵循复杂的指令 [55]。提示稳健性在多阶段实验环境中提出另一个关键挑战。提示措辞的细微变化,即使传达相同的意图,也会导致整个规划和执行过程中的指导不一致 [195],从而可能影响实验结果。此外,自回归 LLM 的处理速度慢,会阻碍迭代和多步骤实验计划中的实时反馈,从而限制其效率。特定于应用的挑战,包括难以适应专业角色,因为 LLM 难以模拟特定领域的科学专业知识和认知过程,而这些对于跨研究领域的普遍性至关重要 [167]。例如,某些实验可能需要模拟道德敏感或容易出错的场景,这通常与 LLM 中嵌入的安全一致价值观相冲突。
未来的工作
。未来的研究应通过增强核心模型功能并根据实验任务的独特要求对其进行定制来解决这些挑战。为了减轻幻觉风险,可以将强大的验证机制集成到工作流程中,例如使用外部声音验证器交叉引用输出 [64] 或采用实时反馈回路动态纠正不准确性 [59]。提高提示的鲁棒性可能涉及开发自适应系统,监控和修改提示结构,响应上下文变化,确保规划阶段的一致性。可以创建针对多步推理优化的更快、精简 LLM 版本或将 LLM 与更小、特定于任务的模型相结合,平衡速度和准确性的混合系统,提高效率。为了更有效地适应角色,使用高质量的特定领域数据集对 LLM 进行微调,或开发模块化框架,可以更精确地模拟专门的科学推理。此外,设计自适应对齐协议,可能允许 LLM 在解决特定实验目标时安全地模拟伦理上复杂的场景。
LLM 在科学论文写作的三个关键领域:引文文本生成、相关工作生成以及起草和写作。
引用文本生成
引用文本生成任务旨在根据引用论文的上下文,为一系列待引用论文生成准确的文本摘要。LLM 通过提供丰富的上下文理解和连贯性,采用一系列方法来提高准确性和可用性,在引用文本生成的各个方面发挥着关键作用。Xing [170] 的初步研究使用一个指针生成器网络,该网络可以基于交叉注意机制从手稿和被引论文的摘要中复制单词来生成引文文本。Li & Ouyang [88] 提示 LLM 生成自然语言描述,强调引用网络中论文对之间的关系。另一方面,AutoCite [161] 和 BACO [40] 等模型通过采用多模态方法扩展这项工作,将引用网络结构与文本上下文相结合,以生成上下文相关且语义丰富的引文文本。此外,Gu & Hahnloser [43]、Jung [63] 允许用户指定引用意图和关键字等属性,将这些属性集成到结构化模板中,并对 LM 进行微调以生成符合其需求的引用文本。
相关工作生成
此任务涉及根据前沿参考论文为科学论文创建相关工作部分 [45]。与传统的多文档摘要模型 [23, 51] 相比,LLM 在处理科学文献的大量输入长度和提供丰富的上下文理解方面表现出色。LLM 在各种自然语言理解和生成任务中的成功,加上其庞大的上下文窗口,最近使更全面、更细致的文献综述成为可能,促进了不同研究领域的更深入的洞察和联系。
Martin-Boyle [109]、Zimmermann [197] 开展案例研究,探索 ChatGPT 在文献综述任务和相关工作生成的应用,展示了其通过快速扫描大量科学出版物数据集并生成相关工作部分的初稿来帮助研究人员的能力。然而,直接将 LLM 应用于学术写作可能会导致幻觉等问题,即生成的内容不是基于事实数据,可能无法准确反映最新的研究。为了解决这些问题,许多研究都基于
检索增强生成 (RAG)
[76] 原理,该原理通过从外部来源检索的事实内容来增强基于 LLM 的文献综述生成 [3, 50, 138, 150, 181]。例如,LitLLM [3] 利用 RAG 在网站上检索相关论文并重新排序,从而减少全面文献综述所需的时间和精力,同时最大限度地减少幻觉。HiReview [50] 通过将基于 RAG 的 LLM 与基于图的层次聚类相结合,更进一步。该系统首先在引用网络中检索相关子社区,并生成分层分类树。然后,LLM 会为每个集群生成摘要,确保完整覆盖和逻辑组织。Nishimura [112] 整合 LLM,以强调相关工作部分中的新颖性陈述。通过将新研究与现有方法进行比较,LLM 有助于生成相关工作部分,明确突出新内容和不同内容,从而有助于对目标论文和先前文献进行更有影响力的比较。
起草和写作
在自动化科学写作领域,LLM 被用于各种任务,从生成特定文本元素到撰写整篇研究论文。对于更具体的写作任务,August [8] 建议生成针对不同受众的可控复杂度科学定义,而 SCICAP [48] 则自动生成科学图形的字幕,从而能够快速准确地描述视觉数据。更全面的系统,如 PaperRobot [160],引入一种增量起草方法,其中 LLM 帮助根据用户输入组织和起草论文的各个部分。同样,CoAuthor [73] 采用人机协作的方法,其中 LLM 通过生成建议和扩展文本来帮助作者。对于完全自主写作,Ifargan [56] 探索 LLM 如何从数据分析到最终草稿生成完整的研究论文,而 AutoSurvey [165] 则展示 LLM 通过综合和组织现有研究自主撰写综合调查的能力。最后,AI Scientist [103] 和 CycleResearcher [167] 提出一个更广泛的系统,它不仅可以起草科学论文,还可以为整个科学过程做出贡献,包括假设生成和实验设计,这凸显完全自动化科学发现和写作的潜力。
基准
总结自动化科学论文写作系统在三个关键领域的评估方法:引文文本生成、相关工作生成以及起草和写作。下表 4 全面总结每个任务的具体数据集、指标和基准。
引用文本生成
。ALCE [38] 基准是主要标准。从三个维度对系统进行评估:流畅性、正确性和引用文本质量。ALCE 旨在测试模型在不同领域生成具有准确引用长篇答案的能力。他们的数据集涵盖广泛的问题类型,语料库从维基百科到网络规模的文档集合。CiteBench [37] 是另一个基准,它统一多个现有任务,使用定性和定量指标来标准化对不同设计和领域引文文本生成的评估。
相关工作生成
。目前,由于不同研究中的任务定义和简化假设存在巨大差异,因此没有一个基准被普遍认可 [89]。然而,大多数方法都是建立在语料库级数据集上的,常用的科学文章来源包括:ACL 选集网络 (AAN) 语料库 [123]、SciSummNet [178]、Delve [5]、语义学者开放研究语料库 (S2ORC) [102] 和面向引用的相关工作注释 (CORWA) [86]。
摘要指标 ROUGE
[93] 是自动评估中最常用的指标,一些作品也使用
翻译指标 BLEU
[115]。此外,人工评估通常会根据五点李克特量表对流畅性、可读性、与目标论文的连贯性以及与所引用作品的相关性和信息量进行评分。
起草和写作
。SciGen [111] 基准支持从科学表格中评估推理感知文本生成,突出文本生成中算术推理的挑战。另一个关键基准 SciXGen [22] 评估上下文-觉察的文本生成,重点关注外部信息与生成文本的集成。SciGen 和 SciXGe 都使用 BLUE [115]、METEOR [10] 和 MoverScore [189] 等指标以及人工评估。