大约60年前,科学家们开始探索基于文献检索的科学发现,称为基于文献的发现 (LBD)
(Swanson, 1986)
。 这种方法集中于一种特定且狭隘类型的假设:概念对之间的联系,通常涉及药物和疾病。 LBD 引入了“ABC”模型,假设如果两个概念 A 和 C 与文献中的中间概念 B 同时出现,则假设它们之间存在联系。
大语言模型 (LLM) 的出现彻底改变了各个领域,最引人入胜的应用之一是它们生成科学假设的能力
(Wang et al., 2024; Baek et al., 2024; Lu et al., 2024)
。 LLM 在包含大量科学文献的庞大数据集上进行训练,具有令人印象深刻的识别模式和跨学科综合信息的能力。 通过利用其先进的自然语言处理 (NLP) 功能,这些模型可以提出研究人员可能无法立即注意到的新颖假设。 该过程始于模型接收提示,通常与特定科学领域相关,这引导模型生成基于现有知识的假设,同时融入创新的视角。 例如,SCIMON
(Wang et al., 2024)
利用从过去的科学论文中检索“灵感”来生成想法。 它通过迭代地将生成的想法与之前的论文进行比较并更新它们,直到达到足够的创新性,从而明确地优化创新性。 相反,Research Agent
(Baek et al., 2024)
以核心论文为主要关注点,通过在学术图谱上连接信息并基于其底层概念从以实体为中心的知识库中检索实体来扩展其知识。 它还利用多个评审代理来提供迭代评审和反馈,以改进生成的想法。 AI Scientist 利用大型语言模型 (LLM) 自动生成研究想法、实施和执行实验、搜索相关作品以及撰写机器学习领域的全面研究论文。 AI Scientist 旨在自动化整个科学过程,从构思到实验和迭代改进。
具体来说,我们收集了过去十年发表在ICLR、NeurIPS、ICML、ACL、NAACL和EMNLP上的论文,形成了一个包含48,895篇论文的数据库。 对于每篇论文,我们解析PDF文件并提取其标题、摘要、引言、方法和参考文献部分。 然后,如图
1
所示,给定一个LLM
f
,我们提示它阅读并总结论文,如下所示:
其中
T
t
(
p
)
,
T
a
(
p
)
,
T
n
(
p
)
,
T
m
(
p
)
是论文
p
的标题、摘要、引言和方法部分。
𝔼
(
p
)
,
T
b
(
p
)
,
T
s
(
p
)
,
T
i
(
p
)
,
T
d
(
p
)
,
T
r
(
p
)
是提取的实体、背景、摘要、主要思想、详细思想和核心参考文献,如图
1
所示。
τ
i
,
i
∈
{
1
,
2
,
3
}
代表我们设计的提示模板,具体的提示在附录
A.1
中显示。 在实践中,我们使用GLM-4
2
(Zeng et al., 2024)
作为
f
。此外,图
1
中的“核心参考文献”是指提取引言和方法部分中引用的论文,因为我们认为这些参考文献对论文
p
的影响最大。
此外,背景、摘要和主要思想也使用Sentence-BERT
(Reimers & Gurevych, 2019)
进行编码,以分别获得它们的嵌入
e
b
(
p
)
,
e
s
(
p
)
和
e
i
(
p
)
。 所有提取的信息都记录到我们的文献数据库中。
为了更快地检索文献,我们还在数据库中构建了一个论文-实体图。 我们还将论文和实体的所有出现关系存储在数据库中。 如图
1
所示,如果实体
T
e
1
出现在论文
p
1
中,则这两个论文节点之间将存在一条边。
如图
2
所示,给定用户提供的背景
T
b
(
u
)
,我们使用Sentence-BERT
(Reimers & Gurevych, 2019)
将其编码为嵌入向量,标记为
e
b
(
u
)
。 然后,使用
e
b
(
u
)
在文献数据库
𝔻
中搜索其语义邻居。 具体来说,将
e
b
(
u
)
与文献数据库中所有论文背景的
e
b
进行比较,以识别具有最大余弦相似度作为基于语义检索结果的论文子集。 假设检索到的论文为
ℕ
1
,
其中
p
或
i
代表文献数据库中的一篇论文。 在实践中,我们对TopK操作采用
K
=
55
。
基于实体的检索。
正如我们在图
2
中看到的,在语义文献检索之后,我们将用户提供的背景
T
b
(
u
)
作为输入,并提示GLM-4提取背景中的所有实体。 然后,基于语义检索的论文的摘要部分(
即
p
∈
ℕ
1
)也提供给GLM-4以提取其实体。 我们使用的确切提示在附录
A.1
中提供。 实体提取后,我们还通过将这些实体反馈给GLM-4并让它生成一些同义词来扩展实体集。 实体扩展背后的动机是相同的概念可以用不同的方式表达,而实体扩展可以帮助我们在接下来的过程中检索使用同义词的论文。 我们将同义词扩展后的实体集表示为
𝔼
1
。
此外,我们还通过基于实体邻域的方法进一步扩展实体集。 简单来说,对于当前实体集
𝔼
1
中的实体
T
e
,任何包含实体
T
e
的论文
p
也应将其其他实体包含在候选实体集中。 然而,我们发现这会引入许多冗余甚至嘈杂的实体,原因有两个:
只有当某个实体至少在
m
篇论文中与其他实体一起出现时,才会对其进行补充。 在实践中,我们取
m
=
2
。
2.
受TF-IDF算法
(Jones, 2004)
的启发,我们认为,如果某个实体在整个论文数据库中频繁出现,则表明该实体的代表性较低。 因此,我们只选择在所有文献中出现次数最少的
n
个实体作为最终实体集。 在实践中,我们取
n
=
5
。
二次扩展后的实体集表示为
𝔼
(
u
)
。 实体是与论文主题最相关的关键词。 如果一篇论文包含与我们实体集
𝔼
(
u
)
中实体匹配的实体,则该论文可能对我们有所帮助。 因此,对于集合
𝔼
(
u
)
中的任何实体
T
e
,我们在数据库中搜索也包含
T
e
的论文。 将所有搜索到的论文标记为集合
ℕ
2
,
基于共现的检索。
在上述方法中,我们通过实体和语义检索与用户提供的背景相关的文献。 其中,实体代表论文的具体细节,而语义代表背景中更广泛的整体含义。 然而,在实际研究中,我们经常会遇到两篇论文,
p
1
和
p
2
,它们在细节上或语义上都不相似,但却被一起引用。 这表明研究人员在过去的研究中发现了
p
1
和
p
2
之间的一种潜在关系。 为了捕捉并充分利用这些见解,我们提出了一种基于引用共现的文献检索方法。 具体而言,如图
2
所示,对于我们已检索到的任何论文
p
1
,如果
p
2
在其他论文中经常与
p
1
同时被引用,我们将把
p
2
包含在我们的文献检索集中:
其中,共同引用意味着
p
1
和
p
2
经常被其他论文同时引用。 在实践中,我们选择与每篇论文最常共同引用的
2
篇论文。
其中
e
s
(
p
)
和
e
i
(
p
)
是观点摘要和主要思想的嵌入,如图
1
所示。 在实践中,我们选择
w
s
=
w
i
=
0.5
。 然后,我们应用聚类算法根据它们的余弦相似度对论文进行分组。 在实践中,由于所有论文的语义嵌入都预先记录在数据库中,我们只需要执行相似度比较和聚类过程。 最后,我们分别从每个聚类中选择一篇论文,构成检索到的论文集。
AI Scientist
(Lu et al., 2024)
,在给定一个现有想法时,会通过多轮大语言模型 (LLM) 推理迭代地改进该想法。 之后,AI Scientist 将把这个想法扩展成一篇完整的论文。 由于我们的算法只关注提出想法,我们只将想法提出的部分与 AI Scientist 进行比较。 为此,我们对AI科学家流程进行了一些小的调整。 具体来说,对于用户提供的背景信息
T
b
(
u
)
,我们首先从文献数据库中检索一篇具有相似背景的论文。 这篇论文中的想法作为AI科学家改进的初始想法。 相反,我们的算法直接使用用户提供的背景信息
T
b
(
u
)
作为提出想法的输入。 然后,我们将两种算法生成的创意与ACL 2024论文中的创意进行相似度比较。