专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

SciPIP：基于大语言模型的科学论文选题建议生成器

FightingCV · 公众号 · · 2024-12-19 13:29

正文

摘要

知识的指数级增长和跨学科研究日益增长的复杂性给研究人员带来了巨大的挑战，包括信息过载和探索新思想的困难。大语言模型 (LLM) 的进步，例如 GPT-4，在增强选题方面显示出巨大的潜力，但如何有效地利用大型模型进行合理的选题尚未得到充分探索。本文提出了一种科学论文选题建议生成器 (SciPIP)。基于用户提供的研究背景，SciPIP 从文献数据库中检索有用的论文，同时利用大语言模型的能力生成更新颖、更可行的选题。为此， 1) 我们构建了一个文献检索数据库，提取大量论文的多维度信息以实现快速访问。然后，提出了一种基于语义、实体和引用共现的文献检索方法，根据用户提供的背景从多个方面搜索相关文献。 2) 在文献检索之后，我们引入了双路径选题策略，其中一条路径从检索到的文献中推断解决方案，另一条路径通过模型头脑风暴生成原创性想法。然后我们将两者结合起来，以实现可行性和原创性之间的良好平衡。通过在自然语言处理 (NLP) 领域的广泛实验，我们证明 SciPIP 可以检索到与现有顶级会议论文相似的引用，并生成许多与之相符的选题。此外，我们使用大语言模型评估了 SciPIP 生成的其他选题的原创性，进一步验证了我们提出的方法的有效性。 ¹ .

1 引言

随着知识的指数级增长和跨学科研究日益增长的复杂性，机器学习研究人员面临着巨大的挑战，包括信息过载和探索新思想的困难。在此背景下，高效地产生新的想法和创新概念已成为迫切需要。近期大型语言模型（例如，GPT-4 (Ouyang等人，2022) ，LLaMA (Touvron等人，2023a；b) ，Qwen (Bai等人，2023；Yang等人，2024) ，GLM-4 (Zeng等人，2024) ，以及等等）的进步，已经展现出在增强创新生成方面的巨大潜力。这些模型不仅能够理解和生成复杂的学术内容，而且擅长对齐多模态信息，构建隐含的思维链，并揭示不明显的联系。利用大型语言模型来协助研究人员生成新的想法，对提高研究效率具有重大意义，并为未来智能研究助理的设计提供了理论基础和实践指导。

基于大型语言模型（LLM）的创意提出者应该能够理解用户提供的研究背景，自主检索相关文献，并生成旨在解决给定背景内问题的新颖且可行的想法。一些先前的工作已经提出了他们的方法 (Wang等人，2024; Baek等人，2024; Lu等人，2024) 。然而，现有的基于LLM的创意提出者仍然面临两大挑战：1）与人类研究人员类似，文献检索对于激发新想法和避免重复想法至关重要。然而，在线文献搜索仅限于简单的关键词匹配，无法充分利用用户提供的信息或现有文献，导致检索结果不完整且不准确。 2）科学论文的想法需要新颖性和可行性兼备。然而，关于如何使大型语言模型能够生成全新的想法并同时确保其可行性，仍然是一个有待探索的问题。

为了应对上述挑战，我们提出了我们的科学论文创意提出者（SciPIP）。针对挑战1），SciPIP首先构建了一个文献检索数据库。具体来说，我们从自然语言处理（NLP）领域收集了大量的文献，并使用实体提取、语义编码、摘要和引文分析等技术提取每篇论文的多个维度信息。将这些信息存储在数据库中，可以在检索过程中快速访问文献的各个方面。基于此数据库，我们提出了一种基于语义、实体和引文共现的文献检索方法（基于SEC的检索）。在此框架中，“语义”捕捉论文的全局信息，“实体”关注局部细节，“引文共现”反映了先前研究人员发现的隐藏关系。通过在这些三个不同粒度级别上进行匹配，SciPIP 提供了更全面的文献检索。

为了应对挑战2)，SciPIP 引入了一种新的想法提出方法。它首先整理检索到的文献，并根据检索到的作品生成想法。随后，SciPIP 使用头脑风暴的方法生成新的想法，无需参考文献。根据基于文献和基于头脑风暴的思想生成方法的组合，我们得到了 SciPIP 的三个变体。通过我们的方法生成的想法会进一步过滤和改进，以增强其新颖性和可行性。

进行了大量的实验来评估NLP领域中的想法提出和文献检索。在回顾性实验中，我们使用 ACL 2024 论文的背景作为输入，以测试模型能否生成与已发表论文中相同的思想，或者 SciPIP 是否能够检索与实际引文相同的参考文献。此外，我们还进行了创新实验，其中提示模型根据给定的背景自由地提出想法，并由大语言模型 (LLM) 根据新颖性、可行性等等方面评估所提出想法的质量。实验结果表明，与现有方法相比，SciPIP 可以匹配更多现有想法，并生成具有更高新颖性和潜力的想法。

2 相关工作

大约60年前，科学家们开始探索基于文献检索的科学发现，称为基于文献的发现 (LBD) (Swanson, 1986) 。这种方法集中于一种特定且狭隘类型的假设：概念对之间的联系，通常涉及药物和疾病。 LBD 引入了“ABC”模型，假设如果两个概念 A 和 C 与文献中的中间概念 B 同时出现，则假设它们之间存在联系。

大语言模型 (LLM) 的出现彻底改变了各个领域，最引人入胜的应用之一是它们生成科学假设的能力 (Wang et al., 2024; Baek et al., 2024; Lu et al., 2024) 。 LLM 在包含大量科学文献的庞大数据集上进行训练，具有令人印象深刻的识别模式和跨学科综合信息的能力。通过利用其先进的自然语言处理 (NLP) 功能，这些模型可以提出研究人员可能无法立即注意到的新颖假设。该过程始于模型接收提示，通常与特定科学领域相关，这引导模型生成基于现有知识的假设，同时融入创新的视角。例如，SCIMON (Wang et al., 2024) 利用从过去的科学论文中检索“灵感”来生成想法。它通过迭代地将生成的想法与之前的论文进行比较并更新它们，直到达到足够的创新性，从而明确地优化创新性。相反，Research Agent (Baek et al., 2024) 以核心论文为主要关注点，通过在学术图谱上连接信息并基于其底层概念从以实体为中心的知识库中检索实体来扩展其知识。它还利用多个评审代理来提供迭代评审和反馈，以改进生成的想法。 AI Scientist 利用大型语言模型 (LLM) 自动生成研究想法、实施和执行实验、搜索相关作品以及撰写机器学习领域的全面研究论文。 AI Scientist 旨在自动化整个科学过程，从构思到实验和迭代改进。

3 方法

我们提出了一种科学论文想法提出器 (SciPIP)，它以用户提供的特定研究领域的背景信息作为输入，从数据库中检索相关文献，并生成新颖且可行的想法。为此，我们将在第 3.1 节构建一个文献数据库，用于在想法提出过程中检索文献。然后，在第 3.2 节中，我们将详细说明如何检索与用户提供的背景相关的文献。最后，在第 3.3 节中，我们将概述想法提出的过程。

3.1 文献数据库构建

图1：构建文献数据库的流程。

就像人类研究人员一样，阅读其他文献并从中汲取灵感对于大型语言模型生成有价值的想法是一个重要的过程。然而，在线阅读文献是一个非常耗时的过程，因此我们预先收集了一个文献数据库，用于后续的文献检索和想法提出过程。

具体来说，我们收集了过去十年发表在ICLR、NeurIPS、ICML、ACL、NAACL和EMNLP上的论文，形成了一个包含48,895篇论文的数据库。对于每篇论文，我们解析PDF文件并提取其标题、摘要、引言、方法和参考文献部分。然后，如图 1 所示，给定一个LLM f ，我们提示它阅读并总结论文，如下所示：

其中 T t ( p ) , T a ( p ) , T n ( p ) , T m ( p ) 是论文 p 的标题、摘要、引言和方法部分。 𝔼 ( p ) , T b ( p ) , T s ( p ) , T i ( p ) , T d ( p ) , T r ( p ) 是提取的实体、背景、摘要、主要思想、详细思想和核心参考文献，如图 1 所示。 τ i , i ∈ { 1 , 2 , 3 } 代表我们设计的提示模板，具体的提示在附录 A.1 中显示。在实践中，我们使用GLM-4 ² (Zeng et al., 2024) 作为 f 。此外，图 1 中的“核心参考文献”是指提取引言和方法部分中引用的论文，因为我们认为这些参考文献对论文 p 的影响最大。

此外，背景、摘要和主要思想也使用Sentence-BERT (Reimers & Gurevych, 2019) 进行编码，以分别获得它们的嵌入 e b ( p ) , e s ( p ) 和 e i ( p ) 。所有提取的信息都记录到我们的文献数据库中。

为了更快地检索文献，我们还在数据库中构建了一个论文-实体图。我们还将论文和实体的所有出现关系存储在数据库中。如图 1 所示，如果实体 T e ⁢ 1 出现在论文 p ⁢ 1 中，则这两个论文节点之间将存在一条边。

3.2 文献检索和过滤

文献检索是提出想法的重要过程。它应该遵循全面性和低冗余的原则。一方面，全面的检索可以为研究人员提供有益的启发，并避免重复提出想法。另一方面，检索到的论文越多并不一定越好，因为冗余的论文也可能引入噪声并分散研究人员的注意力。为此，我们首先提出一种基于语义、实体和引文共现 (SEC) 的文献检索方法。然后，我们提出一种基于聚类的文献过滤方法来挑选最有帮助的论文。该过程如图 2 所示。

图2：基于SEC的文献检索和文献聚类的流程。用户提供的背景信息中的红色词语是实体示例。

3.2.1 基于SEC的文献检索

基于语义的检索。

如图 2 所示，给定用户提供的背景 T b ( u ) ，我们使用Sentence-BERT (Reimers & Gurevych, 2019) 将其编码为嵌入向量，标记为 e b ( u ) 。然后，使用 e b ( u ) 在文献数据库 𝔻 中搜索其语义邻居。具体来说，将 e b ( u ) 与文献数据库中所有论文背景的 e b 进行比较，以识别具有最大余弦相似度作为基于语义检索结果的论文子集。假设检索到的论文为 ℕ 1 ，

其中 p 或 i 代表文献数据库中的一篇论文。在实践中，我们对TopK操作采用 K = 55 。

基于实体的检索。

正如我们在图 2 中看到的，在语义文献检索之后，我们将用户提供的背景 T b ( u ) 作为输入，并提示GLM-4提取背景中的所有实体。然后，基于语义检索的论文的摘要部分（即 p ∈ ℕ 1 ）也提供给GLM-4以提取其实体。我们使用的确切提示在附录 A.1 中提供。实体提取后，我们还通过将这些实体反馈给GLM-4并让它生成一些同义词来扩展实体集。实体扩展背后的动机是相同的概念可以用不同的方式表达，而实体扩展可以帮助我们在接下来的过程中检索使用同义词的论文。我们将同义词扩展后的实体集表示为 𝔼 1 。

此外，我们还通过基于实体邻域的方法进一步扩展实体集。简单来说，对于当前实体集 𝔼 1 中的实体 T e ，任何包含实体 T e 的论文 p 也应将其其他实体包含在候选实体集中。然而，我们发现这会引入许多冗余甚至嘈杂的实体，原因有两个：

1.

由于论文的具体内容要求，相关性低的两个实体可能同时出现在一篇论文中。
2.

高频词并不能有效地表征一篇论文或其背景。例如，用户提供的背景可能包含术语“Transformer”，但这并不意味着在其他论文中与“Transformer”共同出现的实体对我们都很重要。这是因为“Transformer”是一个高频词，可能出现在许多最近的出版物中。

为此，我们提出了两种基于邻域的实体扩展过滤机制：

1.

只有当某个实体至少在 m 篇论文中与其他实体一起出现时，才会对其进行补充。在实践中，我们取 m = 2 。
2.

受TF-IDF算法 (Jones, 2004) 的启发，我们认为，如果某个实体在整个论文数据库中频繁出现，则表明该实体的代表性较低。因此，我们只选择在所有文献中出现次数最少的 n 个实体作为最终实体集。在实践中，我们取 n = 5 。

二次扩展后的实体集表示为 𝔼 ( u ) 。实体是与论文主题最相关的关键词。如果一篇论文包含与我们实体集 𝔼 ( u ) 中实体匹配的实体，则该论文可能对我们有所帮助。因此，对于集合 𝔼 ( u ) 中的任何实体 T e ，我们在数据库中搜索也包含 T e 的论文。将所有搜索到的论文标记为集合 ℕ 2 ，

基于共现的检索。

在上述方法中，我们通过实体和语义检索与用户提供的背景相关的文献。其中，实体代表论文的具体细节，而语义代表背景中更广泛的整体含义。然而，在实际研究中，我们经常会遇到两篇论文， p 1 和 p 2 ，它们在细节上或语义上都不相似，但却被一起引用。这表明研究人员在过去的研究中发现了 p 1 和 p 2 之间的一种潜在关系。为了捕捉并充分利用这些见解，我们提出了一种基于引用共现的文献检索方法。具体而言，如图 2 所示，对于我们已检索到的任何论文 p 1 ，如果 p 2 在其他论文中经常与 p 1 同时被引用，我们将把 p 2 包含在我们的文献检索集中：

其中，共同引用意味着 p 1 和 p 2 经常被其他论文同时引用。在实践中，我们选择与每篇论文最常共同引用的 2 篇论文。

最后，所有检索到的论文可以表示为 ℕ = ℕ 1 ∪ ℕ 2 ∪ ℕ 3 。

3.2.2 文献聚类

基于SEC的文献检索之后，我们可能会得到500多篇论文，因此进一步筛选对于挑选出最重要的论文至关重要。由于我们观察到检索到的论文通常表达类似的观点，因此我们希望在生成新的观点时，只保留那些内容相似的论文中的一篇。为了实现这一点，我们建议基于余弦相似度度量对论文进行聚类。具体来说，我们首先定义检索论文的嵌入为：

其中 e s ( p ) 和 e i ( p ) 是观点摘要和主要思想的嵌入，如图 1 所示。在实践中，我们选择 w s = w i = 0.5 。然后，我们应用聚类算法根据它们的余弦相似度对论文进行分组。在实践中，由于所有论文的语义嵌入都预先记录在数据库中，我们只需要执行相似度比较和聚类过程。最后，我们分别从每个聚类中选择一篇论文，构成检索到的论文集。

图3：三种观点提出的流程。

3.3 方案构想

在完成文献检索后，我们提出了三种生成研究论文创意的方法。本质上，创意生成过程可以利用两种信息：第一种来自检索论文的内容，这些内容激发大语言模型 (LLM) 生成创意；第二种涉及 LLM 自由头脑风暴以产生新的创意。基于此原则，我们描述了三种创意生成方法，它们在头脑风暴的应用上有所不同。

如图 3 (a) 所示，直接方案法 (SciPIP-A) 不使用头脑风暴。而第一种双路径方案法 (SciPIP-B)，如图 3 (b) 所示，则将用户提供的背景信息分成两个分支。第一个分支利用此背景信息进行文献检索、问题总结和基于检索文献的创意生成，而第二个分支则直接从用户提供的背景信息中进行头脑风暴，寻找解决方案。在两个分支独立生成创意之后，将输出结果合并，随后进行过滤和完善，以产生最终创意。同样，如图 3 (c) 所示，第二种双路径方案法 (SciPIP-C) 的过程类似于 SciPIP-B，主要区别在于，通过 LLM 头脑风暴生成的内容不仅用于创意生成，还与用户提供的背景信息相结合，用于实体提取和其他文献检索过程。我们将在接下来的章节中详细阐述这三种方案构想方法。本节默认使用 GPT-4o。 ³ by default in this section.

3.3.1 直接创意方案法

如图 3 (a) 所示，在直接方案法中，我们首先按照第 3.2 节中描述的流程检索论文。然后，利用用户提供的背景信息以及检索到的论文来提示 LLM 总结我们要解决的核心问题并提供论据。特定的提示可以在附录 A.1 中找到。

通过总结后的问题和论证，提示大语言模型 (LLM) 生成大约 10 个初始想法。在提示中，提供了问题、论证和检索到的论文。鼓励大语言模型生成清晰、创新、有效和全面的想法。此步骤的具体提示也可以在附录 A.1 中找到。

尽管提示已经声明，但最初生成的想法在新颖性或与问题的相关性方面可能仍然存在不足。为解决这个问题，我们使用提示工程对初始想法进行过滤（提示在附录 A.1 中进行了说明），主要标准是这些想法是针对给定问题生成的。此外，这些想法必须具有高度的新颖性和可行性。在此过程中，每个生成的想法都会被独立评估，大约一半的想法会被过滤掉。

然后，鼓励大语言模型通过考虑它们之间的相互关系来进一步改进过滤后的想法。也就是说，大语言模型的任务是考虑这些想法的兼容性，确保它不会生成冲突或重复的想法。此外，如果需要，大语言模型需要生成公式或算法来更好地阐述这些想法。提示显示在附录 A.1 中。最终，将提出大约 3 到 4 个改进后的想法。

3.3.2 双路径想法提出方法

我们发现，直接生成的想法往往严重依赖于检索到的文献，有时与这些论文中提出的方法非常相似。它们经常涉及将其他领域的方法迁移过来，或对同一领域内现有方法进行微小改进，导致新颖性相对普通，很少产生突破性的想法。

因此，我们进一步提出了一种包含头脑风暴的创意提出者，鼓励大语言模型（LLM）产生更多新颖的想法。具体来说，头脑风暴可以在创意生成的两个过程中发挥作用。如图 3 (b)所示，SciPIP-B有两个路径，其中一个路径遵循直接提案方法，而另一个路径利用LLM根据用户输入的背景进行头脑风暴，并将这些结果作为创意输出。最终，这些创意将与基于检索论文生成的创意合并，经过过滤和提炼，以产生最终的创意。在此模型中，头脑风暴的结果与基于检索论文生成的创意无关。

在另一种方法中，如图 3 (c)所示，头脑风暴独立生成创意，同时也用于文献检索。具体来说，我们从头脑风暴结果中提取实体，并将它们作为文献检索过程中实体集的一部分。通过这种方法，头脑风暴中产生的一些关键词也有助于提高文献检索的有效性。通过头脑风暴产生的创意也将与文献检索后产生的创意合并。

4 实验

4.1 评估数据集

我们收集了ACL 2024接受的所有论文，包括长篇论文、短篇论文、研究发现和研讨会论文。排除少数无法正确解析的PDF文件后，剩余1968篇论文可用于分析。剩余论文的处理方式与第 3.1 节中文献数据库中的论文类似，预先提取了它们的实体、背景、摘要、主要思想、详细思想和参考文献。

本研究中的实验分为两部分：回顾性实验和创新实验。回顾性实验是指在提供论文背景信息作为输入的情况下，测试不同的算法是否能够在评估数据集（即 ACL 2024 论文）上生成与原始论文相同的思想和文献检索结果。相反，创新性实验允许模型自由提出新的想法，然后从新颖性和可行性等多个角度对这些想法进行评估。

4.2 想法提出的回顾性实验。

表1：成功匹配 ACL 2024 想法的提出的想法数量。评分较高的想法更好。 “#” 表示“数量”。 ^† 的结果是基于 1968 个输入背景的平均值。

Proposal Methods	Variants	#Backgrounds/	#Ideas of Similarity Score
Proposal Methods	Variants	#Proposed Ideas	4	3	2	1	0
AI Scientist	-	100 / 400	0	58	211	123	8
SciPIP	SciPIP-A	100 / 385	5	115	192	71	2
	SciPIP-B	100 / 379	4	139	157	75	4
	SciPIP-C ^†	100 / 388	5	117	177	85	4
	SciPIP-C	1968 / 7638	91	2305	3492	1681	69

表2：从新颖性和可行性方面提出的想法的胜率。这些想法根据它们与最相似的现有想法的相似性得分进行分类。实验是在 SciPIP-C 提出的 7638 个想法上进行的。

Similarity Score	4	3	2	1	0
Novelty	10.2%	13.1%	16.4%	20.1%	40.2%
Feasibility	19.1%	11.5%	16.7%	25.5%	23.2%

比较算法。

AI Scientist (Lu et al., 2024) ，在给定一个现有想法时，会通过多轮大语言模型 (LLM) 推理迭代地改进该想法。之后，AI Scientist 将把这个想法扩展成一篇完整的论文。由于我们的算法只关注提出想法，我们只将想法提出的部分与 AI Scientist 进行比较。为此，我们对AI科学家流程进行了一些小的调整。具体来说，对于用户提供的背景信息 T b ( u ) ，我们首先从文献数据库中检索一篇具有相似背景的论文。这篇论文中的想法作为AI科学家改进的初始想法。相反，我们的算法直接使用用户提供的背景信息 T b ( u ) 作为提出想法的输入。然后，我们将两种算法生成的创意与ACL 2024论文中的创意进行相似度比较。

评估协议。

为了评估生成的创意与ACL 2024论文中创意的匹配率，我们首先按照第 3.1 节中的方法预处理所有ACL论文，并将它们存储在数据库中。然后，基于余弦距离比较生成的创意，从数据库中检索出10个最相似的创意。接下来，使用提示工程，GPT-4选择最相似的想法，并分配一个0到5之间的相似度分数，其中分数越高表示相似度越高。从我们的观察来看，4分表示这两个想法几乎相同，只是在细节上略有不同，而3分或更低的分数则表明差异更大。其中，SciPIP-C在所有ACL 2024论文上进行测试，而其他方法则在整个测试集中随机抽取100个背景进行测试。

但是，我们认为回顾性实验中得分较低的想法并不一定缺乏价值。相反，其中一些想法表现出很强的创新性和可行性，尽管它们与ACL 2024上发表的想法不同。为了进一步评估SciPIP生成的所有想法的新颖性和可行性，我们使用大型语言模型（LLM）进行评估。对于每一轮比较，我们从 5 相似度分数中各抽取一个想法，并要求LLM根据其新颖性和可行性对它们进行排名。然后，我们记录各轮中不同相似度分数的想法的胜率（即排名第一的概率）。

结果与分析。

如表 1 所示，我们提出的三种方案策略平均可以从每100个输入背景中生成 4 到 5 个与ACL 2024会议论文高度匹配的想法。这表明SciPIP能够生成与人类思想一致的想法，而AI科学家生成的所有想法中最高的相似度评分仅为 3 。此外，我们提出的三种方法表现出相似的性能。

此外，表 2 中的结果表明，与已发表的想法相似度较低的想法甚至显示出更高的独创性，但原因仍需进一步探索。此外，就可行性而言，这些想法并没有太大差异。

表3：提议想法的新颖性评分。这些分数是在与Semantic Scholar中类似论文进行比较后由GPT-4评估的。

Proposal Methods	#Backgrounds/	#Ideas of Novelty Score
Proposal Methods	#Proposed Ideas	10	9	8	7	6	5	4	3	2	1	0
AI Scientist	100 / 400	0	12	131	98	55	30	44	26	4	0	0
SciPIP-A	100 / 385	0	92	145	73	37	16	14	8	0	0	0
SciPIP-B	100 / 379	0	63	161	55	37	19	26	14	4	0	0
SciPIP-C	100 / 373	0	67	155	64	40	15	20	10	2	0	0