自从 2022 年底 ChatGPT 发布以来,用大模型辅助写学术论文已经不是什么稀罕事,各种“超详细 ChatGPT 论文写作、润色指南”一搜一大把。
但有些学者可能用得太过火,甚至还有一些一眼假的论文被发表。
比如下面这篇论文,在论文开篇第一句,就暴露了 ChatGPT 的痕迹:
“
当然,下面是你的主题的一个可能的介绍:
”
还有在论文正文中夹杂着
ChatGPT
经典话术:
“
我很抱歉...我是一个 AI 语言模型,我可以提供...
”
这些毫无意义的措辞居然可以通过合著者、编辑、审稿人、文字校对等重重审核而幸存下来。
对学术圈而言,直接让饱受幻觉问题困扰的大模型生成论文并发表,是一件可怕的事。这种论文,缺乏大量实验佐证结论,也缺少人类深思熟虑的过程,纯粹是从海量的语料库中拼凑而成,产出虽快但质量堪忧。
当然,这类一眼就能看出问题的论文只是少数。
在浩如烟海的学术论文中,AI 参与写作的论文究竟由多少呢?
最近斯坦福进行了首个系统性的大规模分析,借鉴人口统计学框架,分析了 2020 年 1 月至 2024 年 2 月期间共 950,965 篇论文,其中 arXiv 有 773,147 篇,bioRxiv 有 161,280篇,
Nature
期刊有 16,538 篇。arXiv
的论文涵盖计算机科学、电气工程与系统科学、数学、物理学和统计学等多个学科领域,得出了一些有趣的结果。
论文标题:
Mapping the Increasing Use of LLMs in Scientific Papers
论文链接:
https://arxiv.org/pdf/2404.01268.pdf
1. 计算机科学论文中 AI 修改比例最为显著
计算机科学论文中 AI 修改比例最为显著,到 2024 年 2 月,摘要达到 17.5%,引言中为 15.3%。
相比之下,数学论文和 Nature 论文增长最少,摘要修改率分别为 4.9% 和 6.3%,引言中分别为 3.5% 和 6.4%。
摘要部分
引言部分
2. ChatGPT 发布以来,论文中某些词汇使用频率激增
作者统计了计算机科学领域 arXiv 摘要和引言中(2010-2024)的词汇频率变化。下图显示了 LLM 与人类相比,使用频率显著偏高的前 4 个词的 log odds 比随时间的变化。这些词是:领域(realm)、复杂的(intricate)、展示(showcasing)、关键的(pivotal)。
在超过 10 年的时间(2010-2022)里,这些词汇的使用频率一直保持低位,但自 2023 年开始突然激增。
这一变化可能是由于 LLM 在生成文本时,可能会倾向于使用某些特定的词汇或表达方式,从而导致这些词汇在论文中的使用频率出现显著上升。
3. 第一作者在 arXiv 上发布的预印本数量越多,其使用 LLM 修改论文得可能性越大
如下图所示,作者统计了 2023 年第一作者发布预印本的数量,并分为两组:少于等于 2 和大于等于 3。在摘要部分中,预印本数量更多的作者的论文估计有 19.3% 的句子由 AI 修改,而发布 2 个或更少预印本的第一作者的论文为 15.6%(图 a)。
在引言部分,观察到类似的趋势,发布更多预印本的第一作者的论文,估计有 16.9% 的句子由 LLM 修改,而发布较少预印本的第一作者为 13.7%(图 b)。
这很可能是因为,计算机科学研究社区日益竞争激烈和快速发展的特性,促使研究人员必须采取措施加快写作进程,再加上他们对 LLM 的了解程度,使用起来更是得心应手。
4. 研究领域拥挤,论文相似度较高的领域,其 LLM 修改率较高
作者首先运用
OpenAI
的 text-embedding-ada-002 模型,对 arXiv 计算机科学论文的摘要和引言进行了嵌入计算。随后,根据这些嵌入之间的相似度,将论文分为两组:一组是相似度较高的论文(其距离低于中位数),另一组则是相似度较低的论文(其距离高于中位数)。
相似度高的论文往往处于相同的子领域或主题,研究发现,这些论文中由 AI 修改的比例相对较高,大约有 22.2% 的句子经过了 AI 的修改。而相似度低的论文中,这一比例则为 14.7%。
造成这一结果的原因有几个:一是在写作过程中使用 LLM 可能会导致论文在内容或写作风格上的相似性增加。二是社区内的压力也可能促使学者们试图模仿 LLM 生成文本的风格,以使其作品听起来更为一致。三是竞争激烈的子领域迫使研究人员更快地撰写论文并产生类似的研究成果,从而增加了对 LLM 这类工具的依赖。
5. 较短的论文显示出更高的 LLM 修改率
作者根据论文的全文(包括附录)单词计数,将论文分为两组:一组是单词数少于或等于 5,000 个的(这是四舍五入后的中位数),另一组则是单词数超过 5,000 个的。
从下图中我们可以看到,自 ChatGPT 发布以来,较短的论文在 AI 使用率上始终高于较长的论文。到 2024 年 2 月,较短论文的摘要部分估计有 17.7% 的句子是由大型语言模型(LLM)修改的,而较长论文的这一比例仅为 13.6%。在引言部分,也观察到了类似的趋势。
考虑到计算机科学会议论文通常有严格的页数限制,较长的论文可能在附录中包含了更多的实质性内容。较低的 LLM 使用率可能表明,那些致力于撰写更全面工作的研究人员较少依赖 LLMs。
评估方法:扩展的分布式语言模型量化框架
本文扩展了[1]提出的分布式语言模型量化(Distributional LLM quantification)框架来评估学术写作中使用 AI 修改的使用情况。
该框架的关键特性在于它在群体层面运行,无需对任何个体实例进行推断。正如先前论文所验证的,该框架在计算效率、准确性和泛化能力方面都远超同类方法,在显著的时间分布变化和其他现实分布变化下表现更好。主要包括以下步骤:
1. 问题表述
:设 P 和 Q 分别为人工编写和 LLM 修改文档的概率分布。混合分布由以下公式给出:
,
其中
α
是 AI 修改文档的比例。目标是基于观察到的文档
来估计
α。
2. 参数化
:为了使
α 可
识别,该框架模拟了人工编写和 LLM 修改文档中 token 出现的分布,对于选择的一组标记
,分别表示为
和
。使用每个 token 在人工编写和 LLM 修改文档中的出现概率
和
来参数化
和
。
3. 估计
:使用已知的人工编写文档和 LLM 修改文档集合
和
来估计出现概率
和
: