分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

人工智能学家 · 公众号 · AI · 2024-10-16 17:49

正文

导语

最近，2024年诺贝尔物理学奖颁奖授予人工神经网络与机器学习，化学奖授予蛋白质设计和结构预测，展现了人工智能在推动科学创新方面的重要作用。然而，AI 到底如何促进当下科学的发展？又将如何影响科学的未来？对于 AI 带来的广阔机遇，科学家做好准备了吗？香港大学社会科学学院助理教授高见与美国西北大学凯洛格商学院教授王大顺合作于10月11日在 Nature Human Behaviour 发表最新研究 ，对这些问题提供了定量解释。

通过分析 7460 万篇论文、710 万项专利和 420 万份课程大纲数据，他们发现自2015年以来，人工智能的影响扩展到了几乎所有科学领域，使用人工智能的论文表现出“影响力溢价”。与此同时，人工智能对学科研究产生的影响并不均等，且人工智能的教育投入落后于人工智能的科研使用。领域专家与人工智能学者进行跨领域合作，可能是促进人工智能在科学领域广泛应用的新模式。

研究领域： 科学学，人工智能，论文影响力，自然语言处理，计算社会科学

来源：集智俱乐部

作者：郭瑞东

编辑：梁金

论文题目：

Quantifying the use and potential benefits of artificial intelligence in scientific research

论文地址：

https://www.nature.com/articles/s41562-024-02020-5

1. 人工智能给各个学科带来的

直接与间接影响迅速增加

从医学中的新药设计到社会科学中的税收政策制定，人工智能（AI）为科学研究带来的益处无处不在。今年两位科学家以开创性的人工智能研究获得了诺贝尔物理学奖，三位科学家因为将AI应用于蛋白质设计和结构预测的相关研究获得了诺贝尔化学奖。尽管人工智能发展迅速且应用广泛，但许多研究人员对人工智能如何造福他们的研究缺乏系统性的理解，对人工智能是否能够在每个领域都推动科学发展仍存在怀疑。

王大顺团队的新研究开发了一个测量框架， 应用自然语言处理（NLP）技术处理庞大的数据集 （包含19个学科292个领域在1960-2019年间发表的近7500万篇学术论文的题目和摘要）， 可估算人工智能在科学研究中的直接使用和潜在益处。 该框架首先估计一个领域中 AI 使用的频率。具体来说，研究者从AI领域论文的标题和摘要中提取 AI 相关术语词组（AI n-gram；他们识别出5个AI子领域：机器学习，人工智能，计算机视觉，自然语言处理和模式识别。然后从这些AI子领域的论文中提取使用频率最高的关键术语，如监督学习、词嵌入、生成对抗网络），并计算 AI n-gram 在每篇AI文章中出现的频率。接着将所有论文分领域，同样从论文的标题和摘要中提取 AI n-gram，进一步按年度统计这些领域内论文中 AI n-gram 的出现频率，以近似代表AI在特定年份在某一学科领域内的使用情况（图1a）。

图1. 各学科和不同年份对AI的直接使用情况估计

研究发现，近年来人工智能在各个领域的直接使用情况令人瞩目，并且使用人工智能的论文有更多的“影响力溢价”。具体而言，研究人员考察一篇论文被引用的次数，并将引用次数位于同一领域和年份发表论文的 5%以内的论文定义为“热门论文”。研究发现： 无论学科如何，在标题或摘要中提及 AI 相关术语的学科论文都会获得更多引用，更有可能成为热门论文，并从其他学科获得更高的引用比例 （图1e,f）。

人工智能在学科领域内的使用量不断增加，以出版物标题或摘要中提及与人工智能相关的术语来体现。从 2015 年到 2019 年，与人工智能发展停滞不前的假设情况相比，人工智能的飞速发展提高了各个学科对其的直接使用，包括计算机科学（37%）、工程（24%）、物理（24%）、生物学（22%）、心理学（24%）、经济学（14%）、社会学（30%）和政治学（27%）。 由于新人工智能算法的成熟，人工智能带来的直接影响（使用）均显著上升，且预期未来还会进一步上升。

值得关注的是， 这种人工智能直接使用的增长并非线性；增长幅度在2015年后特别显著。 具体而言，图1g中的虚线表示如果固定使用2015年AI相关的词汇计算得出的AI影响，实线为使用新词后得到的AI影响，实线显著高于虚线，说明AI在各个学科直接使用的显著增加，更多源于人工智能领域的前沿发展。与此同时，研究者也发现各个学科间的增幅存在不均等的现象，例如人工智能在工程学中的使用量远高于社会学。

前文讨论的是AI对各个学科的直接影响（使用），然而随着人工智能的“能力”提升，可能有助于完成学科领域内的基本“任务”。该研究假设，人工智能的“能力”可以用“动词-名词”组合来表征（例如，“learn representation”，即“学习表征”），从而进一步量化人工智能对科学研究可能产生的潜在影响（图2a）。对于生物学家来说，这样的领域任务可能就是“识别基因”；对于化学家来说，可能是“催化反应”。

图2. AI 对不同学科的潜在影响估计及学科异质性分析

根据这一框架，可估计一个学科内哪些子领域可能从人工智能中受益最大。以生物学为例，研究结果表明，从人工智能中获益最大的子领域是“生物系统” （图2c），因为许多这个领域的基本“任务”与人工智能的“能力”相一致（例如，“提取特征”、“检测对象”和“改进预测”）。除此之外，各个领域的AI直接使用与间接获益彼此高度相关（图2e）。而综合各个学科（图2g），可发现几乎每个学科都有一些子领域受到人工智能的显著影响，即使在整体 AI 影响较低的学科中也是如此，比如社会学和经济学。 这表明了人工智能对自然及社会科学的影响是普遍的。

2. 大学对科研工作者在AI上的教育投入，

可能已经滞后AI给科研的帮助

通过对开放课程大纲项目（OSP）数据库的 420 万份大学课程大纲的分析，可估算每个学科中教授人工智能相关内容的多少，图3a和b指出，多数科学的人工智能人才和知识供应，与它们可能从人工智能中提取的益处不相称，这突出AI在科学研究中的影响力与相关领域的AI教育间存在显著差距。人工智能的相关教育存在系统性错位。高等教育中对人工智能的关注，并没有跟上科学受益于人工智能的步伐。这也就意味着， 人工智能在科学领域的应用已经飞速发展，而培训科研工作者更好地使用人工智能的大学教育却落后了。

为了满足人们对人工智能日益增长的知识需求，领域专家可能会依赖跨学科合作以获取人工智能知识。通过分析涉及人工智能的合作研究（图3c），发现大约 42% 涉及人工智能的论文是由领域专家独立完成，约三分之一的论文是由领域专家和计算机科学家合作的，而由计算机科学家独立完成的占21.6%。

图3. 学科中AI教育与AI使用的关系及AI相关研究的合作情况

在人工智能使用多的学科领域，能看到领域专家与计算机科学家更多地展开合作（图3d,e）。此外，主要学科中合著的人工智能文章占比随着时间的推移而增加（图3f）。 领域专家与AI学者的合作，能暂时缓解对AI知识的迫切需求，跨学科合作可能变得更加重要。 各个学科领域的科学家越来越倾向于依赖那些对人工智能有更专业知识的同行。这表明，在科学领域充分利用人工智能不仅需要更多的资金来培训科学家，还需要更多跨学科合作的机会。

3. 人工智能的影响

对女性和少数族裔研究人员有差别

历史上，女性和少数族裔在某些领域，尤其是在 STEM（科学，技术，工程及数学）领域，代表性不足。该研究发现： 随着科学领域人工智能的使用持续增长，这些群体从新技术中受益的可能性也不成比例。 图4a和b展示了每个学科中女性科学家的比例与其受到AI的直接与间接影响得分，结果指出女性占比越高的研究领域，从AI的潜在获益越少。换句话说，女性科学家往往与较低的人工智能直接使用和间接益处得分相关，也就意味着，相比于男性科学家，她们较少地从人工智能的发展中获益（图4c,d）。类似地，少数族裔也有存在从人工智能中获益不均等的现象。

图4. 女性和少数族裔从人工智能的发展中获益不均

分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

正文

(adsbygoogle = window.adsbygoogle || []).push({}); 1. 人工智能给各个学科带来的 直接与间接影响迅速增加

2. 大学对科研工作者在AI上的教育投入， 可能已经滞后AI给科研的帮助

3. 人工智能的影响 对女性和少数族裔研究人员有差别

请到「今天看啥」查看全文

1. 人工智能给各个学科带来的

直接与间接影响迅速增加

2. 大学对科研工作者在AI上的教育投入，

可能已经滞后AI给科研的帮助

3. 人工智能的影响

对女性和少数族裔研究人员有差别