原文作者:Niki Scaplehorn 施普林格·自然内容创新总监
在施普林格·自然,我们致力于推动开放科学,而这一宗旨的依据简单而不可动摇——公开共享所有研究成果是推进科学发现的关键。为了实现这一目标,我们与科学界密切合作,制定并实施相关政策和服务,促进在出版时共享数据、代码、实验方案、预印本和同行评议报告。
扫码查看并下载《2024 中国开放数据白皮书》报告,了解详情
根据 2023 年的“中国开放数据白皮书”(China State of Open Data)调研,中国研究人员普遍支持数据共享原则。高质量数据存储库的可用性不断提高,为研究人员提供了存储和共享数据的平台。不过,中国科研界重点突出了一点,即在消除数据共享的障碍方面进展不大,包括数据共享缺少学术认可、数据滥用令人担忧。
在全球范围内,数据共享的要求正变得越来越普遍。尽管存储库广泛可用,但研究人员通常缺乏必要的培训和资源来根据“FAIR”原则共享数据——即通过提供高质量的元数据,使数据可查找、可访问、可互操作和可复用。另外,目前作者们必须要面对的是一个日益复杂的网络,其中资助者、机构和期刊共享政策错综相连,导致他们很难知道应该采用什么方式在什么位置共享什么数据。这些政策仍然存在严峻的执行问题,部分原因是我们依然缺乏可以准确量化共享的系统性举措。由此导致的结果是,全球范围内的变革步伐仍然非常缓慢。
我们认为生成式 AI 的快速发展有可能改善这一局面,因为它能够使生成高质量的结构化元数据变得更简单。数据可用性声明便是彰显生成式 AI 的积极影响的一个典型例子。
2023 年,我们推出了一项通用数据政策,要求我们的所有期刊采用数据可用性声明,以使我们发表的研究更加透明、可再现和可复用。然而,现在不充分或不准确的声明是质量控制检查期间提出修订要求的一大常见原因。此外,许多作者仍然只是简单地表示他们的数据可应要求提供,可惜事实往往并非如此。
在《自然》系列期刊,强大的编辑领导力产生了重大影响。在对一组期刊开展的试点研究中,编辑们只是让作者解释为什么没有在论文接收之前将未共享的数据提交至存储库。这种直截了当的干预促使 87% 的作者共享了自己的数据,而其他《自然》系列期刊的作者只有 51% 这样做。这表明主动沟通可以大幅提高数据共享合规性。然而,挑战在于如何将这样的成功经验复制到我们所有的期刊。
早在 2017 年,我们就推出了一项研究数据支持服务,为作者提供有关数据共享、元数据创建、数据存储及数据可用性报告的个性化建议。虽然这项服务提供了 VIP 级别的支持,但它并没有吸引到充足的用户来维持运转。这次经历让我们深刻地意识到,需要开发更具可扩展性的解决方案——提供类似级别的指导,但采用更便捷、更具成本效益的形式。
对于施普林格·自然的内容创新团队而言,我们的目标是使作者、审稿人和编辑能够更便捷、更高效地创建、评估和传播科研内容。我们不仅关注新技术的潜力,也关注这些技术如何与人类专长产生交互,而开放科学正是我们关注的核心挑战之一。我们现在面临的问题是,生成式 AI 能否为我们提供一种解决方案,满足我们对于更具可扩展性的科研数据支持的需求?
我们的工作仍处于实验阶段,但是不难看出,生成式 AI 与其他技术相结合,可用于准确识别稿件中的数据类型,区分新生成或复用的数据,检查是否遵守了特定政策,并帮助作者撰写全面的数据可用性声明。我们希望通过为作者提供 AI 支持,减轻作者和编辑的负担,使其更容易遵守数据共享政策,并提高数据报告的整体质量。
以我们所服务的科研界为指导开展工作,对于我们具有重要意义。我们期待通过与中国科学院建立的伙伴关系,在 2025 年与中国研究人员进行富有成效的合作。我们的目标是通过与研究人员、资助者和研究机构直接接触,确保我们开发的工具能够满足他们的需求并无缝融入其工作流程。
我们也在探索应用 AI 来助力作者发表数据论文(data article)并提高这种论文形式知名度的潜力。2024 年,中国研究人员在索引期刊上发表的数据论文数量应将首次超过美国作者,国家自然科学基金委员会(NSFC)则成为全球领先的数据论文资助者。有鉴于这样的显著增长,我们正在测试使用生成式 AI 来扫描已发表的论文,从中提取具有价值、可复用的数据集,再以数据论文形式发表,这样应会产生积极影响。
确定数据集后,我们可以基于原始论文中的信息,运用生成式 AI 创建个性化的论文模板,帮助作者快速轻松地发表数据论文。这些模板包含 AI 生成的摘要和研究目标等章节的草稿。作者在发表前需要对这些草稿进行检查和编辑,以确保最终内容准确反映了自己的研究成果。这种方法可以减少作者所需付出的时间和精力,有助于促进高质量的数据集共享。
作为一群科学家,我们仍在努力探索如何负责任地应用 AI 来撰写科研论文。我们看到了生成式 AI 让发表研究变得更加容易和公平的的巨大潜力。显然,研究人员有可能滥用 AI,生成虚假研究,但这并不意味着所有生成式 AI 的应用都是有问题的。当生成式 AI 成为由人类科学主导的交互式过程的一部分时,我们相信它可以发挥重要的积极作用。
开放数据只是故事的一角:如果研究数据与生成该数据所遵循的实验方案、用于分析数据的代码一起共享,那么数据的价值会进一步提高。虽然我们目前的重点是应用 AI 工具来促进数据共享,但它们同样可以帮助我们推动代码和实验方案的共享。我们可以通过调整 AI 工具,识别有可能以代码或实验方案论文形式发表的新代码和新方法,从而进一步提高研究的可重复性和透明度。