专栏名称: 络绎科学

专业的科创成果产业化社区，与青年科学家同行。

如何在科学研究中负责任地应用机器学习？普林斯顿大学团队发布规范使用指南

络绎科学 · 公众号 · · 2024-05-03 20:07

正文

近年来，人工智能蓬勃发展，机器学习（Machine Learning，ML）作为其重要的研究领域之一，正逐步嵌入并重塑科学研究的多个维度。

从物理、化学到生物学乃至社会科学，机器学习技术高效筛选与分析海量数据的能力，使其日渐成为用于解析复杂自然现象、揭示隐藏规律等研究工作的关键手段。

例如，由 DeepMind 开发的蛋白质预测工具 AlphaFold 2，具备预测人类 98.5% 的蛋白质结构的能力，其准确度达到了原子级别，已经帮助大量科研人员解决了研究中的诸多难题。

图丨Alpha fold 2 流程图（来源：Deepmind）

在群体遗传学领域，ML 为群体基因组分析也提供了一种新的范式，尤其适合于在未知或不精确参数化模型产生的高维数据背景下进行推断。

然而，随着 ML 方法的迅速普及，学界也逐渐对其有效性、可重复性和可推广性也产生了担忧，造成这种担忧如下几个原因。

首先，在 ML 中，性能评估较为艰难。由于 ML 代码往往很复杂，而且还缺乏标准化，导致计算缺乏可重复性。

其次，导致过去可重复性危机的发表偏差也存在于 ML 研究中。如果不加以控制，这种不足将会造成过分乐观的回馈循环，导致无法重现的研究成果被反复引用。

而且，对商业 AI 的大肆宣传以及过分的乐观情绪有可能扩散到科研领域，从而加剧了这一危机。

因此，目前迫切需要系统地解决基于 ML 的科学研究中的错误，而非仅仅在个别研究发表后修正其不足。

对此，普林斯顿大学信息技术政策中心主任、计算机科学教授 Arvind Narayanan 就表示：目前，机器学习几乎融入了每个学科科研中，但却没有通用的标准来保障这些方法的完整性，因此，当前的危机（他称之为可重复性危机）可能会比十多年前社会心理学领域出现的复制危机严重得多。

基于这种考虑，Narayanan 与普林斯顿的另一位教授 Sayash Kapoor 合作，带领一支由 19 名研究人员组成的跨学科团队，于近日在《科学进展》（ Science Advances） 发表了《REFORMS：基于共识的机器学习科学建议》（ REFORMS: Consensus-based Recommendations for Machine-learning-based Science ）一文，旨在为在科学中负责任地使用机器学习提供指南。

研究团队指出，虽然 ML 方法已被多个学科所采用，但关于如何说明基于 ML的科学研究的设计、实施和评估等环节，却缺少广泛适用的标准。

这导致每个采用 ML 方法的领域在研究的开展和报告中都有不同且非固定的标准。因此，各学科在使用 ML 方法时经常出现相似的失败类型。

例如，在这两位研究者此前的另一项研究中，他们就发现，在药学、软件工程学等 17 个科研领域内，采用 ML 方法进行研究的论文都存在数据泄露问题。

除此之外，这些论文中还存在计算可重复性问题（如缺乏可用的代码、数据和计算环境，无法重现论文中报告的确切结果）；数据丢失问题；指标选择问题（针对当前任务使用了不正确的指标，例如，在类严重不平衡的情况下使用准确率来衡量模型性能）；标准数据集的使用问题等不足。

图丨17 个领域在采用 ML 方法时存在的隐患（来源： Cell ）

针对这些缺陷，团队提出了一份针对基于 ML 的科学研究的建议清单，明确了对于 ML 使用方法的要求，以帮助研究人员和审稿人及早发现错误，从而应对 ML 在科学研究应用中出现的挑战。

首先要明确的是，不同于以往的相关工作，REFORMS 清单并不局限于特定领域或方法， 也并不侧重关于机器学习研究本身之中的错误 ，而是更加针对 基于 ML 方法进行的科学研究 ——即使用 ML 模型进行预测、测量或执行其他相关科研任务——之中所涉及到的缺陷。

该清单包括 32 个问题和一套对应的指南，涵盖了从研究目标的明确设定到计算可重复性、数据质量、数据预处理、建模、数据泄漏、衡量标准和不确定性量化，以及可推广性和局限性等关键方面。

表丨基于 ML 的科学研究阶段和相应的核对指标（来源： Science Advances ）

清单具体内容如下：

1. 研究目标

在科学研究日益重视精确性和目标导向的当下，明确研究目标往往至关重要，但在研究实践中，却经常被忽视。

近期研究表明，清晰界定研究意图对于确保研究结果的适用性和可比性尤为关键，因为即便是表面相似的研究问题，因细微的目标差异也可能导致截然不同的结论。

图丨一个问题可能对应于许多研究设计，每个研究设计都会产生不同的答案（来源： Science ）

因此，清单要求，研究人员需要明确他们希望将研究结果推广至的人群或分布，并解释选择特定人群或分布的动机，以及使用 ML 方法的动机。

2. 计算可重复性

计算可重复性是确保独立研究人员能够复现论文结果的关键，对于科学进步至关重要。

然而，现有的计算可重复性标准存在不足，而许多期刊要求作者在论文发表后提供相关材料，这往往导致实施不到位。

由于科学研究中使用的 ML 方法的复杂性，确保其计算的可能重复性往往较为困难。

此前，有学者系统分析了 400 篇在国际重要会议上发表的论文，他们发现，在这 400 篇论文中，没有一篇能满足所有的可重复性标准，大多数论文论文只能满足 20% 到 30% 的标准。

图丨相关论文（来源： Proceedings of the AAAI Conference on Artificial Intelligence ）

为了提高计算可重复性，REFORMS 清单提出了一系列要求，包括代码的准确版本、计算环境的具体配置，以及必要的文档和复制脚本。

REFORMS 清单要求研究人员提供足够的信息，以便其他研究者能够独立验证研究结果。

这包括数据集的详细描述、计算环境的详细说明，以及生成研究结果的复制脚本，旨在提高科学研究的透明度，并确保研究结果的可靠性。

3. 数据质量

低质量或不适宜的数据使用可能导致研究结果的误导性，因此，深入剖析数据来源、抽样框架、适用性及完整性是评估研究可信度的关键步骤。

首先，数据来源的透明度至关重要。研究团队需详尽描述数据采集的时间、地点、方式及标注过程，尤其是对于机器学习研究中地面实况注解的详尽说明，以帮助读者全面评估数据的适用性和局限性。

其次，抽样框架的清晰定义是理解研究样本与目标人群关系的基础。但当前研究中抽样标准的模糊或缺失限制了结果的普遍性分析，因此， Narayanan 团队认为应明确阐述抽样框架与样本资格，确保读者能准确判断数据集的代表性。

再者，数据集与研究问题的匹配度需得到明确说明。数据的适用性取决于其是否能有效回答研究问题，即使有偏差或不完整，只要研究者清楚其局限并加以说明，数据仍可能具备价值。

结果变量的定义与测量则是另一关键点。研究团队需详细报告结果变量的定义及其测量方式，因为理论构造与经验替代变量间的不匹配可能导致误解和公正性问题。同时，提供详尽的描述性统计资料，也有助于读者识别数据偏斜或异常值问题。

清单指出，样本量的报告同样不容忽视，其大小需与研究目标相匹配。虽然大样本量通常有利，但非代表性抽样下的样本增大仅会增加虚假的置信度而并不减少偏差。

因此，对于分类任务，除了总样本量，每个类别的样本数也需明确报告，同时区分个体数与数据行数。

此外，研究人员也应该报告其数据集中缺失数据的普遍程度，并说明他们是如何处理缺失数据的。

最后，研究团队必须评估其数据集对目标人群的代表性，这对于研究结果的外推至关重要。即使非概率抽样，也可通过合理论证或统计方法调整来确保代表性，但非代表性样本在特定研究目标下也是可接受的。

4. 数据预处理

数据预处理是科学研究中将原始数据转化为适合建模的形式的关键步骤，包括数据清理、选择以及转换等操作。

REFORMS 清单要求研究人员详细报告预处理过程中的两个主要组成部分：选择用于分析的数据子集以及对数据进行的转换。

研究人员在选择特定数据子集时，必须说明其决策过程，这对于理解科学结论的适用范围至关重要。

相关研究指出，数据子集的选择对模型性能有显著影响，因此，明确说明选择特定数据子集的原因对于科学研究的透明度和可重复性至关重要。

图丨相关论文（来源： Science ）

更进一步地，研究人员需描述他们采用的技术如何检测和过滤不可能或损坏的样本，以确保数据集的准确性和代表性。

最后，清单要求研究人员详细说明数据转换过程，包括归一化、增强或处理缺失数据的方法。这些转换对模型性能和科学主张的有效性有着直接影响。

5. 建模

为了确保其他研究人员能够复现结果，报告创建 ML 模型的确切细节变得尤为重要。

然而，有研究表明，仅使用论文文本重现 ML 结果较为困难，在研究选取的 255 篇论文中，就有 93 篇论文的结果无法被重现。

图丨相关论文（来源： NeurIPS ）

清单还强调了评估和模型选择方法的重要性，不当的评估或模型选择可能会导致性能估计的夸大。为了提高评估的准确性， Nara yanan 团队要求研究者们报告模型评估的详细信息，包括使用的评估方法、数据分割方式以及样本量。

此外，清单要求研究人员详细说明超参数的选择过程，这是因为超参数的设置对模型性能有显著影响。研究表明，超参数搜索的深度直接影响了模型的性能。

在模型选择方面， Narayanan 团队建议使用适当的基线进行比较，以避免由于基线选择不当而导致的误导性优势。

6. 数据泄露

数据泄漏作为机器学习应用中一个隐蔽却普遍存在的问题，正引起广泛的关注与警觉。

如前文所提到的，Kapoor 和 Narayanan 的调查发现，数据泄漏已波及众多科研领域，影响了数百篇基于 ML 的研究成果。鉴于此，加强防范意识与实践审查成为必要。

因此，清单着重强调避免数据泄漏的三大策略，即确保训练与测试数据彻底隔离、管理数据集内的依赖性和重复性、以及审核特征的合法性。

首要原则是严格维护训练集与测试集的独立性，避免任何测试集信息渗透至训练过程中，以免造成性能评估偏颇。

其次，研究者需警惕数据集间的依赖性和重复记录，这在时间序列数据或含有患者多重观测值的临床研究中尤为关键。

Narayanan团队认为，采用特定的交叉验证（CV）策略，如阻断 CV 或元分段 CV，是缓解此类依赖性、确保有效评估的重要手段。

图丨相关论文（来源： Information Sciences ）

最后，模型所使用的特征的合法性也至关重要。美国医疗科技巨头 Epic 推出的败血症预测模型，便是由于误将是否服用“抗生素”这一不合法特征作为预测特征，导致了数据泄漏。

这是因为，医师通常会在败血症确诊后才会开抗生素的处方，所以它们可以成为结果变量的替代物，导致过于夸大了其模型效能。

尽管随着特征维度的增加，非法特征的筛查会变得愈发困难，但亦研究团队也应当进行这一项工作。