由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注(1)。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术(2,3,4)。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑(5,6,7,8,9,10)。
值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思(11,12)。AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)(11,13)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)(10,12,14,15,16,17)。此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性(14,16,17,18)。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难(19,20)。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置(12,19,20)。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论(9,16,17,18,19,21,22)。
尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)(16,23,24)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证(10,16,20,25)。据我们所知,显示这一显著问题确切程度的具体数据很少。
本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多(14)。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现(14),本研究的目的并不是直截了当地判断已发表研究的方法学适用性。