专栏名称: AI掘金志
雷锋网《AI掘金志》频道:只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。
目录
相关文章推荐
上海本地宝  ·  上海生育生活津贴怎么领? ·  5 天前  
班主任家园  ·  成绩一般的初中生,如何考上重点高中? ·  2 天前  
51好读  ›  专栏  ›  AI掘金志

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世,敏感性超过90%

AI掘金志  · 公众号  ·  · 2019-11-12 19:21

正文

目前,GRAIDS正在中山大学肿瘤防治中心的内镜临床工作流程中常规使用,并进行实时评估,中国南方肿瘤联盟的其他合作医院很快将实施GRAIDS,为人工智能辅助上消化道肿瘤筛查和诊断提供免费通道。

编译 | 王优雅


上消化道癌症(包括食道癌和胃癌)是世界范围内最常见的恶性肿瘤。


据国家癌症中心统计数据显示,全球约50%的上消化道癌(包括食管癌、胃癌等)发生在中国,其中超过85%的患者在确诊时已为中晚期,每年因此导致的死亡病例超过40万,但如果能早期发现,5年生存率可以超过90%。


为了克服这一挑战,许多国家已经制定并实施了上消化道内镜指南和技术,如窄带成像和共焦激光内窥镜,从而提高了早期上消化道肿瘤的检出率。但是在内镜检查中,可疑上消化道癌症被漏诊的风险在病人数量少的医院、欠发达地区或偏远地区,甚至在经常进行内镜检查的国家可能仍然很高。


人工智能在医学的各个领域展示出了非常大的潜力,临床上,内窥镜人工智能最重要的用途是帮助区分肿瘤性病变和非肿瘤性病变。尽管人工智能在上消化道癌症诊断中的应用已发表了令人鼓舞的初步结果,但由于研究设计有待改进(如单中心研究、小样本和回顾性分析),它们的临床价值比较小。



因此,中山大学肿瘤防治中心主任、院长、所长,华南肿瘤学国家重点实验室主任徐瑞华教授带领由数十位专家组成的团队开展了多学科联合攻关,成功自主研发出了一套上消化道癌内镜AI辅助诊断系统,利用来自6家医院的真实内镜成像数据来检测上消化道肿瘤。


团队的这款AI诊断平台名叫GRAIDS,经临床实践数据验证,对上消化道肿瘤的诊断敏感性高达90%以上,优于非专家级别内镜医师。


2019年10月,相关研究成果《人工智能实时辅助内镜早期诊断上消化道肿瘤: 一项多中心、病例对照、诊断性研究》正式在线发表于全球顶尖学术期刊《柳叶刀·肿瘤学》上。


这项多中心、病例对照、诊断性研究在中国六家医院进行,回顾性地从国立中山大学肿瘤中心(广州)的影像数据库中获得内镜图像,用于GRAIDS的开发和验证。此外,团队还开发了一个CAD系统,实时识别上消化道癌性病变,用于常规内镜检查。安装CAD系统的计算机直接连接到内窥镜装置上,从而允许在内窥镜检查期间提供全自动辅助诊断。


从2018年7月21日起,GRAIDS在线发布,并在sysucc(中山大学肿瘤防治中心)的内窥镜实践中得到了应用。


以下为论文详细内容,由雷锋网AI掘金志学术组编译和编辑。 关注AI掘金志公众号,在对话框回复关键词“中山大学”,即可获取原文PDF。


介绍


这项多中心、病例对照、诊断性研究在中国的6家不同级别的医院(中山大学肿瘤防治中心、粤北人民医院、梧州红十字医院、江西肿瘤医院、普宁人民医院、揭阳人民医院)进行。


从所有参与医院检索到18岁或18岁以上未进行过内镜检查、可持续参加研究患者的图像。所有经组织学证实为恶性肿瘤的上消化道肿瘤患者(包括食管癌和胃癌)均符合本研究的要求。只有带有标准白光的图像才被认为是合格的。


我们将中山大学肿瘤中心的图像随机(8:1:1)分配到graids开发的训练和内部验证数据集,内部验证数据集用来评估GRAIDS性能。采用中山大学肿瘤中心(国立医院)的内部和前瞻性验证集和5家基层医院的额外补充验证集对其诊断性能进行评估。


GRAIDS的诊断能力也与具有三个不同专业级别的内窥镜医师进行了比较:专家医师、主管医师和实习医师。GRAIDS和内窥镜对癌性病变的诊断准确度、敏感性、特异性、阳性预测值和阴性预测值,采用 Clopper-Pearson方法计算95% CIs。


发现


我们用来自84424人的1036496张内镜图像进行GRAIDS的训练和验证。


上消化道肿瘤的诊断准确率在内部验证集中为0.955(95%ci 0.952-0.957),在前瞻性验证集中为0.927(0.925-0.929),在5个外部验证集中为0.915(0.913-0.917)到0.977(0.977-0.978)。GRAIDS的诊断敏感度与内窥镜检查专家相似,与内窥镜普通医师和实习医生相比,graids具有更高的敏感性。


GRAIDS的阳性预测值为0.814(95%ci 0.788-0.838),内窥镜专家为0.932(0.913-0.948),内窥镜普通医师为0.974(0.960-0.984),实习内窥镜师为0.824(0.795-0.850)。GRAIDS阴性预测值为0.978(95%ci 0.971-0.984),内窥镜专家阴性预测值为0.980(0.974-0.985),内窥镜普通医师阴性预测值为0.951(0.942-0.959),内窥镜实习医生阴性预测值为0.904(0.893-0.916)


方法


内镜和图像质量控制


所有图像均以高分辨率拍摄,但使用不同的内窥镜和视频系统。所有上消化道内镜图像均以jpeg格式存储在6家医院的影像数据库中。只有带有标准白光的图像才被认为是合格的。不包括染色图像、窄带图像、因停顿、模糊、散焦、粘液和空气吹扫不良而产生的低质量图像以及非内窥镜图像。


来自Sysucc的8位经验丰富的内窥镜医师对所有图像的质量进行了评估,每人至少有5年的经验,并进行了3000多次检查。所有上消化道肿瘤病灶均由同一组内镜医师手工标记。他们仔细地标记每个癌灶的边界。那些在解剖位置上与病理报告不符的内镜图像被丢弃。


我们将来自6家医院的相同数量的图像分配给4组经验丰富的内窥镜医师(每组2名内窥镜医师)进行质量控制、标记和勾画。同一组的两位内窥镜医师在标记和勾画方面进行了合作。勾画过程中,一名内窥镜医师在另一名内窥镜医师的监督下进行勾画。只有当来自同一组的两位内窥镜医师达成共识时,图像选择、标记和勾画才最终确定。


GRAIDS算法开发


将来自sysucc的图像(8:1:1)随机分配给用于GRAIDS开发的训练和内部验证数据集,以及用于GRAIDS性能评估的内部验证数据集。GRAIDS的算法基于DeepLab’s V3+ 的概念,并包含一个编码器和解码器模块。模型有一个输入和两个输出,模型输入上消化道内镜图像。


第一个输出是一个标准的两分类任务,用于确定输入图片是否包含肿瘤。第二个输出实现了一个分割任务,该任务标出输入图像的肿瘤区域。采用四个内窥镜组(每个组由两个内窥镜医师组成)的标记和勾画数据作为训练样本的金标准。学习曲线用来表示图像分类效果,交叉联合(IOU)代表模型的图像分割性能。


GRAIDS算法验证


我们首先使用内部验证数据集和来自sysucc的前瞻性验证数据集验证GRAIDS在识别患者上消化道肿瘤方面的性能。然后我们使用来自五家参与医院的外部验证数据集评估GRAIDS的稳健性,每一家医院都有少量的上消化道癌症患者。


为了进一步的性能评估,我们从前瞻性验证集中随机选择了组织学确诊的上消化道肿瘤患者的图像子集。三位不同专业程度的内窥镜医师(专家、主管和实习医师)被要求独立完成相同的测试图像检测,并将其结果与GRAIDS的结果进行比较,患者的人群信息和最终组织病理学结果对他们不可见。


这三位内窥镜医师都没有参与图像的选择和标记,在内窥镜检查人员进行评估之前,这些图像也被打乱和去除标记。内窥镜专家是一位在内窥镜检查方面有10多年经验的教授。内窥镜普通医师是一名主治医生,具有5年以上的经验,完成了临床和特定的内窥镜培训。内窥镜实习医师是一名有两年内窥镜经验的住院医师。


统计学分析


采用 Clopper-Pearson方法计算95% CIs,评价graids对癌性病变鉴别诊断的准确性、敏感性、特异性、阳性预测值(ppv)和阴性预测值(npv)。我们使用ROC曲线来显示深度学习算法在鉴别上消化道癌症患者与正常人的诊断能力。通过改变预测概率阈值,绘制真阳性病例比例(敏感性)与假阳性病例比例(1-特异性)的ROC曲线。ROC曲线下面积越大,诊断效果越好。所有统计检验均为双侧,显著性水平为0.05。用3.5.1版r软件进行统计分析。


结果


2009年1月12日至2017年9月30日期间,从Sysucc的上消化道内窥镜成像数据库获得了来自20352名参与者的314 726张图像(图1)。因病理诊断不明确,病理报告不清,排除1587例(7.8%)。在质量控制评估后,178282张图像中有21075张(11.8%)被丢弃,因为它们是质量差的非内窥镜图像,或者在解剖位置上与病理报告不一致。对于癌症患者,仅包括癌症病变的图像(n=39462)被纳入研究。对于没有癌症的参与者,117745张图片被用作对照组(图1)。对于前瞻性验证数据集,在2018年7月21日至2018年11月20日期间,在Sysucc前瞻性收集并标记4317张癌症图像和62433张对照图像。


在其他五个参与医院,在2018年7月21日和2018年11月20日之间,从粤北人民医院获得了2439张癌症和73015张对照图像,从梧州红十字医院获得5244张癌症和197588张对照图像,从江西肿瘤医院获得9712张癌症和112185张对照图像,从普宁市人民医院获得7095张癌症和286095张对照图像,从揭阳市人民医院获得4173张癌症和114993张对照图像。


总体而言,来自84424个人的1036496张内窥镜图像被用来开发和测试GRAIDS。



上消化道肿瘤的患病率在训练组为50.2%(15040名患者中7557名),在内部验证组为51.0%(1839名患者中938名),在内部验证组为50.8%(1886名患者中959名),在前瞻性验证组为32.0%(1794名患者中574名)。江西肿瘤医院外部验证组9.2%(8634例中794例),粤北人民医院9.5%(4109患者中390例 ),梧州红十字医院4.8%(17239患者中830例),普宁市人民医院3.8%(26143患者中993例),揭阳市人民医院7.2%(7686名患者中有552名)(表1)。上消化道肿瘤的详细分期信息仅在前瞻性验证集可见。



在176个epochs(整个训练集的迭代)之后,由于两个任务的准确性和交叉熵损失以及第二个任务中IOU都没有进一步的提高,训练过程结束。GRAIDS对上消化道癌病变的预测区域与内窥镜医师的标记区域有高度一致性。在内部验证集中,IOU中位数为0.737(IQR 0.579–0.848)。


GRAIDS在7个全部验证集中都准确地识别了上消化道肿瘤患者(表2)。在内部sysucc验证数据集中诊断准确度为0.955(95%ci 0.952-0.957),在前瞻性sysucc验证数据集中0.927(0.925-0.929,)。外部验证集中准确率分别为:江西肿瘤医院0.915(95% CI 0.913-0.917),粤北人民医院0.949(0.947-0.951),梧州市红十字会医院0.977(0.977-0.978),普宁市人民医院0.970(0.969-0.971),揭阳市人民医院0.947(0.946-0.948)。在各验证集中graids的敏感性、特异性和npv均高于0.90。ppv的变化范围为从粤北人民医院的0.384(95%ci 0.372-0.396)到sysucc的0.889(0.878-0.899)(表2),但在所有验证数据集中,假阳性的比例不到10%。在Sysucc的内部验证队列和前瞻性队列中,最常见的假阳性原因是正常的解剖结构(贲门、幽门和角落)以及蠕动期间胃壁的抬高。







请到「今天看啥」查看全文