专栏名称: AI掘金志
雷锋网《AI掘金志》频道:只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI掘金志

思路清奇!南京鼓楼医院医疗AI成果登柳叶刀子刊:AI将影像排版时间缩短至100秒,准确率近于100%

AI掘金志  · 公众号  ·  · 2019-06-19 19:49

正文

在AI技术准确检出肺部结节病灶的前提下,团队开发了一套胸部CT排版系统,适合全自动或者半自动的影像学图像的排版问题,可以将以往人工诊断到排版花费约2小时的工作时间,降低到约100秒完成。

作者 | 李雨晨



过去几年,AI在医学影像方面取得了诸多成果。在影像学科的临床工作流程中,肺部病变的良、恶性鉴别诊断,已经成为AI创业公司争先恐后涌入的赛道。但是,多数创业公司基本上是停留在后端的疾病诊断层面,在此之前的图像采集、图像呈现阶段,其实都有文章可做。


近日,南京鼓楼医院医学影像科张冰团队,在柳叶刀子刊EBiomedicine发表了一则AI医疗的新成果,直面影像科医生工作流程前端的痛点问题。


该团队选择了一个全新的切入点——从临床影像工作全流程角度出发,提出了一种基于深度学习的智能成像排版系统(IILS),系统包括AI肺结节检测和分类和自适应排版工具,用于结节识别的成像报告标准化和工作流程优化。


成人的典型胸部CT扫描有大约三百张图像。 然而,最终排版仅约为四十幅图像。 因此,大约87.7%的图像被忽略了。特别是当肺结节的直径小于1 cm时,相应报告不能与排版结果100%匹配。


据了解,团队提出的胸部CT排版工具,使用来自11205名患者的CT成像数据,可以适应全自动或者半自动的影像学图像的排版问题。以往人工诊断到排版需要花费约2小时的时间,在这个工具的帮助下,时间可以降低到约100秒。


以下为论文详细内容,由AI掘金志学术组编译。 关注AI掘金志公众号,在对话框回复关键词“南京鼓楼”,即可获取原文PDF下载链接。


1、引言

临床任务的一个典型例子是,分类并生成与肺结节的诊断密切相关的胸部CT图像的布局。在筛查检测和随访期间,目前的日常工作流程中仍存在五个问题。


1、成像报告标准化缺乏:由于没有标准化、科学验证的方法评估结节,试验放射科医师制定了诊断随访的指南,但没有强制要求评估方法(图1)。


2、缺失结节:如果干激光胶片用作成像信息载体,则无法显示与报告中的描述相对应的结节(图2),这是一个常见问题。


3、缺少关键图像:在从CT扫描仪获取图像之后,大量图像不加选择地输入到PACS中。此外,许多临床医生对成像知识相对不熟悉,需要花费大量时间和精力来浏览这些缺乏关键信息的复杂图像,更不用说使用智能手机或平板电脑来检查这些图像。而且,许多无效图像经常出现在一系列图像中(图2)。因此,治疗过程极其低效。


4、访问来自其他医院的图像困难:如果患者需要他或她自己的图像,图像通常在光盘(CD)上刻录或通过便携式硬盘驱动器传输。然而,许多现代计算机没有配备CD驱动器或医院禁止使用计算机的通用串行总线(USB)接口。因此,患者在不同医院都要进行扫描成像。


5、 缺乏对临床医生和患者需求的考虑(图2):作为放射科医师,帮助他人更容易阅读和理解成像结果的机会尚未得到充分利用。因此,迫切需要具有关键图像的电子报告和可视化结构化报告来解决这些问题。


当前,AI的应用似乎忽略了两个事实。首先,高质量的标准化图像是人工智能开发的基础,其次,AI可以接管简单和重复的工作。


在这项研究中,我们寻求开发基于人工智能技术和自适应布局工具融合的智能成像排版系统(IILS),以建立日常工作的新流程,并为放射科医生和临床医生提供标准化图像和报告。 同时,我们从三个方面评估IILS的综合实力,包括i)IILS与临床专家之间结节诊断效率的比较; ii)IILS可以优化临床工作流程的程度;iii)IILS的交叉制造适用性(cross-manufacture applicability)。


总之,我们认为AI技术可以通过串联连接集成到放射学工作流中,而不是基于简单的并行关系来遵循传统的工作流程。

图2.当前的手工选片过程和日常工作中的相关问题。例如,成人的典型胸部CT扫描有大约三百张图像。 然而,最终排版仅约为四十幅图像。 因此,大约87.7%的图像被忽略了。相应报告不能与排版结果100%匹配,特别是当肺结节的直径小于1cm时。 以GE的CT扫描方法为例,在日常工作中使用手动图像排版时,通常会忽略6(层)×1·25 mm(厚度)= 7·5 mm范围内的肺组织。因此,当医生获得最终的图像时会遇到以下问题:缺乏成像报告标准化、缺失结节、缺乏关键图像以及缺乏对临床医生和患者需求的考虑。

图3. IILS的组成以及如何将其整合到当前的成像过程中。新的IILS包括以下部分:一个是AI肺结节检测和分类,另一个是自适应排版工具,包括我们团队发明的自动排版和可视化结构化报告生成。为了确保图像质量和结果,我们有一位放射科医生,他通常负责编写报告,仔细检查自动生成的结构化报告和图像排版结果。成像部门日常工作的整个过程包括以下关键步骤:i)获取:从不同临床科室的患者收集图像信息; ii)排版:包括日常工作的手动排版和图像管理; iii)诊断:放射科医师的图像诊断,预测和评估。新型智能系统的应用通过串联而非并联连接集成到放射工作流中。


2、材料与方法

2.1 实验软件和硬件


本文中的模型均在DGX1平台上进行训练。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)


2.2 实验模型和项目细节

图4:数据流图显示了我们检测结节和分类良性或恶性病例的方法。本研究采用的数据是从2016年10月到2018年11月,从五个主要的不同CT制造商处获得的11205名患者、共3527048张胸部CT扫描图像。

训练过程分为两部分,分别由两个训练队列组成。通过卷积神经网络(CNN)获得两个模型,通过5折交叉验证进行性能评估,然后合并形成IILS的第一层,即用于检测结节和分类病例的筛选部分。我们将最终的两个模型部署到包含1965个病例的独立队列中,通过六位临床专家对结节数量的一致性分析,以显示我们IILS的可信度。


八名有3到25年胸部CT经验的专家作为检查员参加了会议。为了在临床专家的背景下评估我们的卷积神经网络,我们使用1965名患者的独立测试集来比较我们的网络决策和人类专家的决策。随机选择作为受试者的1965名患者进行读者间和读者间再现性研究。


所有肺结节的数量的确定、良性和恶性结节的判断由六位专家检查两次,间隔为1个月,以最小化记忆偏差。所有决策均由六位专家做出,用于读者间的再现性分析。加权误差评分用于反映假阴性结果(未做出决定)比假阳性结果更有害。使用这些加权惩罚点、计算模型和每个人类专家的错误率。


即使患者有较大的病变,我们也仅包括小于30 mm的结节,其大小相当于约30 mm的平均直径,因为肺结节的定义是直径小于3cm的病变。我们纳入了疑似转移的结节以及可能具有良性组织学特征的结节。然而,排除了粟粒性结核、间质病变、结节病和重症肺炎。


以下参数用于评估结节特征和图像质量对观察者一致性的影响:总结节大小(最大直径,毫米)、结节类型、良性或恶性以及肺实质内结节的密度。从数据库中提取参数结节大小、良性或恶性和类型。结节的密度由没有参与阅读过程的专家(H.Y 和H.W)测量。将两个约1cm的感兴趣区域放置在结节中的两个均匀区域中,并且两次测量中平均的Hounsfield units标准偏差是密度的度量。


2.3 病人分类


训练过程中的用例随机分为训练集80%和验证集20%(图4)。训练集用于训练算法,验证集用于模型选择,测试集用于评估最终选择的模型。在确定百分比分割时,目标是为算法保留足够的数据以进行训练,但是具有足够的验证和测试用例以保持模型准确性的合理置信区间。 该数据集代表了在参与诊所提供和接受治疗的最常见的实性、钙化或磨玻璃结节患者。


2.4 图像标注


在训练之前,每个图像都经过分层分级系统,该系统由多级训练有素的评分者组成,他们具有逐级递增的专业知识,可用于图像标签的验证和校正。导入数据库的每个图像都与患者最近诊断的标签相匹配。第一级评分员包括具有呼吸系统和成像基础知识的成员。这一级评分员进行了初步的质量控制,并排除了包含严重伪影或显着降低图像分辨率的胸部CT图像。第二级评分员由两位专家组成,他们对通过第一级的每张图像进行独立评分。记录胸部CT图像上是否存在实性,钙化或磨玻璃结节和其他可见的病变。最后,第二层由两名高级呼吸和成像专家组成,每位专家拥有超过15年的临床呼吸和成像经验,独立验证每张图像的真实标签。所有图像的验证子集由两名专家分别评分,不一致的临床标签由由高级专家仲裁,以解释评分中的人为错误。


2.5 软件支持


软件系统的开发在Linux Ubuntu 18.04环境下进行。Pycharm 和 VS Code用作开发的IDE。Chrome调试器用于测试和调试UI / UX。 软件的实现细节是保密的,以下部分主要描述了实现的设计和逻辑。

图5:排版示例加上可视化结构报告以及与传统排版和报告的比较。

(a)使用IILS选择后的新图像排版。新的排版图像被分为三个部分(两个红框的区域,代表关键图像所在的区域)。显然,与(c)相比没有无效图像(标有橙色下划线)。排版第一部分开头的五个小框依次显示:1)肺窗条件下结节的最大横截面切片的图像(WW:1500; WL:-500),2)具有长径和短径测量数据的图像,3)纵隔窗口条件下的结节图像(WW:350,WL:50),4)结节的冠状图像重建,5)结节的矢状图像重建。第二部分是在纵隔窗口条件下每层间隔的一组图像。最后一部分是一组薄层肺组织图像,大约分为六层。另一个便利是,片子上任一单元格中的每个图像都可以通过其切片ID进行跟踪,并通过双击它来重定向到图像集中的原始位置。还自动生成与片子相关的可视化结构报告。有关详细信息,请参见视频2。


(b):如果患者没有肺结节,IILS给出的排版和报告将与传统系统给出的相似。


(c):使用传统的手工排版形式,表格分为两部分。 前部包括纵隔组织图像,后部是肺组织图像。 传统排版格式的主要问题是缺少关键图像,各种无效图像(一些带橙色下划线的图像),以及缺少链接功能。 相关报告填充了文本,没有生成结构化报告。


2.6 自动排版


通过将固定输出过程分成以下子任务来执行自动排版:1,验证; 2,输出。在验证任务中,我们的程序首先处理最重要的结节,生成五个放大的输出图像,聚焦在结节上,同时突出显示矩形,标明肺窗形式的结节位置,长径测量,纵隔窗 和两个方向透视。 五个输出图像放置在第一行,然后是30个纵隔窗口图像,其余的为肺窗口。 具体而言,第一部分五个网格是单个结节的自动排版,具有最高的恶性概率风险,这可由AI预测。 五张图片也可以由放射科医师验证和覆盖。 自适应排版工具的输出包括两个电子排片和一个由四组图像组成的结构化报告。


与传统报告的比较,IILS提供了以下信息:i)基本信息显示:患者信息,检查信息,放射科医师信息等。ii)结果(来自AI预测和放射科医师的双重确认):标准化描述肺结节图像,包括结节位置,形态和密度,图像信息的层数,结节长径,体积,平均CT值,以及结节的恶性概率。此外,我们为放射科医师预留了足够的空间,可以为其他病变编写定期报告。 iii)诊断感想:由放射科医师撰写的诊断建议。肺部全部范围的适应性是主要关注点,其意味着五个图像是否附在第一组,即 一组显示结节的五种形式图像具有最高的AI预测得分为恶性,符合我们的预设的将受到高度重视。验证后,可以将排片导出为可打印格式,以便为放射科医师和患者提供可视化信息,同时自动生成结构报告。


我们还推断一个好的排版系统主要包括以下三个主要内容:1)任何可靠,客观的测量数据的所有关键图像; 2)显示肿瘤特征的一系列图像,包括形状,数量,密度,大小,增强,多角度观察和后续比较; 3)胸部纵隔窗和肺窗图像连续显示(图5a-b)。 此外,我们手工显示当前排版形式的图片,这在日常工作中作为比较非常普遍(图5c)。


2.7 结构化报告


结构化报告生成程序旨在完成常见CT扫描场景中的完整工作流程(补充图S2)。与传统报告的比较,我们计划为放射科医师和患者提供图像和结果的可视化。该计划主要通过以下三个步骤进行:1,收集资源;2,渲染图像;3,输出。我们现在将详细描述每个步骤。为了收集资源,我们需要在我们的程序中加载多个资源,包括DICOM图像集、AI预测结节、患者/医院信息,以及捕获放射科医师的结果和诊断感想。收集必要的资源后,我们继续进行渲染部分。该程序将首先根据其重要性对结节进行排序(由AI定义,但可以由操作员覆盖),然后在相应的图像上使用矩形框渲染每个结节。该程序还放大了图像并设置其中心,重点放在结节本身。渲染和转换后,将触发特殊事件侦听器以通知程序捕获渲染数据。最后,程序生成预定义的可打印输出。


2.8 定量和统计分析


ROC曲线绘制了真阳性率(TPR,灵敏度)与假阳性率(1- 特异度)的关系曲线。通过将正确标记的恶性结节的总数和正确标记的良性结节的总数分别除以测试图像的结节总数来确定灵敏度和特异度。连续变量被描述为平均值±标准误差(SEM),并且分类变量被表示为诸如良性/恶性(B / M)的特征。将传统图像排版组与智能系统组和正常对照组之间的临床特征通过Mann-Whitney U检验,卡方检验或Fisher精确检验进行比较。使用双样本Mann-Whitney U检验比较传统排版组与智能布局组和正常对照组之间的差异。Kappa统计用于衡量两个评估者之间的一致性程度,即AI和人类专家。kappa值至少为0.75表示良好的一致性。 然而,我们认为较大的kappa值,例如0.90,是优选的。双尾P值<0.05被认为具有统计学意义。


3、结果

3.1患者和图像特征


具有四种不同结节大小的病例及其特征和演变表明随访的重要性(图6a)。表1总结了用于训练、验证和独立测试数据集的患者和结节的特征。根据文献,结节类型分为实性结节、钙化结节和磨砂玻璃结节。工作流程图的总体实验设计如图6b所示。

图6:应用人工智能技术对不同大小肺结节的检测过程进行了演示,并给出了整个实验设计的流程图。

3.2 模型设计和性能评估


IILS系统的核心设计是深度学习模型,该模型分为两个部分,Faster RCNN和ResNet。Faster RCNN主要负责肺结节的检测和定位。Faster RCNN 还有助于将肺结节分为以下几类:0-3 mm、3-6mm、6-0mm、10-30mm肺结节,实性结节、钙化结节和磨砂玻璃结节(GGNs)。第二部分是ResNet,主要负责肺结节良恶性的分类。在第一部分中,关于特征提取,我们使用了ResNet-50 中的层conv4_x作为输出。在我们的尝试中,ResNet-50中的层conv4_x在检测中表现出最佳性能。在区域建议网络(RPN)中,采用二元交叉熵作为分类损失函数,选取smooth L1损失函数作为回归损失函数。模型的训练过程完善,曲线均达到收敛。该模型的训练过程是完美的,所有曲线均达到收敛。RPN的训练过程如图7a-b所示,所有曲线收敛为零。这也表明我们的模型能够很好地区分前景和背景,并提供了一个精确的前景边界框。图7c曲线也收敛到零,该曲线的收敛性表明,该模型能够很好地区分7类肺结节。第二部分,我们用ResNet对结节良恶性进行了分类。为了获得更准确的模型并避免梯度分散等问题,我们选择了ResNet。在IILS系统中,ResNet显现出了优异的分类性能。曲线的收敛代表了我们分类工作的成功;在模型精度方面,训练和验证曲线均接近100%(训练过程为100%,验证过程为97%)。在损失函数部分,曲线也显示该模型在良恶性结节的分类上表现良好。







请到「今天看啥」查看全文