文章概要
大数据、人工智能、机器学习等领域的进展也带来相应领域的发展,影像组学的发展也是其中之一。本篇推文编译自Radiomics: Images Are More than Pictures, They Are Data。推文保留了原文的大致结构,包括:
1、影像组学的介绍
2、影像组学的处理流程
3、影像组学的应用和挑战
本文总字数为 2631字,阅读时长约为6分钟,仅供参考。
由于篇幅所限,本篇推文重点引用了处理流程、所面临的的挑战这两大部分内容。希望能对读者们有所助益。
随着数据采集和数据分析技术的飞速发展,与数据分析相关的各领域分支也相应的发展开来,影像组学就是其中之一。影像组学最初常见于癌症研究。其中一部分原因,美国国家癌症协会(NCI)在学科发展初期对它给予了大量的支持。但是影像组学的应用潜力既能够应用于所有疾病(不仅限于肿瘤),也可以应用于多种影像手段(CT、MR、PET均能进行)。发展至今,影像组学已经逐渐从一个小而专的研究领域,开始向可能应用于临床的技术做出转变。
影像组学是将影像转化成高维数据、以及针对这些数据进行挖掘、从而用于提取更好的临床决策证据的学科。
从某种角度来看影像组学是CAD的外部延伸,但是和CAD之间又有很大区别。
CAD通常是一个独立的系统,通常会针对疾病的检测或诊断给出一个结果。
影像组学是个过程,包括了:从数字影像中提取定量特征、将这些定量信息放在共享数据库、对这些数据进行数据挖掘然后产生或验证假设,不一而足。而这个过程可以有助于发展支持临床决策的工具。
精准医学是当今的主流领域,推进精准医学的一个关键就是找到可靠的生物标记物。在这一点上,影像组学恰好能有所为。并且,由于进行放射影像检查是患者诊疗过程中重要的一环,这为相关研究的开展和病例收集奠定了良好的基础。
说完了影像组学是什么,再来说说影像组学的处理步骤。
一张图告诉你怎么做影像组学。
如图所示,从左到右展示了影像组学的几个步骤:1)获取图像;2)标定感兴趣体素;3)区分体素,并建立3D模型;4)提取、处理(qualify)体素的特征;5)使用这些数据建立数据库,利用数据挖掘来建立分类模型从而预测结果。依次介绍步骤:
即图像扫描。和常规的图像扫描相比,影像组学对于图像采集的要求更加强调标准化,因为采集时参数的差异有可能影响后续对于生物特征的分析。很多大型机构都在规范化采集这方面开始了努力,诸如NCI推动建立的量化研究网络(Quantitative Imaging Network, QIN),以及RSNA推动建立的QIBA(Quantitative Imaging Biomarkers Alliance)等。
2.标定感兴趣体素(volume of interest)
关于肿瘤内部子集(subvolumes)的详细分析是肿瘤异质性的关键,但是受限于图像的空间分辨率和对比度,这些信息难以捕捉。影像组学可以提取出这些信息。这些子集也被叫做habitat,是因为他们代表了生理学上独立的区域,其血流、细胞密度、水中情况等各不相同。而这些区域在治疗后的不同表现有助于预测治疗结果。
这是最关键、难度最高、最具有争议的一个步骤。关键,因为后续的特征是通过分割后的体素计算获得的。挑战,是因为许多肿瘤的边界都不清楚。具有争议,是因为至今都还存在争论——是应该去寻求真相,还是依靠人工或者自动的分割(segmentation)。目前认可度比较高的说法是:可以通过计算机辅助的边缘识别获得初步分区,再辅以人工修正。
影像组学的核心,就是从高维的特征数据里面提取出能够定量描述感兴趣体素的特征的内容。影响组学的特征可以分成两大类——语义学特征(semantic features),以及数学特征(agnostic features)。
语义学特征很常见也很常用,通常用于描述ROI(大小、形状、血流等);
数学特征则是用于描述病灶异质性的定量指标,通常会涉及较多的统计学知识。数学特征可以被分为三类:一阶统计输出(e.g. 肿瘤直方图强度)、二阶统计输出(e.g.结构分析)、高阶统计输出(e.g.小波分析)。
目前很多研究用于发现如何提取出更多的数学特征(agnostic features)。很显然,描述性的图像特征的复杂程度急速上升,针对这样的复杂程度,最容易出现的问题就是“过度拟合”,因此应该提取最重要的因素来降维。通常的处理方法是:首先确定冗余的特征;然后是根据其优先级进行分级——将各个单独类别(大小、形状、一级、二级等)中的特征进行排序(然后可以根据两个或三个特征进行分类建模);最后,分类模型是通过数据挖掘完成的,各个特征的值是根据他们对于分类模型的权重决定的。
5.建立数据库
—numbers are king, quality is queen
所有地方都一样,预测分类模型的效力取决于是否有足够的数据,针对一个二分类模型,每一个特征至少对应10样本。即使只有100个样本,影像组学也可以完成,但是越大的样本量效力越大。获取大的样本量并不容易,因为数据很容易不完整。今后,前瞻性的获取更多的数据和图像可以减少数据的丢失。
这一过程可以涉及到AI,ML,或统计学方法。一方面,它包括了监督和非监督的机器学习(诸如神经网络,支持向量机,贝叶斯)。在“分类建模”的这个步骤中,会涉及较多数据挖掘的处理。这一分析过程有一个特点,它是没有假设的、纯数字层面的处理,所有的特征都是一样重要的(“众数平等”)。与这样的分析方法相对应的,是假设驱使(hypothesis-driven)——假设驱使在医学研究中较常见,统计学中的假设检验的内容。两种方法各有特点,这也为最终的模型评价带来了难度。此时应该界定一个明确的终结点(endpoint),在两种方法不相上下时,选取最适应特定临床应用情况的模型。
理想情况下,最佳的模型囊括了影像之外的患者特点,诸如基因组学、病史等等。但是实际情况中这些因素通常难以达到。所以,组学的质量不仅取决于图像获取质量,还取决于协变量的可及性和可靠性(availability & reliability)。总之,这些数据不易获得,所以促成跨组织之间的数据共享就显得尤为重要,这也是量化研究网络(QIN)建立的初衷之一。
在过去的十年中,CT、MR和PET的影像组学和影像基因组学研究取得了很大进展。回顾之前的研究,主要的几个应用领域包括:辅助诊断、预测肿瘤进展、辅助选择治疗方案、明确取病例活检或需切除的区域。影像组学应用的相关研究正在全球开展。
在这里多提一下影像组学所面临的的几大挑战:
影像组学是一个年轻的学科,其技术上的复杂性、研究设计上的挑战、数据的过度拟合等等,使得研究的重复性变成了一个重大的难题。如果这一步不克服,那么会影响后续生物标记物(biomarker)的建立,而这一部分也是组学可以发挥重要角色的地方。对此的解决方法之一,就是对于适时研究和结果报告建立一套标准的流程。
虽然大数据让人们可以从海量的数据中做出相应的推断(即使这些数据质量层次不齐),但是,挖掘出来的是不同因素之间的相关性,相关性不是因果联系,而后者更难被评估和验证。不仅如此,大量的数据真的能够帮助我们理解基础和应用科学中的基础问题么?当然,影像组学还处在大数据的初级阶段。但是此类问题的深入探讨也会对影像组学的发展有所帮助。
当然,数据共享这个问题一直存在在医学研究领域。除此之外,我们在前文中也提到多次的一个问题就是相应标准的缺乏。
在可预见的未来,影像组学依然会是临床决策制定过程中的一个小风口。
影像组学展现了一种可能性,就是从影像中提取出来的数据资料还有潜力进一步提高诊断的准确性和临床决策的预测能力。但是,如果想要让这一潜力在临床实践中完全发挥价值,需要更多临床工作者的参与。在研究方面,更多的前瞻性数据和实验设计应该被纳入;并且无论是在前段的图像收集和数据管理,还是最终将所得到的影像组学模型应用于诊断和预后预测,放射科医生都发挥着核心的重要角色。而在数据收集和模型应用之间,还有许多跨学科的投入,涉及的领域包括了IT,生物信息学,统计学,以及临床医学。
了解科技前行的趋势才能更好的理解技术、使用技术,在医学领域更是如此。机器学习和AI的应用是技术发展趋势,对此,不该用简单的“AI能否替代XX”这样武断的思维去看待,而应该使用专业的、辩证的思维去理性分析,这点医学领域更是重要。这也是为什么本篇编译将较大的篇幅放在了影像组学的流程(“知其然需知其所以然”),以及其所面临的的挑战。
最后,对该话题感兴趣的读者,点击“阅读原文”可以跳转到这篇英文文献的原始链接,进一步研读。
参考文献:
Gillies R J, Kinahan P E, HricakH, et al. Radiomics: Images Are More than Pictures, They Are Data[J].Radiology, 2015, 278(2): 563-577.
张利文, 方梦捷, 臧亚丽, 等. 影像组学的发展与应用 [J]. 中华放射学杂志,2017,51( 1 ): 75-77.
苏会芳, 周国锋, 谢传淼, 等. 放射组学的兴起和研究进展 [J]. 中华医学杂志,2015,95( 7 ): 553-556.