正文
本文原载于《
中华放射学杂志》2017年第1期
近年来大数据技术与医学影像辅助诊断的有机融合产生了新的影像组学方法,其通过从影像中提取海量特征来量化肿瘤等重大疾病,可以有效解决肿瘤异质性难以定量评估的问题,具有重要的临床价值。影像组学技术来源于计算机辅助诊断(computer aided diagnosis,CAD),目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的方法。影像组学作为医工交叉的产物,其应用先进的计算机方法解决临床具体问题,将有广阔的应用前景。笔者将对新兴的影像组学技术进行介绍,阐述影像组学的相关概念、具体处理流程及其面临的挑战、应用领域及未来的发展方向。
影像组学的概念最早由荷兰学者在2012年提出
[1]
,其强调的深层次含义是指从影像(CT、MRI、PET等)中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断
[2,3]
。影像组学可直观地理解为将视觉影像信息转化为深层次的特征来进行量化研究
[4]
。
影像组学的处理流程总结归纳为以下部分
[5]
:(1)影像数据的获取;(2)肿瘤区域的标定;(3)肿瘤区域的分割;(4)特征的提取和量化;(5)影像数据库的建立
[6]
;(6)分类和预测。下面对其流程和面临的挑战作相应的介绍
[7]
。
1.影像数据的获取:
现代医院影像设备包括CT、MRI、PET等在图像获取和重建协议上都有很大的差异,缺乏一个统一的标准规范这个流程
[5,8]
。影像数据的收集以薄层数据最佳
[9]
。影像组学的入组数据需要具有相同或相似的采集参数,保证数据不会受到机型、参数的影响。虽然国内肿瘤患者较多,但是具体到每家医院,肿瘤患者的数据就相对变少,而影像组学研究需要在众多的医院数据中查找严格符合入组条件的数据来保证一致性,这样做又会使数据量急剧减少
[10]
。因此,影像组学的研究要从数据量和入组规范中寻找一个折中点,保障基本的数据量,为大样本、多特征、多序列和多方法的研究提供保障
[11]
。
2.分割算法的实现:
图像分割是影像组学方法的第一步,将肿瘤区域和其他组织分离,便于进行下一步肿瘤特征提取。由于肿瘤的异质性和不规则性,针对特定肿瘤的精准分割是一个巨大挑战。近几年来,多种分割算法已应用到肿瘤区域标定中,其中效果较好的包括滑降区域生长法(region-growing methods)
[12]
、图割法(graph cut methods)
[13]
、半自动分割算法(semiautomatic segmentations)
[14]
、基于容量CT的分割法(volumetric CT-based segmentation)
[15]
等,人工跟踪分割方法(manually traced segmentations)常被用来作为金标准。对于不同的分割算法,都有其适用范围和条件。目前来看尚无认可度较高的通用分割算法,这将会是广大科研人员的一个重要研究方向。总之,目前大部分算法均无法满足分割效果的要求,不能解决科研工作者的难题。因此高精度、全自动特定肿瘤分割算法将是未来的发展趋势。
3.特征提取与量化:
从影像处理狭义概念来讲,分割算法将ROI分割完成后,就可以对其进行特征提取。目前文献
[2,3,5,8]
常提到的特征包括肿瘤直方图强度(tumor intensity histogram),如高或低对照;肿瘤形状特征(shape-based features),如圆形或毛刺状;纹理特征(texture-based features),如同质性或异质性;小波特征等(wavelet features )。为了便于分析,我们从广义上进行特征选择和提取,要将特征降维。基于以上考虑,可以采用机器学习或者统计学方法来实现
[16]
;也可以通过最大相关最小冗余(maximum relevance and minimum redundancy,mRMR)
[17]
或主成分分析法(principal component analysis, PCA)
[18]
得到更具有代表性的特征。除此之外,特征的高度可重复性在临床生物标记发展的过程中同样重要。为了最大化收集各个层次和方面的信息,我们可以对患者临床特征和基因信息等进行提取,将影像组学特征和临床特征结合,为分类和预测提供更准确的信息。虽然影像组学是目前一种比较前沿的方法,可从影像中挖掘到很多特征来进行分析,但这只是影像中的一部分信息。因此,更科学、更准确和更标准的特征提取方法和挖掘各层信息的手段是我们今后的突破难点。
4.数据库的建立:
Gillies等
[5]
认为影像不仅仅是图片,而是更重要的数据,数据库的建立是影像组学进一步发展的重要工作。一个高精度的预测模型必须要有庞大的数据库支持,所以多中心,标准化的数据库也是影像组学应用到临床的保证。文献中还指出,在二进制分类器中,每个特征需要10个样本来支持。此外,最佳的模型可以很好地包含临床和基因的变量,这样就需要依赖更大的数据样本。未来获取影像和其他数据资源时要有意识地把质量和标准化作为要求,可以避免数据的损失,有效提高影像组学流程的处理效率。
5.分类和预测: