本研究旨在使用深度学习模型在腹部CT图像上自动分割并测量胆囊的可行性。通过回顾性研究,收集腹部CT检查图像,建立深度学习模型进行胆囊分割和自动测量。使用多种指标评价模型效能,如Dice相似系数、体积相似度和Hausdorff距离等。结果显示,模型的分割效能良好,与专家测量水平基本一致。
本研究为单中心回顾性研究,数据包含胆囊疾病谱不足,部分少见胆囊疾病未纳入数据组。
【摘要】
目的
基于深度学习方法训练模型,研究其用于
腹部
C
T
图像上
分割胆囊并
自动测量的可行性。
方法
从本院
PACS
系统搜集
2016
年
1
月
12
日至
2021
年
5
月
28
日行腹部
C
T
检查的患者,从中选取
1
154
位患者的
1
181
次
C
T
检查
图像
,共得到
2559
个图像序列
用于训练模型。由
2
位影像科医师标注
胆囊
,将全部数据按
8
:
1
:
1
的比例随机分为训练集(
training set
,
n=2042
)、调优集(
validate set
,
n=245
)和测试集(
test set
,
n=271
),训练
3D U-net
模型分割
胆囊
并自动测量。另
搜
集
2022
年
9
月
10
-
19
日的
腹部
C
T
扫描图像,随机选取
共
141
位患者的
1
41
次检查的
2
70
个图像序列
作为外部验证数据集。以外部验证集的预测结果评价模型的效能。使用
Dice
相似系数(
d
ice similarity coefficient, DSC
)、
体积相似度(
v
o
lume similarity
,
VS
)和
H
ausdorff
距离(
h
ausdorff distance
,
H
D
)
定量评价模型
分割胆囊区域
的效能。使用
Bland-Altman
分析评价模型自动测量的
胆囊体积、径线、平均
C
T
值与医师标注测量值的一致性
。
结果
外部验证集的
DSC
中位数
为
0.980
(
0.970,0.980
)
,
VS
为
0.990
(
0.990,1.00
0)
,
H
D
为
1.69
(
1.27,2.45
)
mm
,
各数据集之间
DSC
、
V
S
和
H
D
的差异均有统计学意义(全部
P
<0.001
)。外部验证集中对模型预测和
医师标注
测量
结果
进行了
Bland-Altman
分析,
在考虑抽样误差的情况下体积、
C
T
值、三维径线的
95%
一致性界限(
limits of agreement, LoA
)的可信区间
分别
为(
-
2.07
,
3.36
)
、(
-
1.55
,
1
.15
)、(
-
1.28
,
1
.47
)、(
-
3
.
34
,
4
.07
)和(
-
1.11
,
2
.15
),分别有
2
.6
%
、
3
.7
%
、
3
.7
%
、
1
.1
%
和
3
.7
%
的点落在
9
5
%Lo
A
以外。
结论
基于深度学习模型可在
腹部
C
T
图像上自动
分割胆囊区域
,
是将来进一步胆囊病变智能诊断的基础。
【关键词】
深度学习;
胆囊
;
C
T
;人工智能;
图像
分割
胆囊是人体消化系统中的一个重要器官,它的主要功能是储存和释放胆汁,以帮助消化和吸收脂肪
。但是,胆囊也是一个容易发生疾病的器官,常见的疾病包括胆囊结石、胆囊炎、胆囊癌
等。有些胆囊疾病是因上腹部疼痛等症状而就诊,影像检查容易发现。有些胆囊疾病则是在上腹部
CT
检查中偶然发现的。由于腹部
CT
检查量日益增加,腹部脏器疾病多样、复杂,影像科医生浏览
CT
图像时要关注很多种疾病,可能会漏诊胆囊疾病。
近年来,随着人工智能(
ar
tificial intelligence
,
A
I
)技术的不断发展,
A
I
辅助诊断已经成为了医疗领域的一个热点研究方向。既往研究显示在腹部
CT
的诊断中
A
I
方法可以通过自动化图像分析和识别减少医生的工作量,并提高诊断准确性如在脏
、肾上腺
、胰腺
、肝脏
等脏器,但在胆囊的应用较少见到报道。
要实现胆囊的
A
I
辅助诊断,首先需要进行胆囊图像分割,即将胆囊区域从
CT
图像中分离出来。由于胆囊的位置和形态不稳定,加之图像噪声的存在,胆囊图像分割存在一定的挑战。本研究的目的是测试使用深度学习方法进行胆囊分割的可行性,为进一步使用
A
I
诊断胆囊疾病提供技术基础。
材料与方法
本研究为回顾性研究,获得了医院伦理委员会的批准
[
批件号:
2019
(
168
)
],
按照本单位人工智能
AI
模型训练规范执行研究方案。
1
、
用例定义
根据本单位人工智能
AI
项目管理方法,首先定义研发
腹部
CT
图像胆囊分割
模型的用例,包括
AI
模型的名称、临床问题、场景描述、模型在实际工作中的调用流程、模型输入输出数据规范等。
2
、
回顾队列建立
分两批从本院
PACS
系统搜集影像资料。第一批为
2016
年
1
月
12
日
至
2021
年
5
月
2
8
日的腹部
CT
检查
图像,用于训练模型;第二批为
2022
年
9
月
10
日
至
19
日的
腹部
C
T
检查
图像,用于外部验证。入组标准:检查项目为
“
腹部
C
T
平扫
”
。排除标准:
①
图像中未包括完整胆囊
;
②
因患者配合欠佳、或者体位因素造成图像质量过差。共得到
1
154
位患者
1181
次
CT
检查
的
2
559
个图像序列
用于模型训练,
141
位患者的
1
41
次
C
T
检查
的
270
个图像序列
用于外部验证(
图
1
)。
图
1
研究流程图
3
、
图像标注
将
DICOM
格式的图像转换为
NIFTI
格式。标注者使用
ITK-SNAP
(
version3
,
Philadelphia
,
PA
)软件标注
胆囊区域(
lab
el
)
。
由两位影像科医师标注,并由
1
位高年资腹部影像专业医师检查。标注范围包括完整的胆囊区域如胆囊内有可见病变,也应标注在胆囊范围内。对胆囊切除术后的情况,如果无可见胆囊则不标注,如有胆囊区域有明确的胆囊管代偿性扩张,则标注在胆囊范围内
(
图
2
)
。
图
2
胆囊标注示意图,红色为标注区域。
a
)
正常胆囊;
b)
餐后胆囊;
c)
胆囊切除术后扩张的胆管;
d)
胆囊及结石。
4
、
模型训练
将
1154
位患者的
2
559
个图像序列
按
8
:
1
:
1
的比例随机分为训练集 (
n=2043
)、调优集(
n=245
)和测试集(
n=271
)。深度学习的模型为
3D U-Net
,分为两步训练分割模型(
图
1
)。首先,在腹部范围内分割出胆囊大致范围(粗分割),再进一步在这个范围内精细分割出胆囊(细分割)。
图像预处理时将图像分辨率设置为
128×160×64
(
x
,
y
,
z
)
,图像扩增采用随机噪声、平移、左右翻转、透视变换等方法。梯度下降使用
ADAM
优化算法,初始学习率(
learning rate
)设为
1×10
-3
,每次读取的图像数量(
batch size
)为
4
。训练次数(
e
poch
)为
400
。模型训练的硬件为
GPU NVIDIA Tesla P100 16G
,程序语言为
Python
,软件环境包括
Python3.6
、
Pytorch 0.4.1
、
Opencv
、
Numpy
、
SimpleITK
等。
5
、
模型评价
模型输出结果
为胆囊区域的预测范围(
p
label
)
。
计算
p
label
全部体素的体积、平均
C
T
值为胆囊的体积和平均
C
T
值。以最小包围盒(
mi
nimum bounding box
)法计算
plabe
l
的三维径线为胆囊的径线。
使用
Dice
相似系数(
d
ice similarity coefficient, DSC
)、
体积相似度(
v
o
lume similarity
,
VS
)和
H
ausdorff
距离(
h
ausdorff distance
,
H
D
)
定量评价模型
分割胆囊区域
的效能。
6
、
统计方法
使用
R4.1.0
软件进行统计分析。符合正态分布的计量资料以均值
±
标准差表示,不符合正态分布的连续变量表示为中位数(四分位间距),计数资料和等级资料以
“
数值(频率)
”
描述。使用方差分析比较各数据集间
DSC
、
VS
和
HD
的差异。使用
Bland-Altman
检验评价模型与专家测量
值
的一致性。
P
<
0.05
认为差异有统计学意义。
图
3
胆囊区域测量值的
Bl
and-Altman
分析。
a
)体积
;b
)
C
T
值
;c
、
d
、
e
)三维径线的
95% LoA
的可信区间
分别
为(
-
2.07
,
3.36
)
、(
-
1.55
,
1
.15
)、(
-
1.28
,
1
.47
)、(
-
3
.
34
,
4
.07
)和(
-
1.11
,
2
.15
),分别有
2
.6
%
、
3
.7
%
、
3
.7
%
、
1
.1
%