Basic Information
-
英文标题:Decoding pan-cancer treatment outcomes using multimodal real-world data and explainable artificial intelligence
-
中文标题:利用多模态真实世界数据和可解释的人工智能解码泛癌治疗结果
-
-
-
-
文章作者:Julius Keyl | Jens Kleesiek
-
文章链接:https://www.nature.com/articles/s43018-024-00891-1
Abstract
Para_01
-
尽管精准肿瘤学取得了进展,临床决策仍然依赖于有限的变量和专家知识。
-
为了解决这一局限性,我们结合了多模式真实世界数据和可解释的人工智能(xAI),引入了人工智能衍生(AID)标志物以支持临床决策。
-
我们使用xAI来解码基于350个标志物的15,726名患者在38种实体瘤中的预后情况,这些标志物包括临床记录、影像学衍生的身体成分以及突变的肿瘤特征。
-
xAI确定了每个临床标志物在患者层面的预后贡献,并识别出114个关键标志物,这些标志物占神经网络决策过程的90%。
-
此外,xAI使我们能够揭示1,373个标志物之间的预后交互作用。
-
我们的方法在一个独立的队列中得到了验证,该队列包含来自美国全国电子健康记录衍生数据库的3,288名肺癌患者。
-
这些结果展示了xAI在评估临床变量方面的潜力,使得个性化、数据驱动的癌症护理成为可能。
Main
Para_01
-
尽管现代医疗中每位患者都有大量的多模态临床数据可用,但个性化医疗的承诺尚未实现。
-
单一标记研究无法充分揭示决定患者预后的复杂患者和肿瘤特异性变量之间的相互作用。
-
因此,许多提出的工具并未在临床实践中使用,或者没有考虑反映独特疾病背景的患者全部临床数据。
-
克服这一局限的一个有希望的策略是整合来自多个来源的临床数据,如病史、实验室检测结果、影像数据和基因组分析。
-
机器学习的进步以及可数字化访问的数据的日益普及使得能够大规模地建模预后标志物之间的复杂关系。
-
加上最近用于理解此类模型决策的方法,即所谓的可解释人工智能(xAI),这使得评估个别患者的预后以及剖析每个变量的贡献成为可能。
-
这使得评估个别患者的预后以及剖析每个变量的贡献成为可能。
Para_02
-
在这项研究中,我们通过提出一种基于大规模真实世界数据(RWD)的预后标志解码方法,利用了这些进展。
-
我们使用深度神经网络对患者的预后进行了建模,并应用了解释性人工智能(xAI)方法逐层相关传播(LRP)来分析每个临床信息如何对单个患者的预后产生贡献。
-
我们的数据集包含来自38种癌症实体的15,726名患者在进行系统治疗过程中的多模式数据。
-
这些数据包括临床检查、实验室测试、临床记录、计算机断层扫描(CT)影像衍生的身体成分和遗传数据。
Para_03
-
直到现在,许多现有的临床预测指标都是针对特定癌症实体的,并且没有设计来整合跨癌症关联。然而,可用的数据表明,患者之间的相似性超出了组织学肿瘤类型,导致越来越多的试验包括不同癌症实体的患者。
-
Para_04
-
在泛癌数据集上训练我们的深度学习方法使神经网络能够学习跨越癌症实体的预后关系。
-
这促进了综合模型的发展,该模型揭示了具有临床相关性的生物标志物特征而无需先验知识。
-
因此,我们的方法可以帮助临床医生优先处理关键的患者特异性信息并优化治疗策略。
-
这种方法为符合法律要求的透明xAI指导决策铺平了道路。
-
我们在一个外部真实世界数据集上验证了这种xAI方法的可重复性和有效性,该数据集包含来自美国全国电子健康记录衍生的匿名数据库的3,288名肺癌患者。
Para_05
-
不断增加的数据量和可获得性正在逐步展现真实世界数据在临床应用中的潜力。在这项研究中,我们更进一步,展示了可解释人工智能解码患者结局以及基于多模态真实世界数据提供个性化治疗指导的能力。
-
在本研究中,我们进一步证明了基于多模态真实世界数据,xAI能够解读患者的治疗结果并提供定制化的治疗建议。
Results
Cohort definition
队列定义
Para_01
-
我们回顾性评估了德国最大的学术综合性癌症中心之一,西德癌症中心大学医院埃森分校治疗的150,079名有可用医疗记录的癌症患者的资料。
-
其中,15,726名患者(44.3%为女性)在2007年4月至2022年7月期间接受了全身抗癌治疗(中位时间为2016年11月),最终分析纳入了这些患者(扩展数据图1)。
-
最常见的癌症类型是肺癌(n = 4,320),肉瘤(n = 1,578)和乳腺癌(n = 1,223;详情见补充表1)。
-
为了计算总生存期(OS),对7,349名患者(46.7%)进行了删失处理。
-
为了计算至下次治疗时间(TTNT),对5,638名患者(35.9%)进行了删失处理。
-
基线时,7,965名患者的转移状态(M状态)以结构化格式可获得。
-
在这7,965名患者中,5,606名患者接受过转移性疾病(M1)的治疗。
-
2,359名患者接受了局部或局部晚期癌症(M0)的全身治疗。
-
在5,395名患者中,腹部CT影像在治疗开始前自动评估了身体组成(23,24)。
-
总计,我们的分析包括350个变量,涵盖了不同的模态以及患者特异性和肿瘤特异性变量,在我们机构首次全身治疗前提供了详细的患者特征(图1)。
Fig. 1: Overview of the data composition and explainable AI (xAI)-based workflow for decoding treatment outcomes.
- 图片说明
◉ 在收集多模态泛癌数据后,每个患者的危险评分由深度学习预测,并使患者分层成为可能。
◉ xAI随后将患者的危险评分分解为每个标记的个体贡献。
◉ 这使得在患者和队列层面的治疗指导成为可能。
◉ 括号中的数字表示每种数据类型变量的数量。
Development of pan-cancer models for outcome prediction
泛癌模型的发展用于预后预测
Para_01
-
两个神经网络被训练来根据每位患者首次住院系统治疗时的医疗档案预测OS或TTNT。
-
我们通过分别为OS和TTNT预测进行五折交叉验证展示了神经网络的可靠性。
-
对于每次折叠,80%的数据用于训练神经网络,10%用于超参数调整,10%用于测试。
-
Para_02
-
生存模型在泛癌数据集上的总体生存期预测平均一致性指数(C-index)为0.762(各折的范围:0.758–0.764),总生存期时间无进展预测的平均一致性指数为0.711(范围:0.702–0.718)。
-
当独立测试每种癌症实体的模型性能,且每个折的测试集中每种癌症实体至少有20名患者时,预测性能有所变化。
-
对于总体生存期预测,眼癌获得了最高的C-index,为0.804(范围:0.771–0.860)。
-
而对于总生存期时间无进展预测,直肠癌获得了最高的C-index,为0.756(范围:0.644–0.800)。
Fig. 2: Prediction of prognosis following training on pan-cancer RWD.
- 图片说明
◉ a, 预测OS和TTNT的列线图,在五重交叉验证中的表现。虚线表示所有患者平均跨折的结果。
◉ 箱形图显示了每个测试集(总共有6,070名患者;前列腺:131名;肾:147名;眼:187名;食道:198名;直肠:199名;胃:300名;胰腺:304名;脑:312名;结肠:319名;黑色素瘤:324名;肝:373名;肉瘤:538名;乳腺:619名;肺:2,119名)中每折训练神经网络后的预测结果(红色为所有癌症实体,黄色为特定癌症实体)。
◉ 按总体数据集中患者数量升序排列癌症实体。中位数由中心线表示,盒子的上下边框表示四分位距,须线延伸至距离铰链最大1.5倍IQR的位置。
◉ 超出须线末端的数据单独绘制。
◉ b, 泛癌数据集中患者的OS和TTNT的Kaplan-Meier曲线。
◉ 根据神经网络(泛癌训练)预测的风险,将患者分为五个风险组。
◉ 源数据
Para_03
-
在泛癌种数据集上训练模型,与仅在单一癌症实体上训练相比,显著提高了模型在OS(个体癌症实体内患者的平均C指数:0.75 vs 0.72,P<0.001)和TTNT(个体癌症实体内患者的平均C指数:0.70 vs 0.68,P<0.001)方面的表现。
-
只有在黑色素瘤患者中,当训练在黑色素瘤队列上进行时,结果更好(OS的平均C指数:0.74 vs 0.75,TTNT的平均C指数:0.69 vs 0.7,P>0.05),这比在泛癌队列上训练要好。
-
泛癌模型相对于单一实体模型的优势表明,它利用了整个队列共有的预后信息来提供稳健的预测。
Para_04
-
在对一个大规模且详细的泛癌真实世界数据集进行训练后,用于预测OS和TTNT的两个神经网络都能够将测试集中的患者分为不同的跨癌症风险组(图2b)。
-
Para_05
-
我们比较了泛癌模型与常见预后评分的表现(图3a-3h)。报告平均C指数,xAI模型优于UICC分期(OS:0.75对0.56,P<0.001;TTNT:0.70对0.54,P<0.001),东部合作肿瘤学组体能状态(ECOG PS;OS:0.81对0.67,P<0.001,TTNT:0.72对0.62,P=0.001),查尔森合并症指数(CCI,OS:0.75对0.63,P<0.001,TTNT:0.69对0.61,P<0.001)以及改良格拉斯哥预后评分(mGPS,OS:0.76对0.59,P<0.001,TTNT:0.70对0.56,P<0.001)。
Fig. 3: Benchmarking xAI against common clinical prognostic approaches.
- 图片说明
◉ 过滤了具有临床标志物的患者。线条表示每个折叠和癌症类型计算的所有C指数的平均值。
◉ a,e, 国际抗癌联盟分期(n = 7,572名患者,P = 6.54 × 10^-11 和 4.52 × 10^-12)。
◉ b,f, 东部肿瘤协作组体能状态(ECOG PS)(n = 2,035名患者,P = 2 × 10^-5 和 0.00122)。
◉ c,g, 查尔森合并症指数(CCI;n = 7,965名患者,P = 5.83 × 10^-9 和 4.01 × 10^-6)。
◉ d,h, 改良格拉斯哥预后评分(mGPS;n = 6,042名患者,P = 3.55 × 10^-14 和 1.78 × 10^-14)。
◉ i,j, 泛癌xAI模型与训练于所有患者或仅训练于测试集肿瘤类型的简洁Cox模型之间的比较,用于OS(i,n = 6,070名患者,P = 1.06 × 10^-12 和 7.85 × 10^-12)和TTNT(j,n = 6,070名患者,P = 6.94 × 10^-13 和 8.43 × 10^-12)。
◉ 中位数由中心线表示,盒子的边界表示四分位间距,须延伸至距铰链1.5倍IQR的最大距离。须尾部之外的数据单独绘制。
◉ P值来自Wilcoxon秩和检验(双侧)。来源数据
Para_06
-
为了临床应用,少量的变量将有助于模型的应用。因此,我们将xAI模型与一个简化版的Cox模型进行了比较,该模型基于十个自动选择的变量(图3i,j)。
-
全癌症类型的xAI模型在完整训练数据集上表现优于简化模型(平均C指数:0.75对0.69,P<0.001),并且在各自癌症类型上也表现更优(平均C指数:0.75对0.59,P<0.001)。
xAI reveals complex prognostic relationships between markers
xAI揭示了标记之间复杂的预后关系
Para_01
-
在开发了可靠的预测结果模型之后,我们应用了解释性人工智能(xAI)来揭示个体患者的临床信息如何影响神经网络对预后的评估。
-
我们选择解释泛癌模型,因为它们总体上优于癌症特异性模型。
-
我们选择了层归因传播(LRP)方法,因为它可以在低计算成本下为个别患者计算出稳健的解释。
-
LRP为每个患者计算了所有临床变量(如实验室标志物或合并症)对预测有利或不利结果的风险贡献(RC)。
-
这导致了具有两个维度的人工智能衍生(AID)标记:原始标记值及其由LRP分配的风险贡献。
-
正的风险贡献表示对不良结果的贡献,负的风险贡献表示对良好结果的贡献。
Para_02
-
通过分析所有患者体内的AID标记物,有可能研究神经网络如何评估该标记物与其对患者风险贡献之间的关系(图4a)。例如,年龄增长和C反应蛋白(CRP)水平升高强烈地有助于预测不良预后。
-
相反,高水平的fT3、PD-L1 TPS和较高的CT衍生腹部肌肉体积有助于预测良好的预后。
Fig. 4: Contribution of clinical markers to the prediction of OS.
- 图片说明
◉ a, OS预测中的标记RC。每个点代表一个患者的一个标记值与LRP分配给该患者的预后RC(y轴)之间的关系。标记值已标准化。
◉ b, CRP的RC取决于其他标记物的值。左图显示了所有患者的标准化CRP水平和LRP分配的RC。右上、右中和右下三个图分别展示了血小板计数、尿素氮和AST这三种选定标记物处于最高或最低10%四分位数的患者。
◉ 来源数据
Para_03
-
我们通过Flatiron Health提供的3,288名非小细胞肺癌(NSCLC)患者的外部数据验证了部分标记的结果。
-
将我们的方法应用于外部数据集后,我们发现内部和外部数据集中RCs的线性斜率之间存在强烈的相关性(皮尔逊相关系数r=0.9,P<0.001;扩展数据图3a)。
-
因此,xAI预测了标记对患者风险影响的可比性在两个数据集中。
-
为了确认LRP的基本结果是否与传统模型匹配,我们检查了xAI预测的简化线性效应与标准Cox比例风险模型。
-
我们的分析显示,在内部和外部数据集中计算的关系与每个标记的风险比高度相关(在两个数据集中测量的部分标记:内部数据集:皮尔逊相关系数r=0.93,P<0.001;外部数据集:皮尔逊相关系数r=0.97,P<0.001,扩展数据图3b,c;内部数据集中所有标记:皮尔逊相关系数r=0.85,P<0.001,扩展数据图3d)。
Para_04
-
值得注意的是,即使不同的患者具有相同的标记物值,该标记物的RC也存在很大差异。
-
通过利用LRP,可以解释一部分由标记物交互作用引起的RC变化(图4b)。
-
我们观察到CRP的RC根据附加的‘次要’变量的值而变化。
-
在检查的8,294对标记物组合中,有1,373对(16.6%)根据混合效应模型显示显著的交互作用。
-
例如,当血小板计数较低时,高CRP水平被赋予较高的RC(ΔRC斜率:×0.07,P < 0.001)。
-
-
虽然已知升高的CRP水平和血小板计数的预后意义,但具体的交互作用尚未描述25。
-
血液尿素氮(BUN)对CRP的RC影响较小(ΔRC斜率:0.03,P < 0.001)。
-
在这里,CRP水平较高与BUN水平较高的患者具有特别高的RC相关联。
-
相反,CRP的RC与天冬氨酸转氨酶(AST)无关(ΔRC斜率:-0.006,P = 1.0)。
Para_05
-
内部和外部数据集中变量之间存在的统计上显著的相互作用在外部数据集中表现出高度相似性(皮尔逊相关系数 r = 0.59,P = 0.021;扩展数据图 3e)。
-
为了确认通过 xAI 观察到的基本相互作用结果与传统模型一致,我们检查了简化线性化效应,该效应针对 LRP 分配的 RC 与混合效应 Cox 比例风险模型进行了比较。
Para_06
-
在这里,来自 xAI 的相互作用方向与在内部和外部数据集中观察到的 Cox 回归模型中的相互作用相匹配(r = 0.91,P = 0.03 和 r = 0.69,P = 0.009;扩展数据图 3f,g)。
-
基于这些结果,我们得出结论,LRP 方法在各种数据集之间具有高度可重复性,并且与简化关系的现有统计模型一致。
-
然而,xAI 方法的全部潜力超越了这一点,能够为个别患者进行非线性的 RC 分配,同时考虑他们独特的疾病背景。
Para_07
-
AID markers for patient-level treatment guidance
AID治疗指导的患者级别标志
Para_01
-
AID标记物,将标记物值与其LRP分配的风险等级相结合,通过纳入每个标记物相关的背景风险,增强了医疗专业人员可获得的临床信息。
-
‘临床医生指南’可以清晰地展示个别患者的AID标记物特征。
Para_02
-
在图5中,我们展示了代表性的结果,这些结果说明了‘临床医生指南’在四个不同患者中的潜在实际应用案例。
-
在患者1中,年龄、BMI、体重和fT3值对整体预后产生了不利影响,而高淋巴细胞和血小板计数被赋予了有利(负)的风险系数。
-
患者的预后因呼吸困难、吞咽困难、疼痛以及晚期T和M分期而恶化。
-
在不同的远处转移中,与肺部和骨转移相比,肝转移被识别为特别不利。
-
总体而言,基于所有可用数据,神经网络因此预测该患者将会有高度不良的结局。
-
在患者2中,淋巴细胞减少症和年老尤其导致了不良预后。
-
然而,该患者合并症较少,胸腔积液具有最强的不利影响。
-
没有肝转移和使用派姆单抗治疗被赋予了有利的风险系数,整体风险被认为中等。
-
值得注意的是,患者3的CRP水平升高,这通常与需要加强监测的潜在危险患者状况相关。
-
然而,xAI不认为这种变量在这种特定情况下是有害的,可能是因为该患者血小板计数高且尿素氮水平低(图4)。
-
患者4表现出中等程度的内脏脂肪组织(VAT),这对预后有利,而皮下脂肪组织(SAT)水平低,则对预后不利。
-
Fig. 5: Clinician’s guide showing the contribution of each marker to overall risk at the patient level.
- 图片说明
◉ 代表性的结果展示了四名患者的病例。
◉ x轴表示标记物的RC朝向更高的风险(右/正)或更低的风险(左/负)。
◉ 颜色表示癌症实体、合并症、转移位置和系统治疗的存在(黑色)或不存在(白色)。
◉ 对于具有序数或连续刻度的标记物,点的颜色表示相应患者标记物的值。
◉ 对于连续标记物,标记物的值被标准化。
◉ 底部显示了预测的总体患者风险。
◉ 为了便于解释,给出了100名具有相似预测风险的患者的中位绝对生存期。
◉ 身体成分标记物:腹部体积包括内脏脂肪组织(VAT)、总脂肪组织(TAT)、皮下脂肪组织(SAT)、肌间脂肪组织(IMAT)、肌肉和骨骼。
◉ 来源数据
Evaluation of established scoring systems
已建立评分系统的评估
Para_01
-
我们的结果显示了基于单一标记的预后预测的局限性,并强调了在由其他标记定义的疾病背景下需要考虑的预后变量的重要性。
-
然而,在临床实践中,通常依赖于一些评分系统,如TNM分期,来评估预后和指导治疗。
-
根据这些评分系统,患者通常被严格分类,而忽略了诸如性别、营养状况或合并症等基本差异。
Para_02
-
为了评估分数在这个疾病背景下的依赖性,我们分析了分数与LRP分配的RC之间的相关性(扩展数据图4c)。
-
对于东部肿瘤协作组体能状态(ECOG PS)(r = 0.87),M期(r = 0.92)和N期(r = 0.76),较高的分数通常与较高的计算RC相关,这表明它们对预后有一致的影响,独立于其他标记物。
-
肿瘤分级(r = 0.02)和T期(r = 0.07)与它们的RC之间的弱相关性表明,它们应该结合其他标记物来解释。
Assessment of marker importance at the cohort level
队列水平标志重要性的评估
Para_01
-
在反映临床护理的多模态真实世界数据集中,预计会有既不相关的旁侧标记和对患者高度相关的关键标记。
-
为了衡量队列中的标记重要性(MI),我们计算了与该领域其他方法一致的RC的绝对值13。
-
我们发现,90%的LRP评分被分配给了350个标记中最重要114个标记(扩展数据图5a、b)。
-
在所有患者中,预测总生存期最重要的标记是C反应蛋白水平(CRP,平均MI:0.071)、游离三碘甲状腺素(fT3,平均MI:0.066)、ECOG体能状态(平均MI:0.061)、M分期(平均MI:0.058)和乳酸脱氢酶(LDH,平均MI:0.055;扩展数据图6a、b)。
-
这些结果与先前报告的研究结果一致26,27,28,29。
-
然而,我们的研究结果表明,fT3可能在预后评估中发挥比目前临床实践中所认识的更为重要的作用。
Para_02
-
在某些癌症亚组中罕见的事件在泛癌数据集中可能足够常见,可以评估该变量的预后影响。
-
LRP 可以评估由国际疾病分类代码定义的合并症以及由德国手术和操作分类系统(OPS)定义的医疗干预措施在疾病背景下的影响(扩展数据图 6c、d)。
-
由于每种合并症的稀缺性,在这里医疗干预没有提供有用的信息,这就是为什么我们报告受影响患者的平均 RC。
-
我们发现对预测不良结局贡献最大的合并症是疼痛(平均 RC:0.064),呼吸异常(平均 RC:0.064),腹水(平均 RC:0.056),呼吸或消化道的继发性恶性肿瘤(平均 RC:0.048)以及胸腔积液(平均 RC:0.046)。
-
值得注意的是,一些诊断对整体预后有利(例如,心力衰竭、胃炎和十二指肠炎)。
-
分配给最高 RC 的干预措施是输尿管支架置入术(平均 RC:0.074),这可能表明存在狭窄过程,以及脑膜重建术(RC:0.049)。
Cross-cohort comparison of prognostic markers
预后标志物的跨队列比较
Para_01
-
在泛癌数据集上的模型训练和通过LRP获得的样本解释使我们能够研究标记的MI在不同患者亚组之间的差异(图6)。
Fig. 6: Relationship between mean marker importance (MI) of selected markers and cancer entities.
Fig__6__Relationship_between_mean_marker_importance_(MI)_of_selected_markers_and_cancer_entities_
- 图片说明
◉ x轴显示了MI的对数刻度。每个标记都有三个癌症实体具有最高的标记MI,并被注释出来。
◉ 身体成分标记包括:VAT、TAT、SAT、肌间脂肪组织(IMAT)、肌肉和骨骼的腹部体积。只显示那些在至少20名患者中进行过相应标记测量的癌症实体。
◉ 数据来源
Para_02
-
LRP识别了许多标志物,这些标志物在预测某种癌症类型方面的意义已经确立:CA19-9在小肠癌和胆道癌中的MI最高,胆红素成为肝癌、胰腺癌和胆道癌的重要标志物。
-
肝转移的存在对于甲状腺癌、直肠乙状结肠交界处癌和其他消化道癌症最为相关。
-
-
肿瘤标志物CEA在直肠乙状结肠交界处癌、结肠癌和甲状腺癌中的MI最高。
Para_03
-
然而,跨癌症方法也使得识别许多以前未探索的预后关联成为可能。
-
根据基于CT的体成分分析确定的腹部肌肉体积对阴道癌、子宫癌和睾丸癌最为重要。
-
有趣的是,AST对于尿道癌具有非常高的MI,其次是肝癌和眼癌(主要是脉络膜黑色素瘤)的预期高MI。
-
天冬氨酸转氨酶似乎对阴道癌和卵巢癌患者的预后分层最为重要。
-
ECOG PS对于胰腺癌、前列腺癌和肝癌尤为重要。
-
除了甲状腺癌和脑癌(这方面关系已广为人知)外,fT3在睾丸癌中最为重要。
Para_04
-
Evolution of marker importance during disease progression
疾病进展过程中标志物重要性的演变
Para_01
-
我们进一步探讨了这些标志物在疾病进展过程中对预后的不同重要性。
-
根据总生存期(OS)对死亡患者进行排序,我们可以沿着伪时间线跟踪LRP分配的标志物重要性,并观察到治疗过程中的显著变化(图7)。
-
ECOG PS和CRP及LDH水平在整个疾病进展过程中始终是高度预后性的标志物。
-
对于总生存期较短的患者,血清总蛋白浓度对其预后影响很大,这可能反映了这一阶段器官功能障碍的相关性,特别是肝脏和肾脏的功能。
-
凝血变量凝血酶原时间和氧饱和度在总生存期较短的患者中具有很高的预后价值,但在总生存期较长的患者中的预后贡献较小。
-
M分期总体上具有决定性的标志物重要性,但对于总生存期较短的疾病阶段,这种重要性有所下降。
Fig. 7: Explainable Kaplan-Meier plots depicting the importance of diagnostic markers during disease progression.
- 图片说明
◉ 黑线代表Kaplan-Meier图,而彩色线条可视化不同生存时间患者标记重要性(MI)的变化。MI线的范围在零到一之间。
◉ 仅纳入了死亡患者的数据进行此分析(泛癌:n = 8,377,乳腺癌:n = 487,肝癌:n = 451,肺癌:n = 2,753,黑色素瘤:n = 206,睾丸癌:n = 50)。
◉ 所选标记物在至少40名患者中进行了测量,并且在两年的时间窗口内。
◉ Art.氧饱和度,动脉氧饱和度。数据来源
Para_02
-
我们的模块化方法使我们能够生成具有不同预后患者的可解释的Kaplan-Meier图。
-
在肺癌中,动脉氧饱和度对大多数患者来说具有最高的互信息,但对生存期短的患者而言,蛋白质表达、CRP和ECOG PS变得更加关键。
-
转移(M期)通常比淋巴结转移和肿瘤分期具有更高的互信息。
-
有趣的是,在疾病进展过程中,转移的重要性有所下降,并且在仅存活几个月的患者中被T期和N期所取代。
-
LDH在睾丸癌和黑色素瘤中的互信息异常高,这在文献中有广泛报道。
-
-
在肝脏中,天冬氨酸转氨酶、总蛋白、GGT、凝血酶原时间和LDH的互信息在疾病进展过程中增加。
-
对于存活超过一年的患者,丙氨酸转氨酶的重要性较低。
Para_03
-
接下来,我们研究了癌症特异性生物标志物的预后影响(扩展数据图8)。
-
PD-L1 TPS是肺癌预后的最重要的癌症特异性标记物,这与免疫检查点抑制剂治疗的效果一致。
-
在头颈癌中,肿瘤标记物SCC具有较高的标记重要性,并且在疾病进展过程中增加。
-
在肝癌中,肿瘤标记物AFP在整个疾病进展过程中具有较高的MI,但在生命末期,CA19-9和CA125变得更为重要。
Para_04
-
Discussion
Para_01
-
个性化医疗需要对个体患者进行全面的特征描述,而这无法通过基于有限标记集的传统评分系统来实现1,4。
-
尽管每位患者都有大量的常规诊断数据可供使用,当前的临床工具仅包括这些变量的一小部分,并且仅限于少数几种癌症实体2,3。
-
先前的研究已经开始展示利用多模态数据预测个体患者预后潜力的可能性,这些研究使用了公共数据库7,8,18。
-
在这项研究中,我们利用了来自15,726名接受全身治疗的实体瘤患者的多模态常规临床数据,以揭示决定患者预后的复杂机制。
Para_02
-
由于患有不同癌症和不同疾病阶段的患者存在异质性,我们可以观察到特定标记物对预后的影响如何根据个别患者的背景而变化。
-
我们发现,模型通过在相同和不同癌症实体的患者上进行训练受益,从而成功地将患者分层为跨癌症风险组。
-
这与基于跨癌症实体的预测生物标志物来指导治疗的趋势一致。
-
我们假设这些模型之所以受益是因为一些标记物(例如,CRP、ECOG PS)在不同类型的癌症中提供了类似的预后信息,使模型能够将从一种癌症实体中学到的关联转移到另一种癌症实体。
-
使用xAI,我们的研究全面理解了影响治疗结果的因素。
-
在没有使用先验知识的情况下,xAI描述了每个患者的预后是如何由他们的个体标记物特征决定的,并确定了CRP、fT3、M状态和ECOG PS是所有患者中最重要因素。
-
我们的结果显示,在内部和外部数据集之间具有出色的可重复性,并且与传统方法高度一致。
Para_03
-
在医学领域,xAI以前被应用于验证模型性能或评估癌症队列中的特征重要性。
-
很少有研究利用患者级别的xAI解释,这对于信任模型决策至关重要,并且随着法律对AI系统使用的日益要求而变得越来越必要。
-
随着诊断范围的扩大,医疗专业人员越来越难以全面整合所有患者信息。
-
AI驱动的治疗指导已经展示了其改善患者预后的潜力。
-
通过使用xAI和多模态患者数据,我们的方法超越了风险分层,并且可以同时为临床医生提供具有双重维度的AID标志物,即原始标志物值和xAI分配的RC。
-
这可以帮助医疗服务提供者和患者调整治疗强度并设定个性化治疗目标。
-
由于患者数据可以在现代医院基础设施中近乎实时地获取,我们的方法可以无缝集成到常规临床护理中。
Para_04
-
通过系统比较这些AID标记物,我们展示了预后关联不是静态的,并且不同的标记物可能在不同癌症实体和个体疾病背景下至关重要。与传统统计方法相比,xAI可以基于所有可用数据来评估个体患者的复杂情况,前提是解决了常见的陷阱。
-
与传统统计方法不同,xAI可以在解决常见问题的前提下,利用所有可用数据来评估个体患者复杂的病情设定。
Para_05
-
混杂因素是回顾性真实世界数据(RWD)分析中最常见的挑战之一。
-
我们旨在通过应用高丢弃率正则化来减少由相关变量引起的混杂效应,不仅应用于神经网络权重,还应用于输入,以鼓励网络独立学习变量。
-
在真实世界数据环境中,文档记录也可能引入混杂因素。
-
例如,胃炎或十二指肠炎并不预期会对患者的预后产生积极影响。
-
然而,这些非癌症合并症的记录可能暗示没有急性危及生命的状况。
-
-
在这项概念验证研究中,我们仅纳入接受全身抗癌治疗的患者。
-
虽然这一队列提供了结构良好的治疗数据,但更有可能包括晚期疾病患者。
-
外部验证数据集包含非小细胞肺癌(NSCLC)患者。
-
由于内部数据集中NSCLC是最庞大的队列,因此这是一个适合验证的群体,但未来还需要纳入不同癌症类型的外部数据。
-
在解释分配给不同治疗方法的RC时尤其需要谨慎,因为非随机选择治疗方法可能导致统计偏差。
Para_06
-
在临床试验中,随机化可以防止某些形式的混淆和偏见。
-
因此,现实世界的研究与xAI相结合将不会取代RCT,但可能会产生新的数据驱动假设,并为RCT设计提供信息。
-
由于我们的方法不限于RWD,为特定临床环境设计的RCT也可以直接整合我们的xAI框架。
Para_07
-
总之,我们在现实世界中展示了基于xAI的方法来分析大规模多模态数据的预后关系。
-
鉴于多模态数据对患者管理和治疗选择的日益影响,xAI方法为精准医学带来了巨大潜力。
Methods
Study design
研究设计
Para_01
-
来自埃森大学医院治疗的150,079名癌症患者的电子健康记录被回顾性评估。
-
在这其中,我们纳入了2007年4月1日至2022年7月22日期间在埃森大学医院接受系统性癌症治疗的15,726名患者。
-
OS定义为从开始系统性治疗到因任何原因死亡的时间。
-
死亡日期从医疗记录中获取,如果无法获得,则从州癌症登记处获取。
-
对于没有可用死亡日期的患者,在其最后一次临床访问日期进行删失处理。
-
TTNT定义为从开始系统性治疗到开始下一线系统性治疗或因任何原因死亡的时间。
-
对于没有记录后续治疗线且没有可用死亡日期的患者,在其最后一次临床访问日期进行删失处理。
-
该研究得到了杜伊斯堡-埃森大学医学部伦理委员会的批准(编号:21-10347-BO)。
-
由于研究的回顾性设计和数据的去识别化,书面知情同意的要求被免除。
Data acquisition
数据获取
Para_01
-
所有医疗数据均从埃森大学医院的智能医院信息平台(SHIP)获取。在SHIP中,医疗数据以FHIR格式存储,并可根据特定查询进行收集。
-
埃森大学医院的各种子系统,例如实验室值或电子药物管理子系统,会自动将数据传输到SHIP。
-
在本研究中,我们基于SHIP中所有可用的结构化数据创建了一个泛癌数据集。
-
首先,根据ICD代码(C00-C75)收集了所有患有实体肿瘤的患者。
-
然后,选择了在SHIP中记录的接受静脉注射或口服癌症治疗的患者。
-
进一步的纳入标准包括自2007年4月1日起开始的全身治疗以及癌症治疗开始时至少18岁。
-
Para_02
-
对于结果队列中的 15,726 名患者,进一步的临床数据从 SHIP 获取。
-
为了确保数据集中最近的数据与最少的缺失值之间的平衡,我们定义了不同的时间窗口来查询相对于系统癌症治疗开始的时间变量集。
-
除 CT 衍生的身体组成外,所有变量都可以映射到 LOINC、SNOMED CT、ATC、ICD 或 OPS 术语。
-
以下列出了用于创建我们数据集的所有查询变量集,以及适用的时间窗口。
Cancer therapies (first recorded in SHIP)
癌症疗法(首次记录于SHIP)
Para_01
-
对于每位患者,我们癌症中心给予的第一线治疗药物被检索出来。
-
-
Demographics
人口统计学
Para_01
-
-
-
记住,直接给我整理的结果,不要有除了结果的其他任何语句。
-
一般情况下,待整理原本有多少句话,输出的 json 就有多少个 item。
Body composition (maximum 2 months before treatment)
身体成分(治疗前最多2个月)
Para_01
-
除了体重、身高和BMI,我们还包括了从CT图像自动获得的腹部身体组成,以便准确评估患者的生理状况。
-
我们检索了治疗开始前最多两个月内的腹部CT图像,并使用深度学习模型自动测量肌肉、骨骼和不同脂肪体积(皮下、内脏、肌间和总脂肪组织)23。
-
收集到的标记物被除以腹部CT切片的数量,以确保患者之间的可比性。
-
Cancer entity (C0-75)
癌症实体(C0-75)
Para_01
-
对于每位患者,查询了他们正在接受治疗的一种癌症实体。
-
Prior diagnoses (any before treatment)
先前诊断(任何在治疗前的)
Para_01
-
我们选择了至少出现在200名患者中的所有ICD-10代码(C0-C75除外)。总共,有68个变量。
-
Prior medical interventions (any before treatment)
先前的医疗干预(治疗前的所有)
Para_01
-
我们使用了德国手术和操作分类系统(OPS)来识别先前的医疗干预。
-
我们选择了至少出现在200名患者中的所有OPS代码。
-
Staging (maximum 1 year before treatment)
staging(最多治疗前1年)
Para_01
-
-
Metastasis location (any before treatment)
转移位置(任何治疗前)
Para_01
-
受影响的转移组织,如果有的话,被包括在内。总共,有九个变量。
-
Vital signs (maximum 2 weeks before treatment)
生命体征(治疗前最多2周)
Para_01
-
包括了氧饱和度、体温、心率以及收缩压和舒张压。共有五个变量。
-
ECOG PS (maximum 3 months before treatment)
ECOG PS(治疗前最多3个月)
Para_01
-
ECOG PS是从肿瘤委员会文件中获得的。总共,有一个变量。
-
Laboratory results (maximum 2 weeks before treatment)
实验室结果(治疗前最多2周)
Para_01
-
我们选择了至少在20%的患者(62个变量)中出现的所有变量,另外还选择了九个我们认为对亚组特别相关的变量(主要是肿瘤标志物)。总计有71个变量。
-
Pathology
病理学
Para_01
-
癌症亚型超越了ICD-10分类,组织学肿瘤分级,免疫组化结果和体细胞肿瘤突变均被包括。
-
Smoking status