青少年特发性脊柱侧弯(AIS)
是脊柱侧弯中最常见的类型,影响1-4%的青少年,且女性患者比例更高。
现有评估工具
SRS-22R问卷
是AIS患者健康相关生活质量的标准化评估工具,其优势在于补充了传统客观影像学参数(如Cobb角矫正率)的不足。
但是研究发现——影像学矫正率与患者报告结局(PROs)的改善
无显著相关性
,
亟需开发
新方法
来预测术后PROs。
一、 患者群体
回顾性分析美国两家Shriners儿童医院2010年以来的多中心队列数据。
二、数据收集与处理
数据类型共分为:
人口统计学
——年龄、性别、种族、吸烟史、合并症(如ADHD、癫痫)。
影像学参数
——
135项术前和70项术后参数(如Cobb角、矢状垂直轴、T1倾斜角)。
患者报告结局(PROs)
——
SRS-22R问卷的22个问题评分(功能、心理健康、疼痛、满意度、自我形象)。
三、研究设计
预测任务:
任务1:预测术后SRS-22R各问题回答(二分类:1-3分 vs4-5分)。
任务2:预测是否达到最小临床重要差异(MCID)。
任务3:预测手术成功(同时满足Cobb角矫正率>60%和MCID)。
时间跨度:
术后
6个月、1年、2年
三个时间点。
四、模型开发
传统机器学习模型:
包括
高斯朴素贝叶斯(GNB)、逻辑回归(LogReg)、随机森林(RF)、支持向量机(SVM)、XGBoost
。
深度学习模型:
多层感知机(MLP),含3个全连接层和ReLU激活函数,使用加权交叉熵损失解决类别不平衡。
数据划分:
80%训练集(含5折交叉验证)、20%测试集。
统计与性能评估:
评估指标:
AUROC(主要指标)
、
准确率(ACC)
。
统计检验:t检验、ANOVA分析组间差异,Pearson相关系数分析影像学与PROs关联。
一、Task 1(SRS-22R问卷个体问题预测)
(1)模型性能
①最佳AUROC:
6个月:0.86(深度学习模型)
1年:0.85(随机森林)
2年:0.83(深度学习模型)
②准确性(ACC):
平均0.67–0.84,满意度领域(#Q21、#Q22)表现最优。
③时间衰减:
长期(2年)预测性能略低于短期(6个月、1年),可能与随访数据减少有关。
(2)关键发现:
①影像学参数重要性:
冠状面参数(如胸椎Cobb角、腰椎Cobb角)与矢状面参数(如T2–T12胸椎后凸、矢状垂直轴SVA)共同影响术后满意度预测。
T2–T12胸椎后凸被模型识别为重要特征,但临床分级中仅列为次要参数。
②PRO参数重要性:
术前SRS-22总分、功能(#Q15)和疼痛(#Q11)评分显著影响预测。
(3)临床一致性验证:
模型识别的关键特征(如胸椎Cobb角、T1倾斜角)与外科医生经验一致,但模型补充了矢状面参数的重要性。
二、Task 2(最小临床重要差异MCID预测)
(1)模型性能:
①AUROC:
Crawford标准(总MCID):0.84(6个月)、0.82(1年)、0.79(2年)。
Carreon标准(自我形象MCID):0.80(1年)。
②深度学习优势:
在MCID预测中显著优于传统机器学习模型(如XGBoost)。
(2)关键特征:
①性别:
模型识别性别为MCID预测的第三重要特征(女性更易达到MCID),但实际PRO改善无显著性别差异(P> 0.05)。
②术前低PRO评分患者:
基线生活质量较差的患者术后改善更显著(P< 0.001)。
(3)校准与公平性:
①置信度校准:
预期校准误差(ECE)从0.15降至0.07,模型过度自信问题得到缓解。
②性别偏差控制:
通过过采样平衡男女样本,模型在女性(AUROC 0.84)和男性(AUROC 0.82)中表现接近。
三、Task 3(手术决策支持:影像学与PROs联合改善预测)
(1)模型性能:
①AUROC:
0.81(6个月)、0.78(1年)、0.75(2年)。
②校准效果
:
校准后模型置信度与实际准确率匹配度提升(ECE从0.12降至0.05)。
(2)关键特征:
①矢状面参数:
腰椎前凸(Lordosis)、矢状垂直轴(SVA)比传统冠状面Cobb角更具预测力。
②术前PRO参数:
自我形象(#Q4)和心理健康评分影响手术成功概率。
(3)统计验证:
①无显著相关性:
Cobb角矫正率与PROs改善无统计学关联(P> 0.05),支持需结合多维度数据。
②亚组分析:
矫正率>80%的患者并未表现出更高的PRO改善(P= 0.4213)。