Basic Information
英文标题:Subclassification of obesity for precision prediction of cardiometabolic diseases
文章作者:Daniel E. Coral | Paul W. Franks
文章链接:https://www.nature.com/articles/s41591-024-03299-7
Abstract
Para_01
肥胖和心血管代谢疾病常常,但并非总是,共存。区分那些心血管代谢风险与预期体重指数(BMI)不符的人群可能有助于精准预防心血管代谢疾病。
因此,我们在四个基于欧洲人群的队列中进行了无监督聚类分析(N ≈ 173,000)。
我们检测到了五种不一致的表型,这些表型包括那些根据其BMI预期的心血管代谢生物标志物高于或低于预期的个体,总体上这些表型代表了总人口的大约20%。
与一致的个体相比,具有不一致表型的个体在主要不良心血管事件(MACE)和2型糖尿病的患病率和未来风险方面有所不同。
例如,血脂谱不一致的概率每增加10%,MACE的风险就增加5%(女性危险比为1.05,95%置信区间为1.03至1.06,P = 4.19 × 10−10;男性危险比为1.05,95%置信区间为1.04至1.06,P = 9.33 × 10−14)。
当纳入不一致表型信息时,用于预测MACE和2型糖尿病的多变量预测模型表现更好(似然比检验P < 0.001)。
这种改进代表了每10,000人测试中额外4-15次正确干预和37-135次不必要的干预被正确避免的净收益。
Main
Para_01
肥胖正在全球范围内稳步上升,预计到2030年,世界上五分之一的人口,即15亿人将患有肥胖症(参考文献1),这导致了更高的致命性疾病风险,如心血管疾病(CVD)和2型糖尿病(T2D)2。
除了受影响人数众多外,肥胖的预防和护理因这些关联的复杂性和异质性而变得更加复杂。
这种并发症和表型的变化表明,对肥胖进行信息性亚分类可能有助于促进预防和治疗的精准医学方法。
Para_02
BMI是流行病学家、卫生专业人员和其他人用以描述肥胖的常用指标,易于获得,并且在人群层面上与衡量脂肪含量的黄金标准措施相关性很好。
然而,BMI不足以在个体层面准确分类肥胖症,因为BMI相似的人往往表现出不同的健康风险。
这在一定程度上是因为BMI是一种不完美的多余脂肪测量方法,它不能区分身体内脂肪质量和非脂肪质量的比例或分布。
因此,临床医生使用BMI进行筛查,尽管总是与其他风险指标结合使用。
Para_03
存在BMI与心血管代谢疾病之间关系的既定不一致7,8。
大约7%的BMI超过肥胖阈值的个体没有胰岛素抵抗和高血压等代谢功能障碍的常见症状9。
此外,约20%的个体尽管BMI在正常范围内,但有多重心血管代谢风险因素10。
某些个体对影响BMI和CVD的生活方式暴露特别敏感11。
还存在多种由基因决定的肥胖表型,每个表型传达不同的代谢特征和不同程度的心血管疾病风险12,13。
虽然这些观察结果表明存在不成比例地处于更高或更低心血管疾病风险的亚群,但它们也突显了准确识别这些亚群中的个体所涉及的挑战。
Para_04
在这项分析中,我们使用了一组聚类技术来将普通人群分解为表型‘不一致’的群体,这些群体偏离了代表临床测量和BMI之间线性关系的‘一致’表型。
与将个体分类到特定群体不同,每个个体被分配给所有群体的归属概率。
这些群体共同呈现了对各种与肥胖相关的心脏代谢表型更为系统的评估,这比以前建立的评估更为全面。
我们在欧洲四个大型独立队列中探讨了这些群体的特点及其对心脏代谢风险的潜在临床意义。
Results
BMI–biomarker discordance
BMI-生物标志物不一致
Para_01
分析流程概述见图1。我们将基于BMI的预测值调整年龄和吸烟状态后的残差定义为BMI-生物标志物不一致。为了定义这种不一致性,我们使用了英国生物样本库(UKB)中欧洲血统子集的数据(N = 145,111)作为我们的发现数据集来识别BMI不一致的表型。我们没有使用任何BMI阈值进行纳入。我们选择了10种常规用于临床风险分层的与BMI相关的生物标志物,每个标志物代表了不同已知受肥胖影响的生物学过程:空腹葡萄糖(FG),代表血糖水平;脂质成分(高密度脂蛋白(HDL)、低密度脂蛋白(LDL)、甘油三酯(TG)),代表脂质代谢;收缩压和舒张压,代表血流动力功能;血清肌酐,代表肾功能;丙氨酸转氨酶(ALT),代表肝功能;C反应蛋白(CRP),代表炎症系统;以及腰臀比,代表脂肪分布。
然后我们进行了性别特异性分析,以量化BMI-生物标志物关系(补充图1)和针对个体测量的BMI不一致性。结果显示,表现出显著不一致性的个体比例明显高于BMI预期值下的正态分布预计比例(预期比例=5%,观察到的比例=10.3%;P二项<0.001)。
Fig. 1: Study workflow.
- 图片说明
◉ 流程图展示了我们对BMI-生物标志物不一致性的总体分析步骤,以及用于将BMI-生物标志物不一致性划分成概率分布的算法集合的详细信息。PCA代表主成分分析。
◉ Flowchart depicting the overall steps in our analysis of BMI–biomarker discordance, with details about the ensemble of algorithms used to partition BMI–biomarker discordance into probabilistic profiles. PCA, principal components analysis.
Visualization and clustering of discordant profiles
不一致轮廓的可视化和聚类
Para_01
我们使用生物标志物偏差构建了一个邻近网络,并使用均匀流形逼近和投影(UMAP)方法将其可视化为二维(2D)投影。
具有显著差异的个体似乎在亚组内聚集成簇,而在正态分布的投影中不存在这种模式(补充图2和3)。
线性降维(即主成分分析)无法捕捉到这种差异,可能是因为前两个主成分解释的方差比例相对较低(约35%),以及累积解释方差的单调性(补充图4)。
Para_02
为了确定在UMAP投影中观察到的亚组,我们在UMAP的基本邻近网络上应用了一种软聚类算法。简而言之,该方法将一系列迭代图聚类技术产生的分区转换为高斯混合分布。
因此,个体被分配了对所有亚组的归属概率,而不仅仅是单一亚组的分类归属。
Para_03
为了进一步验证识别出的亚组,我们在三个独立的大规模基于人群的队列中进行了相同的分析:马斯特里赫特研究(TMS,N = 3,175),鹿特丹研究(RS,N = 9,993)和美因茨健康研究(GHS,N = 14,654)。基线特征显示在补充表1-3和扩展数据图1中。每个队列中BMI-生物标志物关系的效果显示在补充图5和补充表4中。
在所有获得的UMAP投影中,我们观察到一种从大多数个体所在中心‘云’偏离的‘尖峰’模式,这对应于BMI-生物标志物不一致的个体(扩展数据图2)。通过确定哪些特征在所有队列中都得到了一致的复制(方法和扩展数据图3和4),我们获得了最终的分区,其中包括男性的一种一致特征和四种不一致特征,女性则包括五种不一致特征(图2a,b)。
个体最高评分特征的中位分配概率超过90%(四分位范围= 89-99%),对于男性,这种最终分区的相对熵为0.85,对于女性为0.88,这表明这些模型中的特征得到了很好的区分。
Fig. 2: Characteristics of concordant and discordant profiles.
- 图片说明
◉ 在UKB中发现的不一致的特征,并在三个独立的队列中被稳健地复制。
◉ a, UMAP二维投影。颜色表示特征分配。
◉ b, 聚类权重。
◉ c, 描述每个特征的平均生物标志物残差的森林图。点和误差线代表每个生物标志物的平均残差值的估计值和95%置信区间。虚线表示残差为0。
◉ 女性样本量:UKB = 77,207;TMS = 1,542;RS = 5,704;GHS = 7,301。
◉ 男性样本量:UKB = 67,904;TMS = 1,633;RS = 4,289;GHS = 7,353。
◉ DBP,舒张压;SBP,收缩压;SCR,血清肌酐;WHR,腰臀比。
Para_04
为了评估分区的质量,我们将最终分区与应用于偏差数据的不同类别灵活概率聚类算法得出的分区进行了比较。
我们执行了基于质心(高斯混合)、基于边界(原型)和基于密度(HDBSCAN)的算法。
这些其他算法获得的最佳分区在相对熵方面与我们的最终分区相比更低(补充表5),并且无法准确识别我们在UMAP投影中观察到的亚组(补充图6–14)。
Para_05
我们观察到不一致的特征传达了多变量的不一致性特征。
它们与一致的特征在多个生物标志物的数值上有所不同(补充图15-17和补充表6和7),以及生物标志物偏离其BMI预期值的程度(图2c)和这些偏差之间的相关性(补充图18)。
大多数个体(约80%)具有主要一致的表型特征,其生物标志物位于BMI预期值的正常分布范围内,我们将其称为‘基线一致’(BC)特征(图2b和补充表8)。
大约8%的女性表现出不一致的高血压特征(DHT),其血压值高于其BMI预期值。
大约5%的女性和7%的男性表现出不一致的不良脂质特征(DAL),表现为TG较高、HDL较低和LDL较高,这高于其BMI预期值。
分别由高于预期的ALT和CRP特征定义的不一致的肝转氨酶特征(DLT)和不一致的炎症状态特征(DIS),每种特征在两性中的个体中各占4-5%。
最后,大约2.5%的个体表现出不一致的高血糖特征(DHG),其FG水平异常高,并且与异常低的LDL水平相关联。
值得注意的是,具有一致特征的个体形成了一个比不一致特征形成的子群更松散连接的子群,这是通过传递性指数衡量的(补充表9),这表明不一致的特征显示出更为一致的生物标志物模式。
为了更好地理解生物标志物变异如何对应于不一致特征的概率,我们在补充表10中展示了对于固定年龄(55岁)和BMI(30公斤/平方米)且不吸烟的个体,不同水平的不一致特征概率对应的生物标志物值。
Para_06
我们发现不一致和一致的特征在BMI-生物标志物关系上也有所不同(也就是说,当BMI增加时,生物标志物如何变化,使用特征分配概率作为回归权重以获得特定特征的估计)。例如,我们发现在男性和女性的DAL特征中,BMI每增加一个单位对TG的影响大约是BC中观察到影响的两倍(图3,补充图19和补充表11)。
Fig. 3: Estimated biomarker change per BMI unit increase within each profile.
- 图片说明
◉ 汇总估计和对应于每个轮廓中BMI单位增加的变化的每个生物标志物的95%置信区间。
◉ 这些估计值是通过研究间的随机效应meta分析得出的。
◉ 用粉红色阴影区域表示BC轮廓估计值周围的置信区间。
◉ 虚线表示零关联。
◉ 女性样本量= 91,754;男性样本量= 81,178。
Para_07
我们发现总体有利的生物标志物不一致(也就是说,所有生物标志物的水平低于给定BMI预期水平,除了HDL水平较高)很少见(女性占0.92%,男性占0.81%),并且这与一致的概况没有明显区别(补充图20),这意味着这是符合正常一致分布的一部分。
Discordant profiles and cardiometabolic disease prevalence
不一致的表型和心血管代谢疾病患病率
Para_01
我们根据分配概率作为权重估计了与所选生物标志物相关的各种心血管代谢共病的特征特定患病率(图4a和补充表12)。
尽管病例主要属于一致的特征,但不一致特征和一致特征中的疾病患病率存在显著差异。
例如,在5%错误发现率(FDR)校正后,具有DHG特征的女性患冠心病(CHD)的可能性是BC的3.26倍(95%置信区间(CI)2.79,3.82)。
DIS中的CHD病例也比BC中的多(优势比(OR)1.50,95% CI 1.25,1.80)。
男性中也发现了相同的CHD富集模式(DHG中的OR 2.59,95% CI 2.32,2.88;DIS中的OR 1.32,95% CI 1.16,1.50)。
值得注意的是,在两性中,DAL中的CHD病例都比BC中的少(女性中的OR 0.79,95% CI 0.64,0.98;男性中的OR 0.67,95% CI 0.60,0.75)。
我们还观察到女性DHT特征中的CHD病例减少(OR 0.47,95% CI 0.39,0.58)。
Fig. 4: Association of discordant profiles with prevalent comorbidities and medication.
- 图片说明
◉ a, 相对与一致特征谱,选择条件在不一致特征谱中的比值比(OR)和95%置信区间(CI),未调整和调整药物(降脂药、抗糖尿病药和抗高血压药)。虚线代表零关联。
◉ b, 相对与一致特征谱,选择药物在不一致特征谱中的比值比(OR)和95%置信区间(CI)。
◉ c, 在没有选择条件的个体中一致和不一致特征谱的比例与UKB中所有个体的比较。虚线代表零关联。
◉ 女性样本量= 91,754;男性样本量= 81,178。
◉ AntiHT,抗高血压药;HT,高血压;LipidLower,降脂药;RA,类风湿性关节炎。
Para_02
除了DHG中的2型糖尿病病例比BC中的预期多出30倍以上(在两性中与一致表型相比),DIS和DLT表型在患有2型糖尿病的女性中也更为常见(DIS中的比值比:1.62,95%置信区间1.32至1.98;DLT中的比值比:1.68,95%置信区间1.42至2.00)。
相反,在男性中,DAL中的2型糖尿病患病率低于BC(比值比0.59,95%置信区间0.50至0.70),但在女性中则没有显著差异(比值比1.15,95%置信区间0.93至1.43)。
在被分类为DHT的女性中,2型糖尿病的患病率也低于被分类为BC的女性(比值比0.18,95%置信区间0.12至0.26)。
那些没有心血管代谢疾病(冠心病、中风、1型糖尿病(T1D)、2型糖尿病、高血压、肝衰竭、类风湿性关节炎)的人群,其表型分配相似,除了DHG表型的概率较低(图4b)。
我们还使用世界卫生组织标准评估了代谢综合征在各表型中的分布情况(补充图21和补充表13)。
虽然大多数患有代谢综合征的人群具有一致表型(超过60%),但我们发现与一致表型相比,代谢综合征患者在不一致表型中显著增多,尤其是在DHG中(增加了30倍以上)。
两个例外是女性中的DHT表型和男性中的DAL表型,它们与一致表型相比,代谢综合征的患病率较低。
Para_03
我们调查了每个表型中的药物使用情况(图4c和补充表14),结果显示DHG表型中胰岛素、抗高血压和降脂治疗的使用频率增加。
例如,在不一致表型中,胰岛素治疗的使用频率比一致表型高出30倍以上。
与一致表型相比,DAL表型中接受降脂药物治疗的男性较少(比值比0.64,95%置信区间0.59至0.68)。
在调整这些药物使用情况后,观察到的疾病关联大多没有显著变化,但DHG表型的比值比估计值明显降低(图4a)。
Discordant profiles and cardiometabolic disease incidence
不一致的表型与心血管代谢疾病的发生
Para_01
为了评估不一致特征对未来疾病风险的影响,我们使用了来自UKB、RS和GHS的纵向数据,这些数据来源于多达155,000名个体的临床记录,在基线时这些人没有患主要疾病(补充表15)。
我们首先根据先前描述的加权方法,为每种特征计算了5-10年的随访期间MACE和T2D的粗略发病率(补充表16)。
经过多次测试校正后,与BC相比,DHG和DIS特征与更高的MACE风险相关(10年DHG相对风险(RR)1.96,95%置信区间1.66至2.31;10年DIS RR 1.46,95%置信区间1.25至1.72)。
女性DAL特征与BC相比与更高的MACE风险相关,而男性则不然(10年女性RR 1.40,95%置信区间1.21至1.61;10年男性RR 0.96,95%置信区间0.87至1.07)。
总的来说,所有不一致特征与BC相比均与更高的T2D发病风险相关,尤其是DHG特征,其T2D风险增加了6至13倍。
唯一的例外是女性DHT特征,其T2D风险低于BC(10年RR 0.46,95%置信区间0.35至0.60)。
Para_02
为了评估这些特征对MACE预测的附加临床价值,我们将特征分配概率添加到基于性别的生存模型中。
这些模型中的预测变量包括用于产生初始聚类分区的所有生物标志物,以及欧洲心脏病学会(SCORE2)目前支持的心血管疾病风险分层工具中使用的所有变量和交互作用(第16、17条参考文献)。
我们还在这些模型中包含了我们在图3a中评估的基线合并症(有关变量列表,请参见补充表17)。
通过嵌套模型的比较,我们展示了添加特征信息提高了UKB中这些预测模型的预测能力,尤其是在男性中,这由显著的似然比检验和C统计量差异表明(表1)。
在UKB中,特征信息解释了MACE的额外变化范围从1.4%到5.4%。
尽管特征信息解释了RS和GHS的额外方差,但似然比检验并不具有统计学意义。
Table 1 Model comparison without and with profile allocation probabilities
表1 模型对比:有无配置概率的情况
Para_03
因为个体对任何给定表型的分配概率是由生物标志物和BMI决定的,因此这些生存模型中的不一致表型估计反映了表型、生物标志物和BMI之间复杂的相互作用。
这些相互作用修改了生物标志物和风险之间的关联,在特定的BMI与表型不一致的情况下(补充图22和补充表18)。
这些相互作用的估计值在使用Lasso惩罚进行正则化后仍然稳健(补充图23)。
为了更好地理解这些表型估计值,我们计算了一个没有疾病、55岁的个体,当他们的BMI为30kg/m−2时,如果他们对任何给定表型的分配概率提高10%,同时相应地降低拥有一个一致表型的概率时,预期MACE风险的变化(图5、补充图24和补充表19)。
经过多次测试校正后,DAL表型的概率增加与女性和男性中BC相比具有更高的MACE风险相关(女性10年危险比(HR)为1.04,95%置信区间1.03,1.06;男性10年HR为1.05,95%置信区间1.04,1.06)。
相比之下,DHG表型的概率增加与BC相比与更低的MACE风险相关(两性10年HR为0.95,95%置信区间0.93,0.98)。
Fig. 5: Hazard ratios of discordant profiles.
- 图片说明
◉ HR估计值和与从一致簇转移到每个不一致簇的10%概率相关的95%置信区间,来源于各队列的随机效应meta分析。合并后的女性样本量:MACE = 85,392;DM = 46,076。合并后的男性样本量:MACE = 70,328;DM = 38,815。
Para_04
使用相同的方法,我们通过估计没有糖尿病个体的5年和10年糖尿病发生风险,确定了不一致特征的临床价值。
我们发现,在UKB中,仅添加特征信息在糖尿病进展中解释的方差仅略有增加。
然而,在RS中,其中位葡萄糖值较高,该比例增加到8-12%(似然比P <0.001)。
经过多次测试校正后,只有女性DHG特征与糖尿病进展仍然相关。
与BC中的个体相比,将患DHG特征的概率提高10%,同时降低具有一致特征的概率,则进展为糖尿病的风险增加了20-60%。
Para_05
我们随后使用决策曲线评估了不一致特征文件的净增益,以确定进行干预预防MACE是否可能值得(图6a和补充表20)18,19,20。
为此,我们将仅使用基线数据(包括基线生物标志物值和其他相关临床特征)创建的预测模型与另外纳入特征估计的模型进行了比较。
两种模型在各种疾病概率阈值(最高达15%)下,通常都优于不干预或普遍干预的默认策略。
在10年MACE风险为10%的阈值(传统上用于确定开始使用他汀类药物,相当于接受干预九名没有疾病的个体(假阳性)以防止一次事件(真阳性)),增加特征信息相比基线模型产生了每10,000名男性平均4个额外的真阳性病例和37个额外的真阴性病例。
为了将这些数值与当代标准进行基准比较,我们计算了LDL(作为MACE的一个既定干预目标)在超过年龄预测价值的基础上产生的额外净增益;加入LDL后,每10,000名受试男性中产生了5个额外的真阳性病例和42个额外的真阴性病例。
因此,不一致性和LDL可以被认为是预测MACE的同等价值。
在女性中,增加不一致性特征信息并未产生任何实质性的净增益。
Fig. 6: Decision curve analysis of discordant profiles.
- 图片说明
◉ a, 使用各种策略在不同疾病概率阈值下的净效益决策曲线比较。b, 在10年内疾病风险干预阈值为10%时净效益增益的分布情况。虚线垂直线表示每10,000人评估中的单位净效益增益和损失。
◉ Base, 基础预测模型,结合了基线临床数据;Base + Profiles, 第二个预测模型,结合了基线临床数据和特征信息。
Para_06
不一致的个人资料信息在确定糖尿病进展风险较高的女性方面具有最高的效用。
使用10年风险阈值10%,我们发现与基准模型相比,不一致的个人资料信息导致每10,000名女性中有15名额外的真阳性病例和135名额外的真阴性病例。
在男性中,每10,000名男性中额外的净收益为4名额外的真阳性病例和33名额外的真阴性病例。
Para_07
我们接下来研究了增加不一致的特征信息对各个特征集的益处如何分布(图6b)。
在MACE中,男性和女性中的BC和DAL特征集的净收益集中。
值得注意的是,我们观察到男性DIS特征集的净收益有所改善,但女性的净收益却下降了。
对于糖尿病进展,我们观察到女性所有特征集的净收益都有所改善。
相反,在男性中,我们只观察到BC和DIS特征集的净收益有所改善。
Discordance by ethnicity
种族差异
Para_01
我们评估了在英国生物库中的英国非洲和南亚人群中发现的不一致特征分布情况(NAfrican = 4,019, NSouthAsians = 3,388;补充图25和26以及补充表21)。
与欧洲血统的人相比,南亚个体具有DHG特征的概率大约是前者的四倍(女性OR 3.87,95%置信区间3.13至4.72;男性OR 4.61,95%置信区间3.90至5.41)。
我们在非洲人群中也观察到了DHG特征的类似富集现象,尽管程度较小(女性OR 2.08,95%置信区间1.65至2.59;男性OR 2.54,95%置信区间2.05至3.11)。
南亚人群也比欧洲血统的人更有可能具有DAL特征(女性OR 1.79,95%置信区间1.49至2.13,男性OR 1.38,95%置信区间1.18至1.60)。
与欧洲血统的女性相比,非洲和南亚血统的女性具有DIS特征的概率更高(非洲女性OR 1.39,95%置信区间1.13至1.68;南亚女性OR 1.80,95%置信区间1.45至2.20)。
非洲血统的女性还比欧洲女性具有更高的DHT概率(OR 1.25,95%置信区间1.09至1.42)。
Para_02
我们观察到,在基线时疾病和药物使用在DHG谱系中的富集程度大于BC谱系,这与欧洲人群中的情况相似(补充表22和23)。
在调整后的生存分析中包括不一致的谱系信息(补充表24),我们发现,在南亚男性中,DAL谱系概率每提高10%,则10年MACE风险比BC谱系高(风险比1.10,95%置信区间1.05, 1.15),而DHG概率每提高10%,则风险较低(风险比0.84,95%置信区间0.74, 0.95),这与在欧洲男性中的发现相当。
Para_03
与欧洲女性相比,南亚女性的二氢睾酮概率每增加10%,其10年主要心血管事件风险比BC表型更高(风险比1.09,95%置信区间1.03至1.16)。
在非洲男性中,二氢睾酮概率每增加10%,糖尿病进展的风险在10年内特别高(风险比1.68,95%置信区间1.21至2.34),这与欧洲男性的估计一致。
相比之下,在非洲血统女性或南亚血统的男性和女性中,二氢睾酮概率每增加10%,糖尿病进展的风险并未增加。
在比较包含和不包含矛盾表型信息的模型的似然比检验中,经过多重测试校正后,在所有这些种族群体中都没有统计学显著性。
在名义上具有统计学显著性的情况下(似然比检验P<0.05),矛盾独立地提高了南亚和非洲血统男性的主要心血管事件和2型糖尿病预测(补充表25)。
Discussion
Para_01
与升高后的BMI与其他疾病的关联高度异质性,突显了这一简单测量无法充分描述肥胖的病理生理复杂性的局限性。
在这里,我们使用无监督聚类来解构这种异质性,识别出五种由BMI和风险生物标志物之间非典型关系定义的表型特征。
进而,这些聚类传达了心血管疾病(CVD)和糖尿病的风险概况,与更常见的协调一致的概况相比,差异显著。
总体而言,这些不一致的聚类特征涵盖了大约20%的一般人群,并且提高了心血管疾病(CVD)和2型糖尿病(T2D)风险预测的精确度和准确性,其程度与当代临床风险标记物如LDL相当。
使用这种不一致性方法将导致每10,000人检测中有37-135次不必要的干预措施被避免,以及另外4-15名患者得到适当的干预措施。
Para_02
我们展示了,例如,当脂质分数和BMI之间的不一致(即,DAL)被纳入标准预测模型时,MACE预测得到改善。
DAL类似于家族性混合型高脂血症的表型特征,在这种病症中,脂肪组织的缺乏导致心脏源性的血脂异常。
由于家族性混合型高脂血症的表现形式多样,诊断起来具有挑战性,通常需要对患者及其家庭成员进行广泛的检测。
我们发现,具有DAL特征的人在基线时MACE的发生率较低,且较少被处方药物,这表明确定这些人的DAL可能有助于早期的风险分层和预防。
重要的是,DAL特征描述了一组相对瘦削但心血管风险较高的个体。
Para_03
两种不一致的表型(DHG、DLT)尽管表现出通常被认为是心脏源性的升高的生物标志物,但使较低的MACE发生率成为可能。
DHG表型更频繁地包括患有多种疾病的个体,包括糖尿病的患病率和发病率更高。
在调整了这些合并症的模型中,基线时无疾病的DHG表型个体发展出MACE的可能性低于具有一致表型的对照组个体。
这可能是因为在这种表型中,血糖和LDL浓度呈反向关系。
这种反向关系,在其中T2D风险升高的关系,也在那些遗传上倾向于低LDL浓度的人群中观察到。
Para_04
同样地,DLT谱,特征为较高的不一致ALT,与糖尿病进展没有关联,并且与一致谱相比,传达了较低的MACE风险。
ALT和其他肝功能障碍标志物的较高血液浓度与心血管疾病风险升高有关,尽管这种风险状况通常伴随肥胖,正如一致谱的情况一样。
然而,ALT与心血管疾病风险之间的关系是非线性的,在ALT水平在正常范围内时观察到ALT与心血管疾病风险呈反比关系,如27,28所示,以及在酒精性和非酒精性肝病中也是如此29。
ALT浓度与心血管疾病风险之间的关系似乎也受到糖尿病的影响,在存在糖尿病的情况下ALT与心血管疾病死亡率呈正相关,而在没有糖尿病的情况下则呈负相关,这与这里描述的DLT风险谱一致。
Para_05
尽管高血压和肥胖在男性中比在女性中更为普遍,但据报道BMI是女性患高血压的更强风险因素,而非男性。
Para_06
我们的分析表明,在预测模型中加入不一致变量可以提高准确性。
然而,尽管不一致特征在男性和女性中传达了类似的MACE和糖尿病风险估计,预测准确性有时会因性别而异。
例如,在不一致的女性中,将DIS特征添加到MACE预测模型中会降低准确性,而在不一致的男性中,准确性有所提高。
这可能反映了与心血管代谢风险特征相关的性别特异性差异;例如,在女性中,CRP浓度通常更高,并且CRP与脂肪质量和脂肪分布的关系通常比男性更强。
相反,将不一致特征纳入预测糖尿病进展的模型中,在女性中的预测准确性提高幅度大于男性。
这些差异与已发表的分析结果一致,在这些分析中,糖尿病预测准确性在女性中通常高于男性,特别是在模型包括人体测量变量时。
重要的是要认识到,我们没有正式测试过特征效应是否因性别而异,例如通过结合两性数据并测试性别与特征之间的交互作用。
Para_07
我们的方法应用于定义不一致子群,采用非线性聚类技术处理大数据集,描述多变量数据的分布而不受线性假设的限制。
类似的技术已在其他地方用于帮助解决新发2型糖尿病中的临床异质性35。
尽管分类方法常被用来解决疾病异质性,但这样做通常忽略了组内异质性、组间重叠和误分类36。
这里使用的分区算法通过根据特定表型组合分配组概率来解决这些局限性。
这种方法能够更精确地估计不一致性的效果,即使是在一致组内部。
这使得风险的连续性质得以捕捉,包括生物标志物的BMI独立效应以及BMI不一致性的影响37。
Para_08
首先,我们的发现是基于有限的一组生物标志物,并且队列具有同质性(35至75岁的欧洲血统成年人),此外,尚不清楚这些发现是否能充分转移到其他人群中。
其次,尽管我们的研究包括了四个大型独立队列,并且识别出的特征在所有队列中成功复制,但具有不一致特征的参与者比例很小,这可能限制了这里进行的发现和复制分析的统计能力。
如果在聚类分析中包含更全面的生物标志物集,可能会更好地分离亚群。
因此,由于回归均值的影响,某些生物标志物水平将被估计得不够精确。
第四,我们的研究依赖于临床记录来确定主要不良心血管事件和糖尿病的发生率,这可能导致风险的低估或高估。
第五,尽管我们在分析中包括了通常与所选生物标志物水平变化相关的条件,但许多其他条件和药物(例如,心理健康状况、甲状腺疾病、类固醇)也可能改变BMI-生物标志物关联。
然而,由于初步评估通常依赖于所选的生物标志物,检查它们与BMI的不一致性可以作为初始风险分层的一个有价值的初步方法。
Para_09
总之,我们识别出了五种不同的表型特征,这些特征展示了BMI与心血管代谢生物标志物之间的多样性关系,并且具有不同程度的心血管疾病和糖尿病风险。
这些分析有助于解决BMI与疾病风险之间存在的大量异质性问题。
将表型不一致性纳入现代风险评分中可以提高对普通人群中主要不良心脏事件(MACE)和糖尿病进展的预测能力。
Methods
Study cohorts
研究队列
The UK Biobank
英国生物银行
Para_01
UKB 是一个大型前瞻性队列,在2006年至2010年期间招募了超过50万名成年人(年龄在37至73岁之间)(参考文献39)。
参与者提供了全面的人口统计、健康、生物、认知、社会、生活方式、心理和福祉数据。
本次特定分析获得了UKB研究委员会的批准(批准编号:57232)。
长达10年的纵向结果数据是从临床记录和死亡记录中提取的。
The Maastricht Study
马斯特里赫特研究
Para_01
MS 是一项观察性前瞻性基于人群的队列研究。先前已经描述了该研究的原理和方法40。
简而言之,该研究关注2型糖尿病(T2DM)的病因、病理生理学、并发症和合并症,并采用了广泛的表型分析方案。
符合条件的参与者是居住在荷兰南部40至75岁之间的所有个人。
参与者通过大众媒体活动和邮寄从市政登记处和地区糖尿病患者登记处招募。
招募根据已知的T2DM状态进行分层,为了提高效率,对T2DM患者进行了超采样。
目前的报告包括了2010年11月至2017年12月期间完成基线调查的前7,689名参与者的横断面数据。
该研究已获得机构医学伦理委员会(NL31329.068.10)和荷兰卫生、福利和体育部长的批准(许可号131088-105234-PG)。
The Rotterdam Study
鹿特丹研究
Para_01
RS 是荷兰鹿特丹 Ommoord 地区的一项基于人口的队列研究,主要目的是评估老年人群中的常见疾病。
这项已被广泛记录的研究招募了 7,983 名年龄在 55 岁或以上的个体,作为最初的 RS-I 队列,始于 1990 年。
随后,在 2000 年,RS-II 队列通过增加 3,011 名参与者而扩大,这些参与者要么迁移到了研究区域,要么达到了 55 岁。
该队列进一步扩展了 3,932 名年龄在 45 岁或以上的参与者(RS-III)。
基线评估是通过在招募时进行家庭访谈和全面体检来完成的,并且之后每 3 至 4 年进行一次随访评估。
我们包括了从招募开始后长达 10 年的纵向结局数据。
The Gutenberg Health Study
古腾堡健康研究
Para_01
GHS 是德国莱茵-普法尔茨地区美因茨-宾根地区的成人基于人群的前瞻性观察队列研究。
研究样本包括 2007 年至 2012 年基线检查期间招募的 15,010 名年龄在 35 至 74 岁之间的参与者。
每位研究参与者在注册时接受了全面的标准临床和实验室检查。
Statistical analysis
统计分析
Data preparation
数据准备
Para_01
我们纳入了13个生物标志物:FG浓度(mmol/l);脂质成分(HDL、LDL、TG)浓度(mmol/l);收缩压和舒张压(mmHg);血清肌酐浓度(μmol/l);ALT浓度(U/l),CRP浓度(mg/l);腰臀比(cm/cm−1);年龄(岁);当前吸烟状态(1表示是,0表示否);以及性别(男性、女性)。所有队列中的变量单位在必要时转换为通用值。未应用BMI阈值。
从UKB、TMS和GHS中,我们仅纳入了聚类分析中考虑的所有生物标志物的完整数据集。
RS包括了一些生物标志物值缺失的个体(<10%缺失),这些缺失值使用R包mice(v.3.16.0)中的多重随机森林回归插补方法进行插补。
超过平均值5个标准差的值被认为是错误的,并在主要分析前被移除。
由于已知性别差异会影响BMI、某些生物标志物以及糖尿病/心血管疾病风险,所有后续分析均按性别分层进行。
Phenotypic discordance with BMI
BMI不一致的表型
Para_01
我们通过将线性模型的残差作为结果变量,年龄和吸烟状态作为唯一协变量,来估计所有选定生物标志物每单位BMI增加的年龄和当前吸烟调整后的关联。
然后我们计算了预期值与观察值之间的差异,这些差异被中心化和标准化,使其均值为零,标准差为一。
为了评估个体的生物标志物值与其BMI给定值相比偏离程度较大的比例,我们测量了每个个体到多变量正态分布的平方马氏距离,该分布围绕预期值。
由于平方马氏距离遵循卡方分布,我们将这些距离转换为P值,并评估P值高于临界阈值0.05(预期比例为5%)的个体的比例。
我们使用二项检验比较了观察到的比例与预期的比例(P < 0.05被认为是统计上显著的)。
UMAP projection and profile identification
UMAP 投影和轮廓识别
Para_01
我们使用 R 包 uwot v.0.1.16 中实现的 umap 函数在两个维度上投影了个体偏差(参考文献 14)。
我们将每个队列中的最近邻数量(nn)配置为样本量的函数,通过以下方程:
Para_02
此外,我们将该函数的‘binary_edge_weights’参数设置为true,确保图中的所有非零边权重均设为1。
这两种配置最终实现了PacMAP,这是UMAP的一种修改版本,能更好地保留高维空间中的全局和局部结构在投影中。
我们还将‘dens_scale’参数设置为1,这进一步实现了densMAP,这是UMAP的另一种修改版本,可以改善密度的保留(在密集区域中紧密相连的个体在投影中会显得更近)。
我们首先使用了主特征向量算法来找到稳定的初始种子,然后运行Leiden算法,使用的是R包igraph v.2.0.2中的实现。
Leiden算法旨在通过确保识别出的社区具有良好的连接性来增强大型网络中的社区检测。
通过三个阶段:节点的局部移动、分区的细化以及网络的聚合,该算法保证了连接性,并收敛到局部最优分配。
我们迭代超过500次以识别高度互联的区域,同时优化模块化标准。
然后,我们计算了每个个体在其各自集群中的归一化特征中心度得分,以衡量其在集群中的重要性。
我们用这些得分作为权重来计算每个集群的中心和协方差矩阵,这些是高斯混合分布的一部分。
投影中心的集群(残差值接近于0)在迭代之间比边界上的集群更不稳定。
为了解决这个问题,我们在高斯混合计算中引入了一个‘一致’的残差分布,表示为零均值和单位协方差矩阵。
因此,那些与一致分布不够分离的不一致分布个体将对两种分布具有相似的概率,因此不会被重复分配。
相反,这些个体将被包含在一致分布中,从而提高最终划分的质量。
我们保持中心和协方差矩阵不变,并估计每个集群的权重,这些权重代表它们各自的人口比例。
由此产生的划分包括一致和不一致分布,每个个体都有每个分布的概率得分,总概率得分为1。
Profile replication
配置复制
Para_01
为了评估在UKB中确定的分区的有效性,我们使用上述描述的参数,在TMS、RS和GHS中运行了相同的网络构建、二维可视化和聚类管道,并将结果与UKB进行了比较。
我们评估了在原始UKB模型中以高确定性(即概率>80%)分配到某个特征的个体是否在其他三个‘验证’队列中的任何一个中被分配到相似特征的概率(同样,概率>80%)也相似。
我们认为一个特征被复制如果该条件在所有三个验证队列中都满足,这确保了只有在所有三个队列中都存在的集群才包含在最终模型中。
然后我们重新调整了每个特征的权重,并将所有后续分析集中在这些后来被复制的集群上。
Connectivity within profiles and quality of partitions
配置文件内的连通性和分区质量
Para_01
我们通过首先根据分配到任一档案的最高概率对个体进行标记来评估每个档案内的个体连通性。
然后,我们从UMAP图中提取了每个档案对应的子图,并计算了每个档案的全局传递性指数。
这个指数衡量的是两个与共同第三个个体相连的个体也直接相互连接的概率(这是一种衡量‘朋友的朋友也是我的朋友’这一现象的频率的指标)。
这个指数衡量的是两个与共同第三个个体相连的个体也直接相互连接的概率(这是一种衡量‘朋友的朋友也是我的朋友’这一现象的频率的指标)。
Para_02
为了评估聚类分离质量,我们使用了UKB数据来计算最终划分的相对熵,也称为Kullback-Leibler散度,这是一种源自信息论的测量方法51。
这一测量方法的取值范围从0到1,表示所有轮廓的概率分布相同(即,每个参与者对所有轮廓具有相等的概率)或完全的聚类分离(聚类之间没有重叠)。