专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  985,新增国家级人才超 110 人 ·  7 小时前  
生信人  ·  临床医生怎么能不关注神经免疫 ·  昨天  
BioArt  ·  Sci Adv | ... ·  昨天  
BioArt  ·  Nature | ... ·  昨天  
生物制品圈  ·  A群链球菌糖结合疫苗的重组生产平台 ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

如何用血常规发 Nature,临床常见指标的深度挖掘

生信菜鸟团  · 公众号  · 生物  · 2025-01-23 10:00

正文

Basic Information

  • 英文标题:Haematological setpoints are a stable and patient-specific deep phenotype
  • 中文标题:血液学设定点是稳定且患者特有的深层表型
  • 发表日期:11 December 2024
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Brody H. Foy | John M. Higgins
  • 文章链接:https://www.nature.com/articles/s41586-024-08264-5

Abstract

Para_01
  1. 完整的血细胞计数(CBC)是健康成年人的重要筛查工具,也是定期体检中的常见测试。
  2. 然而,结果通常相对于通用参考区间进行解释,这削弱了根据患者独特特征量身定制护理的精准医学目标。
  3. 在这里,我们研究了一家学术医疗中心的数千名不同患者,发现常规CBC指数在稳定值或设定点附近波动。
  4. 这些设定点是患者特有的,典型的健康成年人的九个CBC设定点可以作为一个组与其他98%的健康成年人区分开来,并且设定点差异至少持续20年。
  5. 血液学设定点反映了深层生理表型,使我们能够研究获得性和遗传性决定因素以及其在健康成年人之间的变异。
  6. 看似健康的成年人的设定点与显著不同的临床风险相关:一些常见疾病和并发症的绝对风险变化超过2%(心脏病、中风、糖尿病、肾病、骨质疏松症),所有原因导致的10年死亡率绝对风险变化超过5%。
  7. 设定点还定义了患者特定的参考区间,并个性化地解释后续测试结果。
  8. 在回顾性分析中,设定点提高了对一些常见病症评估的敏感性和特异性,包括糖尿病、肾病、甲状腺功能障碍、缺铁和骨髓增殖性肿瘤。
  9. 这项研究表明,CBC设定点足够稳定且具有患者特异性,有助于实现精准医学对健康成年人的承诺。

Main

Para_01
  1. 全血细胞计数(CBC)是一项重要且多功能的临床测试,在几乎所有医学背景下,其使用频率高于任何其他临床测试。
  2. 它通过测量每单位体积血液中的红细胞(RBC)、白细胞(WBC)和血小板(PLT)的数量以及一些细胞群体统计数据,提供了对患者血液学和免疫状态的宝贵非特异性评估。
  3. 由于血细胞不断暴露于几乎所有的组织和器官中,因此CBC能够及时提供关于非常广泛的疾病过程的信息。
Para_02
  1. CBC 指标在健康成年人中差异显著,在某些情况下,参考区间的上限是下限的两倍多(例如,白细胞计数为 4.5-11 × 10^3 个细胞每微升)。目前用于解释的一刀切参考区间非常宽泛,因此可能对疾病的迹象和恢复不敏感。
  2. 相比之下,先前的研究表明,几周或几个月内的患者内部 CBC 指标的短期变化明显比标准参考区间要窄得多。
  3. 因此,在评估两个连续测试结果之间的偏差时,通过降低定义变化的阈值偏差,可以经常提高诊断灵敏度。
  4. 然而,数月甚至一年以上的患者内部变异很少被研究,且不清楚这种变异是否会随着时间的增长而增加,并最终接近患者之间的变异。
  5. 也不清楚患者的测量值是否围绕一个稳定的基线波动,或者这些基线本身在很长的时间尺度上是否有显著变化。
  6. 研究表明,CBC 指标的高遗传性意味着健康患者之间可能存在持久的内部调控差异。
  7. 随着医疗记录数据库规模和范围的发展,现在可以回答有关长期患者内部变异和体内平衡的问题。
Para_03
  1. 理解常见诊断和筛查测试的长期变化性质对于实现精准医学的愿景至关重要。
  2. 传统医学一直以个性化护理为目标,而最近在诊断方法和数据科学方面的进展使得即使在健康成年人之间也能检测到许多基因、分子和细胞水平上的差异。
  3. 这些差异的临床效用通常仅限于罕见且高度外显的孟德尔疾病等不常见情况。
  4. 多年来,针对健康成年人的筛查实验室研究没有发生实质性变化,仍然主要依赖于几种针对整个人群的通用筛查方法。
Para_04
  1. 最近的一项研究表明,在从急性炎症事件中恢复的成年患者中,CBC(全血细胞计数)结果可以出乎意料地稳定,在对包括创伤、缺血和感染在内的广泛炎症刺激作出反应后,能够稳健地恢复到其基线CBC水平。
  2. 因此,我们假设健康个体的CBC指数在长时间内会受到严格调控,并研究了大量健康个体几十年间的CBC变化。
  3. 我们发现,CBC指数如预期般波动,但围绕着患者特定的稳态设定点被严格调控。
  4. 不同健康个体之间的设定点差异确实反映了正常的衰老过程、慢性疾病和医疗干预措施,但有很大一部分设定点差异似乎是由遗传因素决定的。
  5. 个体患者的设定点本身提供了常见疾病和全因死亡率的风险分层补充信息,基于设定点的个性化参考区间能够提高对常见医疗状况临床调查的敏感性和特异性。

CBC indices are tightly regulated

Para_01
  1. 我们研究了12,407名健康患者,他们在20年期间至少进行了五次在稳定条件下测量的全血细胞计数(CBC),这些患者属于方法和补充表1中的队列A。
  2. 我们计算了十个CBC指数的患者内部变异:红细胞(RBC)、白细胞(WBC)、血小板(PLT)、血细胞比容(HCT)、血红蛋白(HGB)、平均红细胞体积(MCV)、平均红细胞血红蛋白含量(MCH)、平均红细胞血红蛋白浓度(MCHC)、平均血小板体积(MPV)和红细胞分布宽度(RDW)(图1a)。
  3. 标准CBC参考区间基于CBC指数的患者间变异,可以通过标准差与均值的比率(变异系数(CV))来量化。
  4. CBC指数的患者间变异系数范围为5%到30%(图1b)。
  5. 在20年期间,患者内部变异系数要低得多,范围从2%到15%,仅相当于相应患者间变异系数反映的变化的30-70%(图1c和方法中的"设定点计算")。
  6. 20年的患者内部变异系数仍然接近于之前报告的在几周或几个月内确定的患者内部变异系数。
  7. 每个设定点的变异系数大小并不系统地随性别、自我报告的种族或民族、或年龄而变化(图1d和扩展数据图1a,b),这表明这种严格的调控是正常生理特征。
  8. 变异系数在每个设定点的广泛值范围内也是稳定的(扩展数据图1c),这与假设调节过程对一系列设定点同样有效是一致的。
  9. 通常情况下,个体的设定点可以从符合纳入标准的四个CBC中准确推断出来(扩展数据图1d)。
  10. 总体而言,每位患者的CBC指数似乎在几十年内被调控保持在一个较大的患者间参考区间的一个子区间内,这表明这些血液学设定点代表了一种定义明确的健康状态(图1e)。

Fig. 1: Haematological setpoints are stable over decades in states of health.

  • a,单个健康患者的白细胞计数在20年内稳定在每微升6×10^3个细胞左右,偶尔会有短暂的病理生理干扰,95%置信区间(4.5-8.1)大约是研究医院成人参考区间(4.5-11.0)的一半。
  • b,20年内的全血细胞计数(CBC)指数的患者间和患者内变异略大于几周内的变异,两者均小于研究队列A中的患者间变异(n = 12,407名患者),短期患者内变异系数来自欧洲临床化学和实验室医学联合会(EFLM)数据库。
  • c,在队列A中,大多数指数的患者内和患者间的变异系数比值低于0.5。
  • d,在队列A中,长期患者间和患者内的CBC指数变异系数不随性别或自我报告的种族或民族显著变化。
  • e,随机选择的500名患者的长期血小板轨迹分布是异质性的(黑色线条),可以稳健地区分一些健康的患者,例如那些具有高(黄色)、中等(绿色)和低(蓝色)血小板设定点的患者。
  • 误差线在b至d图中反映了基于Z分数(患者内)和重抽样法(患者间)计算的平均值的95%置信区间。
  • 按年龄和不同时间段分层的患者变异系数见扩展数据图1a和1b。
  • 患者变异系数的完整分布见扩展数据图1c。
  • 图e中的虚线反映了马萨诸塞州总医院(MGH)的参考区间。

Patient-specific healthy state

Para_01
  1. 通过比较设定值可以区分健康个体。例如,图1e中的三个健康个体在20年期间的大部分时间里可以通过血小板计数来区分。
  2. 作为一组,CBC设定值定义了队列中每个患者的血液状态,但MPV被排除在外,因为它在这20年期间并不总是可用。
  3. 典型患者由其余九个设定值定义的状态与队列中98%的其他人不同。
  4. 换句话说,对于典型的患者来说,只有2%的剩余队列成员的所有设定值都落在该患者设定值的2倍标准差范围内。
  5. 当将所有九个设定值作为一个整体考虑时,这种高度的患者特异性意味着至少某些设定值对之间的相关性较弱(扩展数据图2a)。
  6. 一些指标根据定义是相关的(例如,HCT、HGB和RBC;MCV和RDW),它们的设定值如预期那样相关,同样,已知共调控的指标的设定值也相关(例如,MCH和MCV)。
  7. WBC设定值与相对淋巴细胞计数设定值的相关性比相对中性粒细胞计数设定值更强,这意味着具有较高WBC设定值的健康成年人通常具有较高的循环淋巴细胞计数。
  8. MPV设定值与未成熟血小板比例和血小板分布宽度设定值呈正相关,这与假设的血小板大小与年龄之间的负相关一致。
  9. PLT设定值与除RDW之外的RBC相关设定值呈适度负相关,与WBC设定值呈适度正相关,表明在这个健康成年人队列中,RBC、WBC和PLT群体之间存在某种程度的共调控。
  10. RDW设定值还与未成熟网织红细胞比例和碎片及有核红细胞计数的设定值相关,这些测量在部分患者中有多个可用数据,表明慢性RDW升高在某些情况下可能反映了持续失调的RBC生成或裂细胞的存在。
  11. 这些复杂的CBC设定值之间的相关性表明,健康成年人在细胞生成、迁移或清除的基本过程上存在持久差异,无论这些差异是后天获得的还是遗传性的。

Acquired origins of setpoint variation

Para_01
  1. 健康成年人中血液学设定点的异质性引发了关于其起源的问题,以及获得性或遗传因素在多大程度上可能导致这种变异。
  2. 疾病史或暴露差异可能会导致血液学设定点的差异。
  3. 例如,慢性疾病通常与低水平炎症相关,这可能提高白细胞设定点以及其他炎症标志物。
  4. 在一个小规模前瞻性研究和回顾性分析中,没有证据表明血常规设定点与其他非血液学标志物设定点之间存在大的关联,除了铁状态标志物设定点(扩展数据图 2b,c),这些设定点与红细胞设定点相关联,符合预期,并且可能反映了慢性及亚临床缺铁性贫血的高发率。
  5. 该队列中的血常规设定点显示出非常小的年龄相关变化,在10年内不到CV的1%(补充表2),与之前的研究一致。
  6. 例如,白细胞设定点的中位数为6.32(每微升10^3个细胞),而平均每年龄相关的增加仅会在10年内将其提升至6.35。
  7. 设定点的变异系数不显著依赖于年龄(扩展数据图1a,b)。
  8. 在正常生理变化如怀孕和更年期后,甲状腺功能减退症或肝炎等慢性疾病的发展后,以及脾切除术后,平均设定点会发生变化(扩展数据图3)。
  9. 这些模式与之前的单一血常规研究一致,并且在每种情况下,设定点都比单一血常规测量提供了更好的效应大小估计精度(扩展数据图3)。
  10. 这些结果表明设定点是可修改的,但所显示的变化幅度较小,使得健康成人人群中大部分设定点变异仍未得到解释。

Genetic origins of setpoint variation

Para_01
  1. 鉴于获得性因素解释了设定点变异的显著部分的有限证据,我们通过分析遗传性和进行全基因组关联研究(GWASs)来研究设定点差异的遗传基础。
  2. 我们首先使用了三个研究队列中的所有电子健康记录(EHR)衍生的家庭关系(方法和补充表1),并发现设定点在一级亲属之间高度相关,但在伴侣之间没有相关性,伴侣之间可能共享环境(图2a,b和扩展数据图4a,b)。
  3. 除MCHC外,所有CBC设定点均显示出较强的遗传性(图2c;h2范围:0.37–0.52)。
  4. 从EHR衍生的关系数据中估计遗传性可能是不精确的,但这些队列中使用设定点的估计与之前使用单个CBC结果的报告一致(扩展数据图4c)。

Fig. 2: Setpoints are a deep phenotype and generate a strong signal for heritability analysis.

  • a,b,伴侣之间的设定点和单一CBC相关性(a,n = 440对患者)比一级亲属(b,n = 439对患者)的相关性要小。
  • c,从设定点和单一CBC得出的队列遗传力估计值与文献中的数值相似。
  • d,在使用25,254名Mass General Brigham(MGB)患者的队列进行的SNP遗传力估计中,使用设定点时往往比使用单一CBC时更高。
  • e,25,254名MGB患者的HGB设定点GWAS的曼哈顿图。
  • f,g,在使用HGB设定点和单次门诊值进行的GWAS中,设定点的P值(f)更频繁地显著,效应大小(g;每个SNP的beta系数)相似。
  • h,设定点在产生显著结果方面比单一CBC标记更有成效。
  • i,PGS五分位数仅与平均设定点(及95%置信区间)有适度相关性,在独立队列(n = 5,051)中。HCT、HGB和RBC的五分位数按性别分层。
  • 误差条在a–d中显示95%置信区间。
  • d中的星号表示统计学上的显著差异(*P < 0.05,双侧Z检验,具体P值见补充数据)。
  • f和g中的虚线对应于统一。
  • e中的注释对应于高度显著位点附近的基因,红色注释对应于新发现的位点。
  • 原始数据图见扩展数据图4a,b。
  • 文献遗传力估计值见扩展数据图4c。
  • 其他设定点的e–g面板等效图见扩展数据图5和6。
  • 每个设定点GWAS的五分位数-五分位数图见扩展数据图5b。
  • GWAS命中列表、关联位点和基因背景详见补充表3–6。
Para_02
  1. 我们还使用设定点和单个CBC测量进行了GWAS(全基因组关联研究)。当使用设定点时,基于单核苷酸多态性(SNP)的遗传力估计值始终较高(图2d)。
  2. 对九个CBC设定点的GWAS识别了397个相关位点。
  3. 在与GWAS目录及依赖于单次测量的更大规模研究结果进行比较后,发现八个位点(主要SNP:rs60528951、rs2047265、rs12522573、rs6997857、rs10021975、rs10043270、rs117912622、rs869243453)似乎是新的(图2e,补充表3-6和扩展数据图5a)。
  4. 设定点GWAS产生的效应大小估计值与单个CBC GWAS相当,但具有更高的精确度和显著性(图2f,g和扩展数据图6),导致统计上显著(P < 5 × 10^-8)的相关SNP数量平均增加了3.6倍(图2h)。
  5. 设定点还比2次、4次和8次CBC平均值提供了更好的发现,展示了识别潜在生理分布并系统排除异常值的好处(扩展数据图7)。
  6. 一个多基因评分(PGS)反映了每个CBC设定点的变化(图2i),但仅解释了患者间差异的一小部分(中位数R² = 0.10)。
  7. 这些结果表明,设定点部分由遗传决定,但可能也反映了大量尚未定义的获得性效应。

Setpoint associations with mortality

Para_01
  1. 在证明了血液学设定点几十年来保持稳定,并且在健康成年人中存在临床环境中尚未利用的变化后,我们接着研究了设定点差异是否与临床结果相关。
  2. 我们首先在一个健康患者的队列中研究了设定点与全因死亡率之间的关系,这些患者在设定点估计后的15年内进行了随访(方法中的队列B和补充图1)。
  3. 该队列仅限于设定点落在总体参考区间内的患者,因此大多数这种设定点变化可能代表了大致等效的个体特定健康状态,与临床结果几乎没有关联。
  4. 与预期相反,图3a显示,10年死亡风险显著取决于设定点的不同。
  5. 大多数设定点显示出与死亡率大致单调的关系,而HCT和HGB在中间值时与最小的死亡风险相关,在极端值时风险增加。
  6. 调整年龄和性别后(图3b),不同时间段内(扩展数据图8a,b)以及在我们主要研究医院的独立队列和来自独立学术医疗中心的不同队列中的重复验证(扩展数据图8c,d),这些关联仍然显著。
  7. 以CV量化增加的设定点变异性也与更高的死亡风险相关,这一模式在调整年龄、性别和设定点值后依然存在,除了MCHC之外的所有标记物(图3c)。
  8. 一些极端设定点值(例如高WBC、高RDW、低HGB和低PLT)与升高风险的关联与现有的CBC流行病学研究一致,但许多设定点在整个参考区间内风险的连续变化是出乎意料的。
  9. 总体而言,这些结果表明,具有正常范围内的CBC结果的健康成年人中有显著比例(超过20%)的绝对死亡风险增加了超过3%。

Fig. 3: Haematological setpoints are associated with all-cause mortality.

  • 在MGB队列B(n = 14,371名患者)中,所有CBC设定点的10年全因死亡率与设定点五分位数相关,这些设定点限制在人群范围参考区间内。
  • b,c,大多数设定点(b)和设定点变异系数(c)的年龄和性别调整后的死亡风险比在MGB队列B(n = 14,371名患者)和华盛顿大学医学中心(UWMC)验证队列(n = 13,864名患者)中均不同于1.0。
  • 五分位数分别针对男性和女性进行计算。
  • a-c中的误差线显示了死亡率(a)和死亡风险比(b,c)的95%置信区间。
  • a中的星号表示最高和最低五分位数之间的死亡率有显著差异(*P < 0.05,卡方检验),具体P值见补充数据。
  • 请注意,HCT五分位数1的死亡率与五分位数5没有显著差异(P = 0.075),但与五分位数2、3和4有显著差异。
  • b和c的结果标准化为设定点变化1个标准差。
  • 死亡率估计从设定点估计期结束时开始(MGB为2007年1月1日;UWMC为2019年1月1日)。
  • 不同时间段的结果以及在多个独立队列中验证的结果见扩展数据图8。
  • 所有面板中的误差线反映了95%的置信区间。

Setpoint associations with disease risk

Para_01
  1. 鉴于设定点与全因死亡率之间的关联,我们分析了相同患者队列(队列B,图4a)中设定点与主要疾病和发病率之间的关系。
  2. 最低四分位数的MCHC设定点与主要不良心血管事件(MACE)(心脏病发作、中风、心力衰竭)的发生率增加有关,较高的WBC设定点与2型糖尿病风险增加有关,较高的MCV设定点与骨质疏松症有关,较低的HCT设定点与慢性肾病有关,较高的RDW设定点与心房颤动有关,较低的RBC设定点与骨髓增生异常综合征(MDS)有关。
  3. 调整年龄和性别后,这些关联仍然显著(图4b),并在独立的医疗中心得到验证(扩展数据图9)。
  4. 其中一些关联的方向与早期对单个CBC测量结果的观察一致。
  5. 例如,较低的MCHC曾被报道与心脏病发作结果相关,RDW与心房颤动及许多其他情况相关,MCV与髋部骨折相关,WBC与糖尿病发展相关,RBC与MDS风险相关。
  6. 这些先前的研究大多依赖于单一的CBC测量,并且通常发现较小的影响大小,即使它们往往不限于健康参与者。
  7. 设定点识别出的较大影响大小表明它们提供了更强和更精确的病理生理信号。
  8. 总体而言,这些结果表明,约有25%的健康成年人群患重大疾病的风险绝对值可能超过2%甚至5%,在某些情况下包括癌症和心血管疾病,这需要加强筛查。

Fig. 4: Setpoints are associated with disease diagnosis and may enhance diagnostic accuracy.

  • 在队列 B(n = 14,371 名患者)中,处于最高四分位数的红细胞分布宽度(RDW)设定点与随后诊断出的心房颤动相关,最低四分位数的血细胞比容(HCT)设定点与慢性肾病相关,最高四分位数的白细胞计数(WBC)设定点与2型糖尿病相关,最低四分位数的平均红细胞血红蛋白浓度(MCHC)设定点与主要心血管不良事件(MACE)相关,最低四分位数的红细胞计数(RBC)设定点与骨髓增生异常综合征(MDS)相关,最高四分位数的平均红细胞体积(MCV)设定点与骨质疏松症相关。
  • 调整年龄和性别后的风险比显示,在队列 B 和一个独立的 UWMC 队列(n = 13,864 名患者)中,每增加1个标准差的设定点诊断率显著不同于1.0。
  • 在队列 B 中,1年死亡风险根据白细胞计数设定点及其后续结果而变化。
  • 调整年龄和性别后的死亡风险比在使用基于设定点的参考区间(设定点 ± 2 × 变异系数;橙色)时高于使用全人群参考区间(蓝色)。
  • 从早期到晚期肾病的进展风险与当前血细胞比容与其设定点之间的关系有关(7,991 名女性患者,6,249 名男性患者)。CKD,慢性肾病。
  • 从糖尿病前期到糖尿病的进展风险与平均红细胞血红蛋白浓度(MCHC)及其设定点有关(f;n = 4,801 名患者),低铁蛋白(FER)与血红蛋白(HGB)及其设定点有关(g;n = 13,820 名门诊患者),促甲状腺激素(TSH)升高与平均红细胞体积(MCV)及其设定点有关(h;n = 12,383 名门诊患者),JAK2 突变与血小板计数设定点有关(i;n = 495 名患者)。
  • b、d 和 i 中的误差线表示95%置信区间。所有设定点百分位数按性别分别计算。
  • d 中的星号表示显著差异(*P < 0.05,对数秩检验,具体 P 值见补充数据)。
  • a、b 和 e 至 h 的结果在 UWMC 进行了验证,详见扩展数据图9。
  • c 的其他血常规指数结果见扩展数据图10。

Setpoints for more accurate prognosis

Para_01
  1. 所提供的设定点本身提供了预后信息。
  2. 它们还作为患者特定的参考点,可以与后续的血细胞计数(CBC)测量结合使用,以提供进一步的预后信息。
  3. 我们使用了2002年至2006年间队列B中个体计算出的白细胞(WBC)设定点,作为2007年门诊WBC结果的基准。
  4. 所有患者的设定点都落在了总体参考区间内。
  5. 对于那些WBC设定点位于参考区间较高部分且在2007年新WBC结果位于参考区间较低部分的患者,其一年死亡率显著升高(6.9%),相比之下,其他在2007年有CBC结果的患者则没有这种情况。
  6. 同样,对于那些WBC设定点位于参考区间较低部分且随后在2007年WBC结果位于参考区间较高部分的患者,也观察到了类似的结果(4.5%)。
  7. 其他用作新CBC结果参考的设定点也发现了显著的分层(扩展数据图10)。
  8. 设定点还可以定义个性化的参考区间,该区间从设定点向两个方向各延伸2倍变异系数(CV)。
  9. 这些由设定点得出的参考区间的宽度类似于参考变化值(RCV),后者整合了预期仪器误差和患者内部生物变异,形成了一个置信区间,但通过将设定点的知识添加到RCV中,个性化参考区间可以在总体范围内锚定,并用于解释该患者的所有测试结果,而不仅仅是短期内的下一个测试结果。
  10. 我们计算了队列B中患者十年死亡率,根据他们的当前CBC结果是否超出设定点得出的参考区间进行分类,并将其与使用总体参考区间估计的死亡率分层进行了比较。
  11. 除平均红细胞血红蛋白浓度(MCHC)外,基于设定点的区间对所有CBC指数的风险比更高(图4d)。

Setpoints for more accurate diagnosis

Para_01
  1. 我们还研究了在患者已建立的设定点背景下解释新的全血细胞计数(CBC)是否也能提高其他测试的诊断准确性。
  2. 我们假设将新的全血细胞计数与患者的设定点进行比较,可以洞察患者血液状态中的细微变化。
  3. 我们分析了筛查和诊断场景,在这些场景中,是否存在细微的血液扰动可能改变阳性预测值和阴性预测值。
Para_02
  1. 肾脏疾病通常与红细胞生成功能障碍有关,我们研究了基于设定点的全血细胞计数(CBC)解释是否有助于检测轻度红细胞生成功能障碍的存在或缺失,并使肾病最常见的筛查测试——血清肌酐及其衍生的估计肾小球滤过率(eGFR)的解读更加准确。
  2. 我们分析了在研究医院中首次eGFR处于早期肾病范围(60–90 ml min−1 1.73 m−2)且同时进行CBC检查,并有足够CBC历史数据用于设定点估计的患者的数据,无论其设定点是否落在广泛人群参考区间内(方法中的‘测试阳性分析’)。
  3. 我们发现,当首次eGFR处于早期肾病范围内时,当前HCT低于其设定点的患者更有可能进展为晚期肾病(图4e)。
  4. HCT低于其设定点可能反映了在潜在肾病背景下常常预期的轻度红细胞生成扰动。
Para_03
  1. 糖化血红蛋白A1c(HbA1c)是用于筛查糖尿病前期和糖尿病最常用的测试,但假阳性较为常见,在某些情况下,这是由于红细胞动力学的暂时性变化引起的,这些变化可能难以识别。
  2. 我们研究了在我们的研究医院中首次进行HbA1c筛查测试且结果处于糖尿病前期范围(5.7–6.4%)并同时进行了全血细胞计数(CBC)的患者,以及有足够CBC历史数据以估计设定点的患者,无论其设定点是否落在广泛人群参考区间内。
  3. 我们发现,那些平均红细胞血红蛋白浓度(MCHC)低于其设定点的患者在未来被诊断为糖尿病的可能性较低,这表明糖尿病前期的HbA1c可能是假阳性。
  4. 与设定点相比降低的MCHC可能反映了红细胞动力学的细微变化,这会增加不依赖血糖水平的HbA1c升高的可能性,正如在缺铁的情况下所显示的那样。
Para_04
  1. 仅凭设定点以及设定点与当前全血细胞计数(CBC)的组合,在解释与血液学异常相关的诊断测试时提供了有用的背景信息。
  2. 我们在研究医院中选择了进行以下测试之一且同时进行了全血细胞计数并有足够的CBC历史数据以估计设定点的患者,无论其设定点是否在总体参考区间内:铁蛋白(FER)、促甲状腺激素(TSH)和JAK2基因分析。
  3. FER是一种常用的评估铁状态的测试,图4g显示,在进行FER测试的患者中,低FER结果的可能性显著与患者的当前HGB水平和HGB设定点之间的关系相关,而与实际HGB水平无关。
  4. 例如,在当前贫血(HGB < 10 g dl−1)且进行了FER测试的女性患者中,那些HGB低于设定点不超过0.5 g dl−1的人比那些HGB低于设定点超过2 g dl−1的人低FER的概率低七倍(6%对44%,P < 0.001)。
  5. 在进行TSH测试的患者中也观察到了类似的MCV模式。
  6. 相对于其设定点MCV升高的患者更有可能出现高TSH,这与高TSH所暗示的甲状腺功能减退症一致,并且已知与巨红细胞性贫血有关(图4h)。
  7. 对于进行了JAK2突变测试的患者,这种测试通常作为未明原因血小板增多症评估的一部分,那些至少在测试前一年PLT设定点处于最高五分位数的患者发现突变的可能性是其他人的九倍(4%对35%)(图4i)。
  8. 理解这些测试订单的临床背景很重要,因为例如FER可能被用来调查当前是否存在铁缺乏症,或者评估对铁补充治疗的反应。
  9. 在这两种情况下,考虑设定点可以使阳性结果的事前概率估计更加准确,从而提高一般测试利用率和临床决策的准确性。

Discussion

Para_01
  1. 我们发现,健康成年人的CBC指数在一个设定点附近窄幅波动,并且这些设定点在几十年内保持稳定,但在健康的成年人中差异显著。
  2. CBC设定点反映了一种与死亡率和疾病风险相关的深层次生理表型,并提供了可能增强CBC和其他诊断测试准确解释和利用的患者特定背景。
Para_02
  1. 血液学标志物的生物学变异已经在几周或几个月的时间内进行了研究,但很少有研究评估大型健康队列中多年或几十年内的患者内部变异。
  2. CBC 指标已知会随着年龄的增长而发生漂移,并且本研究表明,与设定值的患者间异质性相比,这种与年龄相关的漂移幅度较小。
  3. 围绕设定值的患者内部变异在患者的年龄、性别和自我报告的种族或族裔方面相似。
  4. 这种水平的血液学调节精度似乎是健康生理学的基础,尽管设定值本身存在患者间的变异,但它仍然保持一致。
Para_03
  1. 实验室医学领域众所周知,通用参考区间存在局限性。
  2. 临床测试中患者内部变异与患者之间变异的比率被称为‘个体指数’,我们的研究发现,对于全血细胞计数(CBC)指标,这一比率足够低,使得目前通用的整体人群参考区间在指导临床管理方面并不理想。
  3. 全血细胞计数设定点的长期稳定性和患者特异性也支持其在专门的个体内监测环境中使用,例如用于检测职业运动员使用兴奋剂的运动员生物护照。
Para_04
  1. CBC设定点显示出高遗传性,这与之前CBC指数所显示的结果一致,并且对设定点的GWAS分析有效地识别了数百个相关基因位点。
  2. 更广泛地说,这些结果为深度表型分析在GWAS中的价值提供了另一个例子。
  3. 我们注意到,尽管设定点显然是可遗传的,但SNP遗传性估计远低于总遗传性估计。
Para_05
  1. 设定点的存在及其相关结构为未来研究驱动患者间设定点差异的潜在机制提供了机会,包括定义患者间在生成速率、循环细胞和血小板寿命分布以及控制向组织迁移和清除过程中的变异角色。
  2. 尽管健康成年人的全血细胞计数指标受到严格调控,但它们并非恒定不变,患者内部变异系数与死亡风险之间的相关性可能反映了适应性或不同患者间的适应负荷。
Para_06
  1. 设定点的稳定性和患者特异性,结合设定点与死亡率和重大疾病诊断之间的已证实关联,可能为精准医学所设想的健康成年人个性化管理提供新的机会。
  2. 这些关联的病理生理学基础尚不清楚。
  3. 一些关联可能是由于个体中潜在和慢性病理过程的缓慢变化最终导致疾病进展而产生的。
  4. 例如,与MDS风险相关的低RBC设定点可能是由亚临床骨髓功能障碍引起的,这种功能障碍在多年内逐渐发展,并随着疾病的未被检测到的进展而导致RBC设定点逐渐下降,直到明确诊断时通常表现为贫血的症状。
  5. 或者,一些设定点与疾病之间的关联可能反映了由遗传因素或发育可塑性引起的先天倾向,这些因素既改变了CBC设定点,也改变了疾病背后的病理过程。
  6. 例如,如果设定点与对某些生理或环境挑战的适应能力降低相关,则可以预期它们在长时间内会增加相关疾病状态的发生可能性。
Para_07
  1. 尽管仍需要进一步的研究来理解这些关联的产生机制,但本研究表明,对于多种疾病,设定点产生的相对风险分层为2到4倍,这与常见的疾病筛查因素(包括家族史和某些基因突变)所提供的分层相当。
  2. 设定点似乎能够识别出我们研究人群中超过20%的健康成年人,这些人患所有原因导致的死亡或重大疾病(包括心血管疾病、糖尿病及其他可以通过早期干预有效治疗的疾病)的绝对10年风险增加了2%到5%以上。
  3. 根据标准的心血管疾病筛查指南,大约2%到5%的绝对10年死亡率增加可能需要加强筛查和干预措施。
  4. 目前,健康的成年人通常基于对家族史和胆固醇水平的临时评估被划分为不同的心血管疾病风险组。
  5. 进一步的研究是有必要的,以确定CBC设定点是否能提供补充信息,从而有助于进一步个性化这些筛查建议。
  6. 类似地,当前的一些结肠癌和乳腺癌筛查指南也是基于研究发现,大约2%到5%的长期绝对死亡率差异值得加强筛查,因为这将改善健康结果。
  7. 新的筛查方法必须在不牺牲特异性的前提下提高敏感性,尤其是在一个表面上健康的低发病率人群中,未来的研究需要确定CBC设定点是否能有效地个性化这些筛查协议,从而改善整体临床结果。
  8. 未来的工作还可以评估结合设定点是否会增强临床效用,类似于早期结合广泛人群参考区间的研究。
Para_08
  1. 设定点还提供了个性化的基准,这可能有助于改进新CBC结果的解释以及其他常见筛查和诊断测试的准确性和使用。
  2. 在本研究人群中,设定点有助于区分糖尿病和肾脏疾病的真正阳性与假阳性筛查结果,这两种疾病是最常见且最常被筛查的疾病。
  3. 我们还发现,设定点可能有助于指导用于评估或管理血液学异常(如铁蛋白、TSH和JAK2突变检测)的测试的解释和使用。
  4. 这种改进的解释准确性背后的机制基础尚不确定,但比较当前的CBC与患者的CBC设定点可能会提供对患者血液状态更敏感和具体的评估,并帮助检测是否存在增加或减少潜在疾病可能性的亚临床扰动。
  5. 以前关于特定疾病标志物(如肌钙蛋白)的研究也表明,当这些标志物连续考虑而不是二分法考虑时,以及与患者特定参考点进行比较时,它们能提供更多关于风险的信息。
  6. 需要后续的前瞻性研究来验证CBC设定点的适用性,并确定这些设定点是否能提高其他诊断测试的效率。
Para_09
  1. 总体而言,这项研究表明,在健康的成年人中,CBC指数在数十年间被紧密地调节在设定点周围。
  2. 设定点代表了造血调控的深层次表型,这可能有助于研究遗传决定和获得性机制,这些机制控制着显著不同的发病率和死亡率风险。
  3. 设定点还可能通过风险分层和提高其他临床测试结果解释的准确性,为改善临床护理提供机会。
  4. 血液学设定点利用已经在全球范围内常规测量的数据,提供了推进精准医学目标的机会。

Methods

Patient data collection

患者数据收集

Para_01
  1. 通过分析2002-2021年、2002-2006年和2017-2021年三个重叠时期成人MGB门诊患者的CBC数据,定义了三个队列(A、B和C)。
  2. 如果患者在该期间内满足以下标准,则被纳入研究:5次或更多的单独CBC(门诊且与其他血液检查间隔超过90天),在该期间内住院时间不超过48小时,并且在终点时仍然存活。
  3. 队列A中的患者被排除在队列B和C之外,队列B中的患者被排除在队列C之外,以确保各队列之间没有重叠。
  4. 有关排除图,请参见补充方法。
  5. 排除后,队列A、B和C的大小分别为12,407、14,371和20,062。
  6. 使用MGB研究患者数据注册库(RPDR)和电子数据仓库(EDW)收集患者的统计学信息、血细胞计数、操作、药物和诊断。
  7. 从RPDR和EDW中收集患者死亡信息,这些数据库经常更新,使用美国国家死亡指数和美国社会保障死亡主文件来捕捉医院外部的死亡。
  8. 使用PheCodes将诊断数据从国际疾病分类第9版(ICD9)和第10版(ICD10)代码转换为疾病表型。
  9. CBC包括十个参数:HCT、HGB、MCH、MCHC、MPV、PLT、RBC、RDW和WBC。
  10. 2015年之前,MPV值通常未记录在病历中,且对于队列B未报告MPV值。
  11. 队列A-C的总结特征见补充表1。
  12. CBC在多种血液分析仪上进行,反映了MGB实验室设备随时间的变化。
  13. 大多数仪器的分析变异非常低,尽管这种微小的变异可能会随着时间引入一个小的波动偏差到标记结果。
  14. MGB系统包括马萨诸塞州的多个医疗中心,每个中心的CBC参考区间略有不同。
  15. 为了保持一致性,我们使用现在MGH使用的参考区间。
  16. 每个标记的MGH参考区间见补充表7。
Para_02
  1. 每个队列都进行了健康评估,所有三个队列的一年死亡率(分别为0.3%、0.9%、0.8%)与相似年龄的美国普通人群(2019年55至60岁人群为1.1%)相比,显示出相似或更低的死亡率。
  2. 对A队列疾病表型的分析显示,在类似年龄的健康成年人群中,没有证据表明存在大量意外的诊断——其中最常见的诊断是疼痛、高血压和高脂血症(见补充信息)。
Para_03
  1. 关键结果通过来自美国西雅图UWMC的一个队列进行了验证(特征总结在补充表12中)。
  2. 该队列的实验室测试、人口统计和诊断数据来自UWMC的一个类似的电子数据仓库。
  3. 死亡数据同样与美国社会保障死亡主文件相关联。
  4. 除非另有说明,UWMC的数据处理方式与MGB数据相同。
Para_04
  1. 为了进行各种特定的分析,进一步确定了患者队列,并从电子健康记录中提取了等效数据。
  2. 这些个体队列的详细信息在下面的相关部分中定义。

Setpoint calculation

设定点计算

Para_01
  1. 设定点被定义为患者调节后的健康生物标志物分布的平均值,并通过将高斯混合模型(最多三个组成部分)拟合到每个患者的‘孤立’全血细胞计数(CBCs,如上定义)集合中,然后取最大组成部分的平均值来估计。
  2. 多组成部分模型的拟合有助于从临时干扰中分离出主要的(假设是生理性的)标志物值分布(例如,图1a所示的导致标志物在几个月内发生变化的疾病)。
  3. 根据Akaike信息准则得分选择最佳组成部分数量。
  4. 然而,为了确保我们捕获了主要分布,只有当其中一个组成部分显著大于其他组成部分时,才会使用多组成部分模型,该组成部分应占70%(两个组成部分)或45%(三个组成部分)。
  5. 变异系数(CV,标准差表示为平均值的百分比)是从组成部分方差计算得出的。
  6. 根据纳入标准,每位患者至少有五个全血细胞计数(CBCs)可用于设定点计算;但是,如果患者有更多的测量数据,则会使用整个数据集。
  7. 在队列A、B和C中,分别有81.7%、22.0%和30.5%的参与者至少有十个孤立的全血细胞计数(CBCs)可用于设定点估计。
Para_02
  1. 在EFLM生物变异数据库中报告的短期患者内标记变异率的基础上,比较了血细胞计数标记物的患者间和患者内变异情况。
  2. 图1b-d中的患者间和患者内标记变异估计值是基于每个患者的独立CBC(全血细胞计数)集合计算得出的,没有使用模型,以反映包括异常值在内的总体变异。
  3. 这些结果通过在整个研究队列上进行线性回归来调整与年龄相关的漂移。
  4. 我们没有使用混合模型回归,因为在使用所有患者的CBC与仅使用每个患者的一个CBC时,系数估计值相似。
  5. 对于未来的研究,更精确地估算年龄和性别效应可能是有价值的。
  6. 所有标记物的年龄相关漂移率也非常低(补充表2)。
  7. 除非另有说明,其他结果未使用年龄调整,以便与参考区间进行无偏比较。
  8. 使用队列中的所有标记物估算年龄和性别效应,并且没有使用混合效应模型对重复观察进行校正。
  9. 使用单一标记物估算的效果大小也相似。

Heritability analysis

遗传力分析

Para_01
  1. 使用电子健康记录中的患者关系数据估计了设定点的遗传性,类似于之前的报告。
  2. 队列 A 到 C 中所有具有一级亲属(父母或兄弟姐妹)或伴侣(配偶或生活伴侣)关系且也在其中一个队列中的患者均被保留下来(分别为 439 和 440 对)。
  3. 除非另有说明(例如继父),亲属关系被视为生物学上的关系。
  4. 遗传性估计为 (ρfamilial − ρpartner)/d,其中 ρfamilial 和 ρpartner 分别是亲属和伴侣设定点之间的相关性,d 是遗传强度(一级亲属为 0.5),而 ρpartner 作为环境效应的对照。
  5. 在相关性估计之前,所有设定点都通过线性回归进行了年龄和性别的校正。
  6. 遗传性估计值与五项研究文献中的估计值进行了比较:两项双胞胎研究、一项家系研究、一项多代研究和一项大规模电子健康记录研究。
  7. 还使用每个患者随机选择的一个孤立的血细胞计数计算了相应的遗传性估计值。

GWASs

全基因组关联研究

Para_01
  1. 为了评估设定点-基因组关联,使用了MGB生物库的数据——这是一个包含同意的MGB患者的基因型样本的生物库。所有具有基因型数据、至少五个独立CBC(全血细胞计数)且截至2023年4月1日仍存活的生物库患者均被纳入研究(n:32,093)。
  2. 患者的基因分型由MGB生物库使用Illumina多民族基因分型(MEGA)和扩展MEGA(MEGAEX)阵列进行,分别覆盖了1,416,020和1,741,376个SNP(单核苷酸多态性)。
  3. 结果由MGB生物库团队使用Minimac3在密歇根插补服务器上通过Haplotype Reference Consortium(r1.1 2016)面板进行插补。
  4. 高SNP缺失率(第一轮过滤0.2,第二轮过滤0.02)、高杂合性、性别不一致或高度相关(亲缘系数>0.2)的样本被排除。
  5. 在能够估计CBC设定点的MGB生物库患者子集中进行的遗传主成分分析表明,大部分群体(超过85%)的推断祖先主要是欧洲人,这是通过与1000 Genomes参考面板的多维标度图比较得出的。
  6. 根据同一参考面板,其他主要祖先的亚群要小得多(少于1,500),并且对于大多数单一群体的GWAS(全基因组关联研究)来说样本量不足。
  7. 遗传主成分与设定点之间的相关性分析表明,推断祖先存在显著的非遗传效应,增加了混合模型综合分析中混淆的风险。
  8. 未来在更大、更多样化的队列中进行分析,并结合广泛的CBC历史记录,将是本研究的重要扩展。
Para_02
  1. 如果单核苷酸多态性(SNPs)的次要等位基因频率较低(小于0.05),或插补质量较差(R2 < 0.3),或不符合哈迪-温伯格平衡(P < 1 × 10^-10),则将其排除。
  2. 使用线性模型进行全基因组关联分析(GWAS),并将年龄、性别和十个遗传主成分作为协变量。
  3. 设定点是按照之前描述的方法计算的。
  4. 分析还使用了从每位患者中随机选择的一个孤立的CBC进行。
  5. 使用plink clump功能识别位点,显著性阈值分别为5 × 10^-8和1,分别用于主要和次要SNPs,连锁不平衡阈值为R2 > 0.2,聚类区域为250千碱基(kb)。
  6. 如果在距离位点的主要SNP 250 kb范围内没有报道与九个CBC标记中的任何一个有显著关联,则该位点被认为是新的。
  7. 通过查询GWAS目录确定所有新位点后,随后手动审查以确认其新颖性。
  8. SNP遗传力估计是使用LDAK67 v.5.2中的sum-hers函数从GWAS汇总统计中得出的,并使用LDAK-Thin标签文件(如LDAK网站上提供的那样),排除任何解释超过1%表型变异的预测因子。
  9. 所有其他分析使用bcftools69、plink和plink2实现,除非另有说明,显著性阈值为5 × 10^-8。
  10. 每个GWAS的重要结果和位点列在补充表3-5中,完整的GWAS结果可以通过GWAS目录访问(数据和代码可用性声明中给出了访问编号)。
  11. MGB生物库队列的总结特征见补充表1。
  12. 通过使用LDLink70分析每个主要SNP进一步评估每个位点的新颖性。
  13. 对于每个新位点的主要SNP处于高(R2 > 0.1)或中等(R2 > 0.01或D-prime (D′) > 0.1)连锁不平衡状态的任何SNP,潜在相关的先前报道的关联列在补充表6中。

PGS analysis

PGS分析

Para_01
  1. 使用GWAS分析的结果,为每个设定点计算了一个PGS。
  2. 经过质量控制后,总队列(n = 25,254)被随机分为80%用于评分开发,20%用于验证。
  3. 使用队列的前80%对每个设定点进行了一项新的GWAS。
  4. 来自该GWAS的SNP被聚类(R2阈值为0.1,区域大小为250 kb),并保留了任何先导SNP P值 < 1 × 10^-5的聚类。
  5. 然后,每个先导SNP都用于使用plink中的评分函数计算PGS。
  6. 在预留的20%测试队列中评估了PGS与表型的关联。
  7. 由于已知性别差异,分别计算了男性和女性的HGB、HCT和RBC的PGS五分位数。
  8. 由于较小队列规模导致的统计功效不足以及随访时间短导致事件率低,未评估PGS与死亡率的关联。

Setpoint outcome associations

Para_01
  1. 在队列 B 中,使用 Kaplan-Meier 曲线分析和 Cox 比例风险模型估计了设定点与死亡率之间的关系。
  2. 患者在研究结束日期(2017年1月1日)后10年被删失。
  3. 设定点风险比通过患者的平均内部变异系数进行标准化,而变异系数的风险比则标准化为1%的变化。
  4. 通过将队列 B 中的设定点与设定点估算后一年内(2007年1月1日至2008年1月1日)最低(HCT、HGB、MCH、MCV、MCHC、PLT、RBC)或最高(RDW、WBC)门诊测试值进行比较,研究了设定点和当前标记值对结果的联合影响。
  5. 在接下来的一年(2008年1月1日至2009年1月1日)内测量了死亡率和未来异常测试结果的可能性。
  6. 在排除了所有在研究结束日期(2007年1月1日)之前诊断出疾病的患者后,使用 ICD 编码在同一队列中测量了设定点与未来疾病发展的关系。
  7. 选择用于分析的疾病包括心房颤动、慢性肾病(任何阶段)、2型糖尿病、骨髓增生异常综合征(MDS)、骨质疏松症和主要心血管事件(MACE,定义为卒中、心肌梗死或心力衰竭的复合体)。
  8. 通过与手动整理的 MGB MDS 患者数据库进行比较,验证了 MDS 诊断。
  9. 使用这些数据计算了诊断风险比,并在患者死亡或最后一次数据收集日期时删失,同时使用年龄(2007年1月1日)和性别作为协变量。
  10. 以下 ICD 编码用于每个诊断:心房颤动(ICD9: 427.3, ICD10: I48);慢性肾病(ICD9: 585, ICD10: N18);2型糖尿病(ICD9: 250.x0, 250.x2, ICD10: E11);MACE(ICD9: 410, 428, 431, 432, 434, ICD10: I21, I50, I61, I62, I63);MDS(ICD9: 238.72–238.75, ICD10: D46);骨质疏松症(ICD9: 733.0, 733.1, ICD10: M80, M81)。
  11. 每个 ICD 编码包括其所有子编码,250.x0 指的是代码 250.00、250.10……250.90,同样适用于 250.x2。
Para_02
  1. 关键结果使用来自UWMC的队列进行了验证。在2014年至2018年间有5次以上独立CBC的所有UWMC患者中估计了设定点(n:13,864;补充表12中的汇总特征)。
  2. 在接下来的5年(2019-2023)中测量了死亡率和诊断率,并在患者死亡时或2024年1月1日进行删失。
  3. 与MGB类似,排除了2019年1月1日之前已有相关诊断的患者。

Test positivity analysis

测试阳性分析

Para_01
  1. 使用可用的回顾性数据估计了设定点与未来 FER、TSH、eGFR、HbA1c 和 JAK2 测试阳性的关联。
  2. 如果患者在测试前48小时内进行了CBC测量,并且在研究期间测试前有5次以上的单独CBC,则结果被包括在内。
  3. 如果有多个测试,每个患者的第一次测试会被考虑。
  4. 对于 eGFR 和 HbA1c,为了确保患者定期进行筛查(分别为慢性肾病和糖尿病),我们将分析限制在那些首次出现轻度异常值(eGFR:60–90 ml min−1 1.73 m−2;HbA1c:5.7–6.4%)并且至少有两个先前正常值(eGFR > 90 ml min−1 1.73 m−2;HbA1c < 5.7%)的患者。
  5. 然后,我们根据设定点和出现时的CBC(在轻度异常时)测量了未来疾病进展的可能性(eGFR < 60 ml min−1 1.73 m−2;HbA1c ≥ 6.5%)。
  6. 对于 JAK2,为了降低偏差风险,设定点仅使用JAK2测试日期前至少一年的CBC计算。
Para_02
  1. FER和TSH的结果使用UWMC的队列进行了验证。对于FER和TSH,选择了在2023年1月1日至2024年7月1日期间进行测试的所有患者,并保留了每个患者的第一个可估算的测试前设定点(5次以上独立的CBC)的测试(分别为6,285和7,510个样本)。
  2. 低FER(低于10 ng/ml)和高TSH(高于5 mIU/L)的发生率是在按呈现标志物和测试前设定点分层后估算的。
  3. 对于HbA1c分析,我们将分析限制在首次出现糖尿病前期HbA1c、可估算测试前CBC设定点并在该HbA1c时有CBC结果的患者(样本数:2,173)。
  4. 由于UWMC将eGFR结果在60到90之间编码为‘>60’,因此无法验证eGFR结果。
  5. 由于UWMC的基因测试数据有限,JAK2结果也无法得到验证。

Statistical analysis

统计分析

Para_01
  1. 除非另有说明,连续变量使用t检验计算统计显著性,分类变量使用卡方检验计算统计显著性。
  2. 生存分析通过Kaplan-Meier曲线进行,统计显著性使用log-rank检验计算。
  3. 对于事件发生时间分析,患者在最后一次电子健康记录数据收集日期(除非另有说明,为2023年1月1日)时被删失。
  4. 除非另有说明,所有分析的显著性阈值设定为P = 0.05。
  5. 所有非基因组数据分析使用MATLAB 2023b和Python 2.7进行。
  6. 基因组数据通过Windows Linux子系统中的bcftools 1.21进行分析,并使用plink和plink2。

Inclusion and ethics

包容与伦理

Para_01
  1. 所有数据收集和分析均按照马萨诸塞州总医院(MGB)机构审查委员会批准的研究方案进行(针对MGB数据),以及华盛顿大学机构审查委员会批准的研究方案进行(针对UWMC数据)。
  2. 数据由位于各机构的研究人员收集和分析。
  3. 该研究不涉及与患者的直接互动,并在获得批准的同意豁免下进行。

Reporting summary

报告总结

Para_01
  1. 有关研究设计的更多信息,请参阅与本文链接的Nature Portfolio报告摘要。

Data availability

Para_01
  1. 临床数据是通过MGB研究患者数据登记处和电子数据仓库(针对MGB患者)以及UW DLMP数据仓库(针对UWMC数据)收集的。
  2. 由于共享受保护健康信息的限制,未共享个别患者的详细数据。
  3. 先前估计的患者间和患者内标记变异来自在线EFLM数据库:https://biologicalvariation.eu/,通过在2023年3月13日对每个单独标记进行手动查询获得。
  4. 全基因组关联研究(GWAS)摘要数据已上传到GWAS目录,并可在以下登录号下获取:GCST90292591(HCT)、GCST90292592(HGB)、GCST90292593(MCH)、GCST90292594(MCHC)、GCST90292595(MCV)、GCST90292596(PLT)、GCST90292597(RBC)、GCST90292598(RDW)和GCST90292599(WBC)。
  5. 补充方法和表格见补充信息。
  6. 显著性结果和位点的数据见补充表。
  7. 主要图表的摘要数据见补充数据。

Code availability

Para_01
  1. 计算设定点的代码包含在补充代码中。相同的代码也可以在 GitHub (https://github.com/BrodyFoy/setpoint_calculation/) 上找到。由于共享受保护健康信息的限制,提供了一个模拟患者数据的人工数据集以供说明。
  2. 由于共享受保护健康信息的限制,提供了一个模拟患者数据的人工数据集以供说明。