主要观点总结
All of Us Research Program 发布的基因组数据涵盖了来自美国各地的多样化个体的基因组序列,这些数据不仅有助于生物医学研究,还能改善人类健康。文章介绍了该计划的基因组数据,并描述了数据的多样性、质量和验证过程。此外,还讨论了数据访问的简化模型,并强调了数据对科研社区开放的重要性。
关键观点总结
关键观点1: 基因组数据的发布
All of Us Research Program 发布了245,388个临床级基因组序列数据,覆盖了来自美国各地的多样化个体。
关键观点2: 数据的多样性和质量
77%的参与者来自历史上在生物医学研究中代表性不足的社区,数据通过严格的质量控制程序进行验证,并显示了高质量和一致性。
关键观点3: 数据的验证和复制
数据通过复制已确立的基因型-表型关联进行了验证,包括低密度脂蛋白胆固醇(LDL-C)和其他疾病,显示了高复制率。
关键观点4: 数据访问的简化模型
通过'数据护照'模型,研究人员无需逐个项目审批即可访问数据,大大简化了数据访问流程。
关键观点5: 数据的开放性和对科研社区的重要性
数据对所有研究社区开放,并有望推动基因组医学的发展,改善人类健康。
正文
Basic Information
英文标题: Genomic data in the All of Us Research Program
中文标题:All of Us 研究计划中的基因组数据
文章作者:The All of Us Research Program Genomics Investigators
文章链接:https://www.nature.com/articles/s41586-023-06957-x
Abstract
全面绘制不同个体人类疾病的遗传基础一直是人类遗传学领域的长期目标。
"我们所有人"研究计划是一项纵向队列研究,旨在招募至少一百万名来自美国各地的多样化个体,以加速生物医学研究并改善人类健康。
在这里,我们描述了该计划发布的245,388个临床级基因组序列的基因组数据。
这一资源的独特之处在于其多样性,因为77%的参与者来自历史上在生物医学研究中代表性不足的社区,46%是来自代表性不足的种族和少数民族的个体。
"我们所有人"研究计划识别了超过10亿个遗传变异,包括超过2.75亿个先前未报告的遗传变异,其中超过390万个具有编码后果。
利用基因组数据与纵向电子健康记录之间的关联,我们评估了与117种疾病相关的3,724个遗传变异,并发现无论是在欧洲血统参与者还是非洲血统参与者中,都具有较高的复制率。
汇总级别数据公开可用,个体级别数据可以通过"我们所有人"研究员工作台由研究人员访问,使用独特的数据护照模型,从研究人员初始注册到数据访问的中位时间为29小时。
我们预期,这一多样化数据集将推进基因组医学对所有人的承诺。
Main
全面识别遗传变异并分类其在健康和疾病中的贡献,结合环境和生活方式因素,是人类健康研究的核心目标。
在构建这一分类目录的努力中,一个关键限制是历史上在生物医学研究中大型个体子集的代表性不足,包括来自不同祖先的个体、有残疾的个体以及来自不利背景的个体。
"我们所有人"研究计划(All of Us)旨在通过招募并收集至少一百万反映美国多样性的个体的全面健康数据来填补这一空白。
"我们所有人"的一个关键组成部分是生成一百万参与者的全基因组序列(WGS)和基因分型数据。
"我们所有人"致力于使这一数据集广泛有用——不仅通过在科学界民主化访问这一数据集,还通过根据临床标准向希望接收这些研究结果的参与者返回个人DNA结果,如遗传祖先、遗传疾病风险和药物基因组学,从而为参与者本身带来价值。
我们在此描述了来自245,388名All of Us参与者的全基因组测序(WGS)数据的发布,并展示了这一高质量数据在遗传和健康研究中的影响。
我们进行了一系列数据协调和质量控制(QC)程序,并进行了分析,以表征数据集的特性,包括遗传祖先和亲缘关系。
我们通过复制已确立的基因型-表型关联来验证数据,包括低密度脂蛋白胆固醇(LDL-C)和117种其他疾病。
这些数据可通过All of Us Researcher Workbench获取,这是一个云平台,体现了并支持项目优先事项,促进公平的数据和计算访问,同时确保负责任的研究行为并通过护照数据访问模型保护参与者隐私。
The All of Us Research Program
为了加速健康研究,All of Us致力于整理和频繁发布研究数据。
在2018年全国登记开始后不到五年,这次第五次数据发布包括了来自超过413,000名All of Us参与者的数据。
汇总数据通过公共数据浏览器提供,而个体层面的参与者数据则通过研究者工作台向研究人员开放(见图1a和数据可用性)。
Fig. 1: Summary of All of Us data resources.
a, 美国国立卫生研究院的"我们所有人"研究项目的所有研究数据枢纽包含一个公开可访问的数据浏览器,用于探索汇总的表型和基因组数据。研究人员工作台是一个安全的基于云的环境,包含受控层级中的参与者级别数据,广泛供研究人员使用。
b, "我们所有人"项目的参与者拥有丰富的表型数据,这些数据来自物理测量、调查问卷、电子健康记录、可穿戴设备和基因组数据的组合。圆点表示特定数据类型在给定数量的参与者中的存在情况。
c, 概述了在生物医学研究中代表性不足的参与者(UBR)在受控层级中可用的数据情况。a中的"我们所有人"标志经美国国立卫生研究院的"我们所有人"研究项目许可后复制。
参与者被要求完成数据用于研究的同意书,共享电子健康记录(EHRs),捐赠生物样本(血液或唾液和尿液),亲自提供身体测量数据(身高、体重和血压),并初步完成涵盖人口统计、生活方式和整体健康的调查。
使用观察性医疗结果合作通用数据模型(方法)协调的EHR数据,可用于超过287,000名参与者(69.42%),来自超过50个医疗服务提供组织。
EHR数据集是纵向的,四分之一的参与者拥有10年的EHR数据(扩展数据图1)。
数据包括245,388个全基因组测序(WGS)和312,925名参与者的全基因组基因分型。
在这一数据发布中,测序和基因分型的个体并未基于任何临床或表型特征进行优先选择。
值得注意的是,99%拥有WGS数据的参与者同时拥有调查数据和身体测量数据,84%还拥有EHR数据。
在这一数据发布中,77%拥有基因组数据的个体属于在生物医学研究中历史上代表性不足的群体,包括46%自我认定为种族或少数民族群体(图1c,补充表1和补充说明)。
Scaling the All of Us infrastructure
由All of Us参与者生成的基因组数据集是研究和发现的资源,并作为向参与者返回个体健康相关DNA结果的基础。
因此,美国食品药品监督管理局认定All of Us符合重大风险设备研究的标准。
因此,从样本采集到测序的整个All of Us基因组工作都符合临床实验室标准。
所有参与者是通过一个全国范围的合作伙伴网络招募的,从2018年开始,如前所述。
参与者可以通过由"我们所有人"资助的医疗机构或直接志愿者途径报名,所有生物样本,包括血液和唾液,都会被送往中心的"我们所有人"生物样本库进行处理和储存。
本次发布的数据是从血液衍生的DNA生成的基因组数据。
该计划于2022年12月开始返回可操作的基因组结果。
截至2023年4月,约有51,000人收到了通知,询问他们是否希望查看自己的结果,大约有一半的人接受了。
我们所有人数据和研究中心维护所有参与者的信息和生物样本ID关联,以确保参与者保密性和编码标识符(参与者和分装水平)用于通过我们所有人的基因组工作流程跟踪每个样本。
这个工作流程促进了每周自动化的分装和板式请求发送到生物银行,为样本运输到基因组中心提供相关元数据,并包含一个反馈循环,以通知对在任何阶段未通过质量控制的样本采取行动。
此外,在样本运输前会检查每位参与者的同意状态,以确认他们仍然活跃。
尽管所有具有基因组数据的参与者都同意了相同的一般研究用途类别,但该计划适应了参与者对返回基因组数据的不同偏好,并且只有那些同意返回个人健康相关DNA结果的个体的数据才会被分发给所有人临床验证实验室进行进一步评估和健康相关的临床报告。
所有选择获取健康相关DNA结果的所有参与者都有机会安排遗传咨询预约来讨论他们的结果。
选择获取阳性结果发现的个体需要与遗传咨询师预约以接收这些发现。
Genome sequencing
为了满足临床准确性、精确性和一致性的要求,跨越DNA样本提取和测序,All of Us基因组中心和生物银行协调了实验室协议,建立了标准的质量控制方法和指标,并使用先前已表征的临床样本和商业可用的参考标准进行了一系列验证实验。
简要地说,使用Illumina Kapa HyperPrep试剂盒构建了无PCR条形码的全基因组测序(WGS)文库。
文库被汇集并在Illumina NovaSeq 6000仪器上进行测序。
解复用后,使用Illumina DRAGEN管道进行初步质量控制分析(补充表2),利用泳道、文库、流动细胞、条形码和样本级别指标,以及评估污染、映射质量和与从不同DNA等分中独立处理的基因分型阵列数据的符合性。
基因组中心使用这些指标来确定每个样本是否符合项目规格,然后将测序数据提交给数据和研究中心进行进一步的质量控制、联合调用和研究社区的分布(方法)。
这种努力旨在协调测序方法、多级质量控制和使用相同的数据处理协议,减少了测序地点和协议的变异性,这种变异性通常会导致大型基因组数据集中的批次效应。结果,这些数据不仅具有临床级质量,而且在覆盖范围(≥30×平均)和基因组中心之间的一致性方面也是均匀的(补充图1-5)
Joint calling and variant discovery
我们对整个"我们所有人"全基因组测序(WGS)数据集进行了联合调用(扩展数据图2)。
联合调用利用样本间的信息来剔除伪变体,这提高了灵敏度,并能够标记在单样本质量控制(QC)过程中被遗漏的潜在问题样本10(补充表3)。
将传统方法扩展到超过50,000个体的全基因组联合调用是一个显著的计算挑战11,12。
为了应对这一挑战,我们开发了一种新的云变体存储解决方案,基因组变体存储(GVS),它基于一个用于查询和呈现变体的模式设计,其中变体存储在GVS中,并呈现为可分析的变体文件,而不是变体文件作为主要存储机制(代码可用性)。
我们基于为gnomAD 3.1开发的方法对联合调用集进行了质量控制(QC)13。
这包括标记在八个指标中具有异常值的样本(补充表4,补充图2和方法)。
为了计算联合调用数据集的灵敏度和精确度,我们纳入了四个特征明确的样本。
我们对来自基因组瓶联盟的国家标准与技术研究院参考材料(DNA样本)进行了测序,并按照上述方法进行了变异调用。
我们使用每个样本对应的已发表变异调用集作为我们灵敏度和精确度计算的真实值。
单核苷酸变异的总灵敏度超过98.7%,精确度超过99.9%。
对于短插入或缺失,灵敏度超过97%,精确度超过99.6%(补充表5和方法部分)。
我们使用Illumina Nirvana15基于功能注释(例如,基因符号和蛋白质变化)对联合调用数据集进行了注释。
我们将编码变异定义为在标准ENSEMBL转录本上引起氨基酸变化的变异,并发现了272,051,104个非编码变异和3,913,722个编码变异,这些变异在dbSNP16 v153中尚未被描述(扩展数据表1)。
共有3,912,832个(99.98%)编码变异是罕见的(等位基因频率<0.01),剩余的883个(0.02%)是常见的(等位基因频率>0.01)。
在编码变异中,有454个(0.01%)在"我们所有人"中的非欧洲计算血统中是常见的,在欧洲血统参与者中是罕见的,并且等位基因数大于1,000(扩展数据表2和扩展数据图3)。
按计算血统分层,仅筛选出在等位基因数小于40的个体中发现的致病或可能致病的ClinVar变异计数分布情况显示在扩展数据图4中。
这些已知和新的变异在血统方面的潜在医学影响及其致病性在伴随论文17中有重点讨论。
特别是,我们发现欧洲血统子集具有最高的致病变异率(2.1%),这是东亚血统个体致病变异率的两倍17。
东亚个体中变异频率较低的部分原因可能是该组样本量较小,并且在变异数据库中可能存在知识偏见,这减少了在某些研究较少的血统群体中的发现数量。
Genetic ancestry and relatedness
遗传祖先推断证实,51.1%的All of Us全基因组测序(WGS)数据集来自非欧洲血统的个体。
简而言之,血统类别基于与gnomAD18中使用的相同标签。
我们在一个基于3,202个样本和151,159个常染色体单核苷酸多态性的16维主成分分析(PCA)空间的多样化参考上训练了一个分类器。
我们将All of Us样本投影到基于WGS数据中相同单核苷酸多态性的训练数据的PCA空间,并从训练好的分类器生成分类血统预测(方法)。
All of Us样本的连续遗传血统分数是使用相同的PCA数据推断的,并将参与者的血统和混合模式与其自我识别的种族和民族进行了比较(图2和方法)。
使用全基因组基因型进行的连续血统推断产生了高度一致的估计。
Fig. 2: Genetic ancestry in All of Us.
a,b, 统一流形逼近和投影(UMAP)表示的所有我们全基因组测序(WGS)PCA数据,带有自我描述的种族(a)和民族(b)标签。
c, 每个个体的遗传祖先比例,在由人类基因组多样性项目和1000基因组样本定义的六个独特且一致的祖先群体中。
亲缘关系估计证实,All of Us全基因组测序数据主要由无亲缘关系的个体组成,其中约85%(215,107人)在数据集中没有一级或二级亲属(补充图6)。
由于许多基因组分析依赖于无亲缘关系的个体,我们确定了需要从剩余的有一级或二级亲属的个体中移除的最小样本集,并从每个家族中保留一个个体。
这一程序产生了231,442个个体(约94%)的最大独立集,这些个体在当前版本中具有基因组序列数据(方法)。
Genetic determinants of LDL-C
作为数据质量和实用性的衡量标准,我们对低密度脂蛋白胆固醇(LDL-C)进行了单变量全基因组关联研究(GWAS),这是一种具有明确基因组结构的特征(方法部分)。
在245,388名全基因组测序(WGS)参与者中,有91,749名参与者具有一个或多个LDL-C测量值。
我们进行的全基因组关联研究(GWAS)在所有参与者中识别出20个已确立的全基因组显著位点,基因组膨胀最小(图3,扩展数据表3和补充图7)。
我们将这些结果与最近在国家心肺血液研究所(NHLBI)TOPMed研究中进行的多元族裔LDL-C GWAS进行了比较,该研究包括66,329名祖先多样化的个体(56%非欧洲血统)。
我们发现NHLBI TOPMed全基因组显著位点的效应估计值与我们研究中的效应估计值之间存在强相关性(R2 = 0.98,P < 1.61 × 10−45;图3,插图)。
值得注意的是,我们在研究中观察到的每个位点的效应大小相比TOPMed有所减小,这部分是由于底层统计模型的差异、这些数据集的祖先组成差异以及电子健康记录(EHR)衍生数据与流行病学研究之间实验室值确定方法的差异。
一篇伴随的手稿扩展了这项工作,以识别在所有参与者数据集中三种疾病(心房颤动、冠状动脉疾病和2型糖尿病)和两个数量性状(身高和LDL-C)的常见和罕见遗传关联,并发现与之前在这些疾病和性状上的努力高度一致。
Fig. 3: All of Us LDL-C GWAS.
曼哈顿图展示了在91,749名具有1次或更多LDL-C测量值的个体中,20个已确立的LDL-C遗传位点的稳健复制。红色水平线表示全基因组显著性阈值P = 5 × 10–8。
插图显示了NHLBI TOPMed LDL-C GWAS(x轴)和All of Us LDL-C GWAS(y轴)之间194个独立变异(窗口250 kb,r2 0.5)的效应估计(β)比较,这些变异在NHLBI TOPMed中达到了全基因组显著性。
Genotype-by-phenotype associations
作为数据质量和实用性的另一个衡量标准,我们测试了在表型/基因型参考图(PGRM)中存在的五个预测的遗传祖先群体中先前报告的表型-基因型关联的复制率:AFR,非洲祖先;AMR,拉丁裔/混血美洲祖先;EAS,东亚祖先;EUR,欧洲祖先;SAS,南亚祖先。
PGRM包含了在这些祖先群体中GWAS目录中发表的关联,这些关联映射到基于国际疾病分类的表型代码。
这项复制研究特别查看了4,947个变异,计算了每个祖先群体中具有统计学功效的关联的复制率。
在80%统计学功效下的总体复制率为:AFR中72.0%(18/25),AMR中100%(13/13),EAS中46.6%(7/15),EUR中74.9%(1,064/1,421),SAS中100%(1/1)。
除了EAS祖先结果外,这些具有统计学功效的复制率与已发表的PGRM分析中的复制率相当,其中几个单站点EHR关联的生物银行的复制率范围从76%到85%。
这些结果展示了数据的有用性,同时也突出了进一步工作的机会,以理解"我们所有人"群体的具体特征以及基因-环境相互作用对基因型-表型映射的潜在贡献,并激励了多站点EHR表型数据提取、协调和遗传关联研究方法的发展。
更广泛地说,All of Us 资源突显了在不同人群中识别基因型-表型关联的机会。
例如,达菲血型基因座(ACKR1)在非洲裔和美洲裔个体中比欧洲裔个体中更为普遍。
尽管该基因座的表型全关联研究突显了达菲血型与非洲裔和美洲裔个体中较低白细胞计数的已知关联,
它还揭示了与遗传祖先特异的表型模式,在东亚裔和欧洲裔个体中表型关联最小(见图4和扩展数据表4)。
相反,HLA-DQB1基因座中的rs9273363与各祖先人群中1型糖尿病及其并发症的风险增加相关,
但仅在欧洲裔个体中与乳糜泻风险增加相关(见扩展数据图5)。
同样,TCF7L2基因座在多个祖先人群中与2型糖尿病及其相关并发症的风险增加强烈相关(见扩展数据图6)。
Fig. 4: Phenome-wide associations of the Duffy blood group locus (rs2814778, ACKR1).
Fig_4_Phenome_wide_associations_of_the_Duffy_blood_group_locus_rs2814778_ACKR1_
在无关个体中进行的基于遗传祖先分层的全表型关联分析结果,突出了参与者四大常见遗传祖先中特定祖先的疾病关联。Bonferroni调整后的全表型显著性阈值(<2.88 × 10−5)以红色水平线表示。AFR(n = 34,037,次要等位基因频率(MAF)0.82);AMR(n = 28,901,MAF 0.10);EAS(n = 32,55,MAF 0.003);EUR(n = 101,613,MAF 0.007)。
The cloud-based Researcher Workbench
All of Us 基因组数据可在安全、受控访问的基于云的分析环境中获取:All of Us 研究者工作台。
与传统的需要逐个项目审批的数据访问模型不同,研究者工作台的访问由基于研究者已验证的身份、机构隶属关系以及完成自助培训和合规性声明的数据护照模型管理。
获得访问权限后,研究者可以随时创建新的工作空间进行研究,前提是他们遵守所有数据使用政策并自行声明其研究目的。
这些信息会定期审计,并在 All of Us 研究项目目录中公开可查。
这种简化的访问模型遵循以下原则:参与者是研究合作伙伴,维护他们的隐私和数据安全至关重要;他们的数据应尽可能对授权研究者开放;我们应不断努力消除访问和使用 All of Us 数据的不必要障碍。
对于已有机构数据使用协议的研究机构的研究人员,只要完成所需的验证和合规步骤,即可获得访问权限。
截至2023年8月,已有556个机构签订了协议,允许超过5000名经批准的研究人员积极参与到超过4400个项目中。
研究人员从初始注册到完成这些要求的中位时间为28.6小时(第10百分位:48分钟,第90百分位:14.9天),这仅仅是使用传统访问模型汇编项目特定申请并由访问委员会审查所需数周至数月时间的一小部分。
鉴于该项目的表型和基因组数据集预计在2023年将达到4.75 PB,使用中央数据存储和云分析工具将为资助者每年节省约1650万美元,相较于允许研究人员下载基因组数据的典型方法。
如果在这556个注册机构中每个机构存储一份该数据,每年将花费约11.6亿美元。
相比之下,存储一个中央云副本每年大约花费114万美元,节省了99.9%。
重要的是,云基础设施还使数据访问民主化,特别是对于那些没有高性能本地计算资源的研究人员。
Discussion
我们在此介绍"我们所有人研究计划"在生成多样化临床级基因组数据方面的方法,其规模前所未有。
我们发布了约245,000个基因组序列的数据,作为可扩展框架的一部分,该框架将逐步包括生活在美国的一百万或更多人的遗传信息和健康数据。
首先,All of Us项目通过有目的地大规模纳入代表性不足的个体,正在对改善人类生物学研究做出显著贡献。
在All of Us项目中拥有基因组数据的参与者中,45.92%自认为是非欧洲种族或民族。
这种多样性使得在整个数据集中识别出超过2.75亿个新的遗传变异,这些变异在其他大规模基因组聚合工作中未被捕获,这些工作包括向dbSNP v153提交变异的多样化参与者,例如NHLBI TOPMed31冻结8(扩展数据表1)。
与gnomAD不同,All of Us允许访问所有参与者的个体水平基因型数据及详细的表型数据。
此外,与许多基因组资源不同,All of Us统一同意用于一般研究用途,并使研究人员能够在短短几小时内从初始账户创建到个体水平数据访问。
All of Us队列比其他生成全基因组测序数据的大型当代研究队列显著更多样化。
这为精准医学的未来提供了更公平的可能性(例如,通过构建适当校准到多样化人群的多基因风险评分,正如eMERGE项目利用All of Us数据所做的那样)。
开发新工具和监管框架,以在云中跨多个生物银行进行分析,利用每个生物银行的独特优势,是本工作的伴随论文中探讨的活跃研究领域。
其次,All of Us 研究工作台体现了该计划的设计理念,即开放科学、可重复研究、公平获取以及对研究人员和研究参与者的透明度。
重要的是,对于研究项目,任何数据用户群体都不应基于除数据保护标准以外的任何条件,享有对 All of Us 资源的特权访问。
尽管 All of Us 研究工作台最初针对的是美国学术、医疗保健和非营利组织,但它最近已扩展到国际研究人员。
我们预计将定期发布更多的基因组和表型数据,这些数据对所有研究社区开放。
我们还预计将提供更多衍生数据和功能,例如参考数据、结构变异以及使用 All of Us 基因组数据的服务进行阵列填充。
第三,All of Us 项目使得在前所未有的规模上研究人类生物学成为可能。
该项目目标是对一百万或更多的基因组进行测序,这需要整合多个测序中心的输出结果。
先前的工作主要集中在实现数据处理和联合调用管道的功能等效性。
为了达到临床级数据等效性,All of Us 项目要求在测序生产层面和跨测序中心的数据处理上实现协议等效。
All of Us 项目开发的新 GVS 框架使得在极端规模上进行联合调用成为可能(代码可用性)。
最后,通过云原生工具提供数据访问,使得研究人员能够进行可扩展且安全的数据访问和分析,同时确保研究参与者的信任和 All of Us 数据护照访问模型背后的透明度。
由All of Us进行的临床级测序不仅支持研究,还能通过向选择接收此类信息的参与者提供具有临床相关性的遗传结果和健康相关特征,从而为他们带来价值。
在未来的几年里,我们预计与All of Us参与者的合作将使研究人员能够超越大规模基因组发现,进而理解在大规模实施基因组医学的后果。
Methods
The All of Us cohort
我们所有人的队列
All of Us 旨在招募一个包含一百万或更多美国参与者的纵向队列,重点关注历史上在生物医学研究中代表性不足的人群。
All of Us 队列的详细信息已在之前的文献中描述。
简而言之,主要目标是建立一个强大的研究资源,以便探索健康和疾病的生物学、临床、社会和环境决定因素。
该计划将收集和整理与健康相关的数据和生物样本,这些数据和生物样本将广泛用于研究用途。
调查模板可以在我们的公共网站上找到:https://www.researchallofus.org/data-tools/survey-explorer/。
目前居住在美国或美国领土的18岁及以上的成年人,具有同意能力者符合资格。
所有参与者的知情同意是通过面对面或通过包含主要同意、HIPAA 研究使用 EHRs 和其他外部健康数据的授权以及基因组结果返回同意的 eConsent 平台进行的。
该协议由 All of Us 研究计划的机构审查委员会(IRB)审查。
All of Us IRB 遵循 NIH 人类研究保护办公室的所有研究的法规和指导,确保研究参与者的权利和福利得到统一监督和保护。
Data accessibility through a ‘data passport’
通过‘数据护照’实现数据可访问性
在‘我们所有人’项目中,访问参与者级别数据的授权基于‘数据护照’模型,通过该模型,授权研究人员无需对每个研究项目进行IRB审查。
数据护照是获取研究工作台数据访问权限和创建工作空间以使用‘我们所有人’数据开展研究项目的必要条件。
目前,数据护照的授权通过一个六步骤的过程,包括与已签署数据使用和注册协议的机构建立关联、创建账户、身份验证、完成伦理培训,以及签署数据用户行为准则。
报告的结果遵循‘我们所有人’数据和统计传播政策,禁止在未经事先批准的情况下披露少于20人的群体计数,以保护参与者隐私。
EHR data
电子健康记录数据
目前,All of Us 从大约 50 个获得资助的医疗机构收集电子健康记录(EHR)数据,这些机构负责招募和登记参与者,并为那些同意提供的参与者转移 EHR 数据。
每个提供机构的 数据管理员 将其本地数据与观察性医疗结果合作(OMOP)通用数据模型进行协调,然后提交到 All of Us 数据与研究中心(DRC),以便与其他参与者数据进行链接,并进一步整理以供研究使用。
OMOP 是一个通用数据模型,它将来自不同 EHR 的健康信息标准化为通用词汇,并按照数据领域组织成表格。
EHR 数据从招募站点更新,并每季度发送到 DRC。
补充表 6 概述了 DRC 每季度从招募站点收集的 OMOP 概念。
Biospecimen collection and processing
生物样本收集和处理
同意参与"我们所有人"项目的参与者捐赠了新鲜全血(4毫升EDTA和10毫升EDTA)作为DNA的主要来源。
由梅奥诊所管理的"我们所有人"生物银行从4毫升EDTA全血中提取DNA,并将DNA存储在−80°C,平均浓度为150纳克/微升。
从10毫升EDTA全血中分离出的 Buffy coat 用于在初始提取失败或缺少4毫升EDTA全血的情况下提取DNA。
生物银行将2.4微克浓度为60纳克/微升的DNA进行双份铺板,用于阵列和全基因组测序样本。
样本每周分发到"我们所有人"基因组中心,并且每两个月加入一个阴性(空孔)对照和国家标准与技术研究所对照,用于质量控制目的。
Genome sequencing
基因组测序
Genome Center sample receipt, accession and QC
基因组中心样本接收、登记和质量控制
在收到DNA样本货物后,All of Us基因组中心会对包装和样本容器进行检查,以确保样本在运输过程中未被破坏,并验证样本容器与运输清单相符。
提交样本的质量控制还包括DNA定量,使用常规程序确认体积和浓度(补充表7)。
任何问题或差异都会被记录下来,受影响的样本会被搁置直至问题解决。
符合质量阈值的样本会在实验室信息管理系统中进行登记,并准备样本分装以进行文库构建处理(例如,按浓度和体积进行标准化)。
WGS library construction, sequencing and primary data QC
WGS文库构建、测序及初级数据质量控制
DNA样本首先使用Covaris声波破碎仪进行剪切,然后使用AMPure XP磁珠进行大小选择,以限制文库插入片段的大小范围。
使用PCR Free Kapa HyperPrep文库构建试剂盒,完成酶促步骤以修复DNA片段的锯齿状末端,添加适当的A碱基段,并将索引适配器条码序列连接到样本上。
使用AMPure XP磁珠去除多余的适配器,进行最终的清洁。
使用Illumina Kapa DNA定量试剂盒通过定量PCR对文库进行定量,然后进行标准化和混合,以备测序(补充表7)。
混合文库被加载到Illumina NovaSeq 6000仪器上。
初始测序运行的数据用于质量控制单个文库,并从流程中移除不符合要求的样本。
这些数据还用于校准每个单个文库的混合体积,并重新混合文库以进行额外的NovaSeq测序,以达到平均30×的覆盖率。
解复用后,全基因组测序(WGS)分析在Illumina DRAGEN平台上进行。
DRAGEN流程包括高度优化的算法,用于映射、对齐、排序、重复标记和单倍型变异调用,并利用平台特性如压缩和BCL转换。
在分析协议的每个阶段都收集质量控制数据,提供高分辨率指标,以确保大规模复用数据的一致性。
DRAGEN流程生成大量指标,涵盖泳道、文库、流式细胞、条形码和样本级指标,以及评估污染和对齐质量。
我们所有人的基因组中心使用这些指标来确定每个样本的通过或失败,然后才将CRAM文件提交给我们的数据接收中心。
对于映射和变异调用,所有基因组中心都已统一使用一组DRAGEN参数,这确保了处理的一致性。
全基因组测序(WGS)过程中的每一步都严格受到预定义质量控制措施的管控。
在WGS检测验证期间,建立了各种控制机制和接受标准。
用于审查和发布基因组数据的特定指标包括:平均覆盖率(阈值≥30×),基因组覆盖率(阈值≥90%在20×),遗传病风险基因的覆盖率(阈值≥95%在20×),对齐的Q30碱基(阈值≥8 × 10^10),污染(阈值≤1%)以及与独立处理的阵列数据的符合度。
Array genotyping
阵列基因分型
样本在三个All of Us基因组中心(Broad、约翰霍普金斯大学和华盛顿大学)进行基因分型处理。
DNA样本从生物银行接收,并且通过上述描述的All of Us基因组工作流程进行操作。
所有三个中心使用相同的阵列产品、扫描仪、资源文件和基因型调用软件进行阵列处理,以减少批次效应。
每个中心都有自己的实验室信息管理系统,该系统管理工作流程控制、样本和试剂追踪,以及中心特定的液体处理机器人。
样本使用Illumina全球多样性阵列(GDA)和Illumina Infinium LCG化学试剂,按照自动化协议进行处理,并在配备自动阵列加载器的Illumina iSCAN上进行扫描。
Illumina IAAP软件将原始数据(IDAT文件;每个样本2个)转换为每个样本的单个GTC文件,使用BPM文件(定义链、探针序列和illumicode地址)和EGT文件(定义强度与基因型调用之间的关系)。
本次数据发布使用的文件包括:GDA-8v1-0_A5.bpm,GDA-8v1-0_A1_ClusterFile.egt,gentrain v3,参考基因组hg19和gencall截止值0.15。
GDA阵列检测了总共1,914,935个变异位点,包括1,790,654个单核苷酸变异,44,172个插入缺失,9,935个仅用于CNV调用的强度探针,以及70,174个重复位点(相同位置,不同探针)。
使用Picard GtcToVcf将GTC文件转换为VCF格式。
生成的VCF和IDAT文件提交给DRC进行摄取和进一步处理。
VCF文件包含检测名称、染色体、位置、基因型调用、质量分数、原始和标准化强度、B等位基因频率和log R比值。
每个基因组中心都在临床实验室改进修正案(CLIA)合规的协议下运行GDA阵列。
GTC文件被解析,并将指标上传到内部实验室信息管理系统进行质量控制审查。
在批量级别(每次在实验室一起运行的96孔板集合),每个基因组中心包括阳性对照样本,这些样本需要具有>98%的调用率和>99%与现有数据的一致性,以批准释放该批次数据。
污染也通过BAFRegress测量,并作为元数据报告。
基因型性别是通过绘制一批样本的标准化x与标准化y强度值来确定的。
任何与‘出生性别’不一致的样本将被标记为需要进一步详细审查,并在实验室中重复一次。
如果多个性别不一致的样本在阵列上或96孔板上聚集,整个阵列或板的数据生产将重复。
鉴定出性染色体非整倍体的样本也作为元数据报告(XXX、XXY、XYY等)。
在数据释放到All of Us DRC之前,确定最终处理状态为‘通过’、‘失败’或‘放弃’。
如果一个阵列样本的调用率>98%,且基因型性别与出生性别一致(或出生性别不适用),则该样本通过。
如果一个阵列样本的基因型性别与出生性别不一致,则该样本失败。
如果一个阵列样本在基因组中心至少尝试两次后调用率仍<98%,则该样本状态为放弃。
来自阵列的数据用于为那些同意的参与者返回遗传祖先和非健康相关特征,并且这些数据也用于促进匹配的全基因组测序(WGS)数据的额外质量控制。
在阵列数据中评估污染,以确定在WGS之前是否需要重新提取DNA。
阵列还用于通过评估100个独特位点的符合性,确认WGS数据和匹配阵列数据之间的样本身份。
为了建立符合性,提供了一个包含这100个位点的指纹文件给基因组中心,以在CRAM提交之前评估与WGS数据中相同位点的符合性。
Genomic data curation
基因组数据整理
如扩展数据图2所示,我们为所有全基因组测序样本生成了一个联合调用集,并将这些数据完整地以及按样本子集提供给研究人员。
对于计算出的祖先中我们有超过10,000名参与者的频率细分,可以在扩展数据图3中找到。
联合调用集的过程使我们能够跨样本利用信息,以提高质量控制并增加准确性。
Single-sample QC
单样本质量控制
如果样本未通过单样本质量控制,将被排除在发布之外,并且在此文档中不予报告。
这些测试用于检测样本交换、个体间污染和样本制备错误。
在某些情况下,我们会进行两次这些测试(在基因组中心和DRC各一次),原因有两个:一是确认各站点之间的内部一致性;二是根据研究流程标准标记样本为通过(或未通过)质量控制。
单样本质量控制流程接受的污染率高于临床流程(研究流程为0.03,而临床流程为0.01),但其他方面使用相同的阈值。
具体的质量控制流程列表、通过标准、解决的错误模式以及结果概览可在补充表3中找到。
Joint call set QC
联合调用集质量控制