近年来,全球范围内涌现了很多大型生物样本库(Biobank),为GWAS提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,在多时间点
重复测量的数量性状常被称为纵向数据表型
,其能够表征健康状况的动态演变规律。基于纵向性状的全基因组关联研究(GWAS)可以识别出与健康状况动态发展和疾病进程密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。
针对大型生物样本库的GWAS分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性等实际困难。针对数量性状和质量性状,已有大量算法可以处理上述困难【1-4】。但针对更复杂结构的数据形式,比如纵向数据表型,仍缺乏有效的解决方案,这也导致针对纵向性状的GWAS分析尚未得到充分发展。
近日,
北京大学与北京大学第六医院
的
毕文健/岳伟华/张培培
合作团队在
Nature Communications
期刊发表工作SPA
GRM
: effectively controlling for sample relatedness in large-scale genome-wide association studies of longitudinal traits,于2025年2月6日上线。
该工作提出了一个针对纵向数据表型的GWAS分析框架SPA
GRM
,并利用该方法分析了从UK Biobank电子健康记录数据中提取的79个纵向性状,找出了7,463个与表型均值显著相关的遗传位点,以及362个与表型动态变化方差密切相关的遗传位点。
SPA
GRM
算法具有以下特性:1)准确建模基因型联合分布以控制样本之间的亲缘相关性;2)利用鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;3)利用多模型Cauchy组合策略整合来自不同模型的SPA
GRM
分析结果以提升统计效力。4)核心代码用C++进行优化,使其具备更好的运算效率与内存控制。R包可在网站下载(https://hexupku.github.io/SPAGRM.github.io/)。
北京大学基础医学院
博士生徐赫
为本文的第一作者,北京大学
毕文健、张培培
和北京大学第六医院
岳伟华教授
为本文的共同通讯作者。Seunggeun Lee、周涠、周绪杰老师和博士生马雨茁、徐琳琳、李印、刘雨菲、李莹是本项工作的主要贡献者。
毕文健博士毕业于中国科学院数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于
Nature Genetics, The American Journal of Human Genetics
(2019, 2020, 2021, 2023)
, Nature Communications, Genetics, Biostatistics
等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划,主持国家自然科学基金面上项目、智慧诊疗专项项目、中韩国际合作项目,参与科技部重点专项等项目。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。
详情可见课题组网站:
https://www.x-mol.com/groups/wenjianb。
「
BioMed科技
」关注生物医药×化学材料交叉前沿研究进展!交流、合作,请添加杨主编微信!
1 、Loh, P.-R.
et al.
Efficient Bayesian mixed-model analysis increases association power in large cohorts.
Nature Genetics
47
, 284-290 (2015).