北大毕文健/岳伟华/张培培团队《自然·通讯》：开发出分析纵向数据表型的GWAS新算法

BioMed科技 · 公众号 · · 2025-02-07 19:00

正文

近年来，全球范围内涌现了很多大型生物样本库（Biobank），为GWAS提供了重要的研究资源。基于电子健康记录，生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如，在多时间点 重复测量的数量性状常被称为纵向数据表型 ，其能够表征健康状况的动态演变规律。基于纵向性状的全基因组关联研究（GWAS）可以识别出与健康状况动态发展和疾病进程密切相关的遗传变异，为解析复杂性状的遗传结构提供全新视角。

针对大型生物样本库的GWAS分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性等实际困难。针对数量性状和质量性状，已有大量算法可以处理上述困难【1-4】。但针对更复杂结构的数据形式，比如纵向数据表型，仍缺乏有效的解决方案，这也导致针对纵向性状的GWAS分析尚未得到充分发展。

近日， 北京大学与北京大学第六医院 的 毕文健/岳伟华/张培培 合作团队在 Nature Communications 期刊发表工作SPA _GRM : effectively controlling for sample relatedness in large-scale genome-wide association studies of longitudinal traits，于2025年2月6日上线。该工作提出了一个针对纵向数据表型的GWAS分析框架SPA _GRM ，并利用该方法分析了从UK Biobank电子健康记录数据中提取的79个纵向性状，找出了7,463个与表型均值显著相关的遗传位点，以及362个与表型动态变化方差密切相关的遗传位点。

SPA _GRM 算法具有以下特性：1）准确建模基因型联合分布以控制样本之间的亲缘相关性；2）利用鞍点近似-正态分布分析混合策略，提升分析准确性的同时兼顾运算速度；3）利用多模型Cauchy组合策略整合来自不同模型的SPA _GRM 分析结果以提升统计效力。4）核心代码用C++进行优化，使其具备更好的运算效率与内存控制。R包可在网站下载（https://hexupku.github.io/SPAGRM.github.io/）。

北京大学基础医学院 博士生徐赫 为本文的第一作者，北京大学 毕文健、张培培 和北京大学第六医院 岳伟华教授 为本文的共同通讯作者。Seunggeun Lee、周涠、周绪杰老师和博士生马雨茁、徐琳琳、李印、刘雨菲、李莹是本项工作的主要贡献者。

毕文健博士毕业于中国科学院数学与系统科学研究院，先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究，在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者，部分工作发表于 Nature Genetics, The American Journal of Human Genetics (2019, 2020, 2021, 2023) , Nature Communications, Genetics, Biostatistics 等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室，2021年度入选国家级青年高层次人才计划，主持国家自然科学基金面上项目、智慧诊疗专项项目、中韩国际合作项目，参与科技部重点专项等项目。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要，公开招聘博士后1-2名，数据分析员1-2名，实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则，经面试考核后择优录取，待遇优厚。

详情可见课题组网站：
https://www.x-mol.com/groups/wenjianb。

「 BioMed科技」关注生物医药×化学材料交叉前沿研究进展！交流、合作，请添加杨主编微信！

参考文献

1 、Loh, P.-R. et al. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics 47 , 284-290 (2015).

北大毕文健/岳伟华/张培培团队《自然·通讯》：开发出分析纵向数据表型的GWAS新算法

正文

请到「今天看啥」查看全文