专栏名称: BioMed科技
关注生物、医药前沿研究进展!
目录
相关文章推荐
51好读  ›  专栏  ›  BioMed科技

北大毕文健/岳伟华/张培培团队《自然·通讯》:开发出分析纵向数据表型的GWAS新算法

BioMed科技  · 公众号  ·  · 2025-02-07 19:00

正文

近年来,全球范围内涌现了很多大型生物样本库(Biobank),为GWAS提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,在多时间点 重复测量的数量性状常被称为纵向数据表型 ,其能够表征健康状况的动态演变规律。基于纵向性状的全基因组关联研究(GWAS)可以识别出与健康状况动态发展和疾病进程密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。

针对大型生物样本库的GWAS分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性等实际困难。针对数量性状和质量性状,已有大量算法可以处理上述困难【1-4】。但针对更复杂结构的数据形式,比如纵向数据表型,仍缺乏有效的解决方案,这也导致针对纵向性状的GWAS分析尚未得到充分发展。

近日, 北京大学与北京大学第六医院 毕文健/岳伟华/张培培 合作团队在 Nature Communications 期刊发表工作SPA GRM : effectively controlling for sample relatedness in large-scale genome-wide association studies of longitudinal traits,于2025年2月6日上线。 该工作提出了一个针对纵向数据表型的GWAS分析框架SPA GRM ,并利用该方法分析了从UK Biobank电子健康记录数据中提取的79个纵向性状,找出了7,463个与表型均值显著相关的遗传位点,以及362个与表型动态变化方差密切相关的遗传位点。

SPA GRM 算法具有以下特性:1)准确建模基因型联合分布以控制样本之间的亲缘相关性;2)利用鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;3)利用多模型Cauchy组合策略整合来自不同模型的SPA GRM 分析结果以提升统计效力。4)核心代码用C++进行优化,使其具备更好的运算效率与内存控制。R包可在网站下载(https://hexupku.github.io/SPAGRM.github.io/)。

北京大学基础医学院 博士生徐赫 为本文的第一作者,北京大学 毕文健、张培培 和北京大学第六医院 岳伟华教授 为本文的共同通讯作者。Seunggeun Lee、周涠、周绪杰老师和博士生马雨茁、徐琳琳、李印、刘雨菲、李莹是本项工作的主要贡献者。

毕文健博士毕业于中国科学院数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于 Nature Genetics, The American Journal of Human Genetics (2019, 2020, 2021, 2023) , Nature Communications, Genetics, Biostatistics 等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划,主持国家自然科学基金面上项目、智慧诊疗专项项目、中韩国际合作项目,参与科技部重点专项等项目。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。

详情可见课题组网站:
https://www.x-mol.com/groups/wenjianb。

BioMed科技 」关注生物医药×化学材料交叉前沿研究进展!交流、合作,请添加杨主编微信!
参考文献
1 、Loh, P.-R. et al. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics 47 , 284-290 (2015).






请到「今天看啥」查看全文