复杂表型的遗传相关性通常在
全基因组尺度
进行定义和
估计。然而,越来越多的研究发现,不同基因组区域可能对同一对
表型
产生方向
不定且
大小不一的遗传作用,仅依赖
表型之间
整体的
遗传相关性分析
,往往无法
准确描述表型之间的遗传关系
。
近年
来,基因组
局部遗传相关
性
分析工具
LAVA
【
1
】
等方法相继提出,尝试在基因组较小的区段范围内
分析表型之间
共
同的
遗传基础。然而,
以
LAVA为代表的
方法
存在问题和局
限:
首先,其敏感度过高,容易产生大量假阳性结果;其次
,因采用矩估计
(
Method of Moments)
方法
,
其统计学功效受限;再次
,
其基于模拟抽样进行统计推断
,
对计算资源消耗较大,不适合在大规模表型组分析中广泛
应用。
20
25
年
3
月
10
日,复旦大学
沈侠
团队在
Nature Genetics
杂志上发表了题为
An enhanced framework for local genetic correlation analysis
的
论文。
该研究
开发
了
分析基因组
局部遗传相关
性的
“局部高精度似然函数”方法
(
HDL-L
;
High-Definition Likelihood for Local)
,
将用于
分析
全基因组水平
遗传参数
的高精度似然函数
模型
【
2
】
(
High-Definition Likelihood, HDL)
扩展到基因组局部区段的分析中,显著提高了局部遗传相关
参数
估计
的
精准度和可
靠性。
更精细的局部遗传相关
性估计
遗传相关
性反映
的是全基因组
DNA变异在
两个或
多个性状上的协同作用机制。这种
“协同作用”
在基因组各区域并
不总是呈现
一致的
方向
——某些基因
组
区域可能对两种表型产生
相同方向的
影响,另一些区域则可能表现
方向不一致的
调控。传统的全
基因组遗传相关性估
计只能得到一个单一的相关系数,往往忽视了这类基因组局部差异的存在,使许多细节
“湮没”在整体结果之中。
此次发布的
HDL-L方法
在分析中
,
可以将
基因组划分为多个相互
之间相对独
立的区块,并利用
极
大似然
估计
(
Maximum Likelihood Estimation
)
实现对每个区块内
遗传率
(
Heritability
)
和
遗传协方差
(
Genetic Covariance
)
的
准确评估。
模拟研究表明,较之于当前主流的
LAVA方法,HDL-L在两大方面表现突出:
1.
估计
精度显著提升
:
在估计每个区块的遗传率与遗传协方差时,
HDL-L不仅系统偏差更低,且总体均方误差
(
Mean Squared Error
)
减少幅度可达数倍
,使得对
局部遗传相关
性估计的标准误
(
Standard
Error
)
更小
,能更好地反映
两个
表型在基因组不同
区段
内的共
同
遗传结构。
2.
大幅降低假阳性率
:
研究发现,
LAVA在统计推断方面
存在
明显
偏差,容易报告
实际
并不存在的遗传
相关性
信号。
HDL-L基于全似然函数
(
Full Likelihood)
进行
统计
推断,并结合似然比检验
(
Likelihood Ratio Test)
计算
p
值与置信区间,在确保统计
功效
的同时,更有效地抑制假阳性结果。
此外
,
HDL-L还展现出了
出色的
计算效率。在涉及数百万位点的
全基因组关联概括统计量
(
Genome-Wide Association Summary Statistics
)
数据上,对全基因组
2000多个
区段
进行
估计时,其整体运算时间约为
LAVA
的
1/15,为今后大规模表型
组
研究提供
了
基础
。
在
真实数据
中的应用
研究团队采用
UK Biobank
中
的
30
个
性状
(
包括
行为、疾病风险与人体测量指标等)
,分别运用
HDL-L和LAVA进行局部遗传相关分析。结果显示,HDL-L共鉴定出了109
个
显著的局部遗传相关信号,而
LAVA给出了更多但可疑性较高的结果。通过与