专栏名称: 基因漫游指南
一本正经地胡说八道
目录
相关文章推荐
51好读  ›  专栏  ›  基因漫游指南

科学算命:测测你什么时候生孩子?

基因漫游指南  · 知乎专栏  ·  · 2016-12-05 08:59

正文

相信很多人都在学生时代和好基友或闺蜜们探讨过将来谁最先生小孩。在我们的个人体验里,这样的问题和遗传是八竿子打不着的,似乎更应该由社会、家庭以及个人奋斗(or历史进程)等因素决定。然而本月的《自然·遗传学》上就发表了一项与之相关的GWAS(全基因组关联分析)研究( Nature Genetics 2016 )。该研究找到了12个与初次生育年龄和生孩子的数量相关的遗传位点。研究人员同时还猜测部分位点会影响到性激素的分泌或者与不孕不育有关。

这篇论文的结果并不是本文的关键,我更想介绍的是这篇文章的方法——GWAS。GWAS是很有争议的一种方法,如果黑粉也算粉的话,GWAS可以算是最流行的基因组学研究方法之一了。GWAS的中文名叫全基因组关联分析,可以被用来在全基因组范围内寻找基因型与表型之间的关联。基因型和表型的关系算得上是遗传学的核心问题。小到性别、ABO血型这些收录在高中课本中的简单性状,大到糖尿病、癌症等复杂性状都算得是表型。简单的基因型与表型的关系可以通过传统的遗传学方法来阐明。而那些很复杂的性状通常都是由多个基因控制,且单个基因的贡献都不是很大,此时GWAS就可以派上用场了。已经被GWAS研究过的性状多达上千个而且五花八门,开始大家研究的多是复杂疾病或者身高体重这些比较正常的性状,但现在画风已经越来越奇怪了。除了这里提到的初次生育年龄和生孩子的数量外,就在今年还有关于受教育水平( Nature 2016 )、初夜年龄( Nature Genetics 2016 )等的GWAS研究发表在了高水平期刊上。当然也有些研究纯粹是商业公司用来博取用户眼球的,比如23andMe这家公司就通过GWAS研究过胸的大小( BMC Med. Genet. 2012 )、青春痘( J Invest Dermatol. 2015 )以及夜猫子( PLoS Genetics 2016 )等性状。

GWAS算是蛮古老的一种方法了,相关概念在20世纪90年代就被提出了。比如Leonid Kruglyak在1999年通过模拟实验推算出至少要50万个SNP(突变的一种,单核苷酸多态性)才能做GWAS。当然,SNP的数量在2016年已经完全不是问题了,现在的dbSNP数据库中一共记录了1.5亿个突变(包含了稀有的SNP和微小插入与缺失突变)。最早的GWAS研究发表于2005年,不过公认的第一项设计精良的GWAS研究是发表于2007年的Wellcome Trust研究(WTCCC)。这项研究利用不到2万人的数据研究了包括糖尿病、类风湿关节炎等在内的七种常见复杂疾病,并且成功找到了不少全新的致病基因。也正是自2007年起,GWAS研究越来越多,人类基因组学正式进入GWAS纪元。


说起GWAS的原理其实是非常非常简单的。举个简单的例子,假设我们拿到了一笔钱去研究某种很常见却很复杂的疾病,现在我们找来了2万人,其中一万人有这个疾病,另一万人没有。假设我们只关注两个不在同一条染色体上的SNP,并且其中有且仅有一个SNP和这个疾病相关。我们通过给这2万人测序或者使用基因芯片收集到的数据如下:

  • 1号SNP在这群人中只有两个等位基因,A或T。其中在有病的人群里,A的频率是0.8(T就是1-0.8=0.2),而在没病的人群里,A的频率是0.3

  • 2号SNP在这群人中也只有两个等位基因,C或G。其中在有病的人群里,C的频率是0.9,而在没病的人群里,C的频率也是0.9

根据以上数据,如果我问你到底是1号还是2号SNP和这个疾病有关,相信你一定会说是1号。因为2号SNP的基因型频率分布不受疾病状态影响,而1号SNP的基因型频率则与有无疾病相关。如果你了解统计的话,也可以算算odd ratio并通过chi-squared test获得P值。下图展示的也是同一个意思。

当然实际研究比这些玩具例子要复杂多了。首先是现在的GWAS研究常常涉及到几十万人,就实验方法而言,全基因组测序虽然在慢慢变成主流,但目前大多数研究还是在使用基因芯片。基因芯片的问题是不能覆盖到所有的SNP,所以有可能真正起作用的SNP并没有被检测到。当然我们可以利用连锁不平衡的原理来解决这个问题,但由于有重组的存在,这一解决方案并不完美。此外,GWAS研究还会受到性别、人口组成等混淆因素的影响,因此优良的实验设计是必须的。比如像开篇的关于生孩子数量的GWAS研究的对象是欧洲人群,如果换成中国人群可能就没有意义了,因为对于生孩子数量这个性状而言,中国政策的影响可能远大于遗传。另一个问题就是统计上的困难。通常GWAS研究会涉及到上百万个SNP,如果按照我们常用的P值<0.05的标准,假阳性的比例就太高了,因此GWAS研究经常要求P值<10^-8。

对于GWAS的原理,我们再来总结一下。我们先找到一个想研究的性状,然后找到两群人,一群有这个性状,另一组做对照。在考虑到可能的混淆因素的前提下,通过对比上百万个SNP在这两群人中的基因型频率分布来找到与该性状相关的遗传位点。GWAS研究中,每个SNP都会有一个P值。为了方便可视化,几乎所有GWAS研究都会附带一张曼哈顿图,图中每个点对应一个SNP,x轴是SNP在基因组中的位置,y轴是-log10(P),因此点越高越显著。“曼哈顿图”这个鬼名字的由来是大家觉得高高低低的点很像是曼哈顿的天际线(下图的天际线是多伦多的)。

前面还提到GWAS有很多黑粉,最后我们就来谈谈GWAS的黑点,一般有三点。首先,相关不代表因果。考过GRE的人应该都做过不少逻辑题,很常见的一种逻辑错误就是混淆相关性和因果性,而通过GWAS只能找到相关性。如果找到的SNP正好影响蛋白质编码还好说,通过额外的实验不难验证因果性。但实际情况是大部分通过GWAS找到的SNP位于非编码区,至今功能不明。其次,很多找到的SNP对实际性状的影响很微弱,平均odd ratio仅为1.3。最后,GWAS还有一个黑点是所谓的“消失的遗传率”(missing heritability)问题。遗传率是指表型方差中遗传方差的比例。而GWAS研究得到的遗传率不到流行病学调查得到的一半。这个问题大家一般都归咎于目前的GWAS处理不了稀有SNP(就是次要等位基因在人群中频率很低的SNP),以及遗传互作导致的“幻影遗传率”的存在。由于这些黑点的存在,以及全基因组测序越来越便宜,GWAS的研究数量从2013年起停止增长,估计未来也终将沉睡在教科书中。





请到「今天看啥」查看全文


推荐文章
墨香中华  ·  奶奶
8 年前
算法与数据结构  ·  算法题 42:罪犯转移(百度笔试)
7 年前