人类基因组测序未完成？90％的结构变异体被漏掉了！

生物通 · 公众号 · · 2017-07-03 18:16

正文

请到「今天看啥」查看全文

“科学家们说，人类基因组测序已经完成”，纽约时报、Science、Nature在2003年都以相似的标题报道了这个历史性的成就。但是，有一个小问题。

业内人士所知道的，并不是其他人所听到的。大众以为，构成23对人类染色体的所有DNA——每个A，T，C和G都已经基本完全清楚了。美国国立卫生研究院在常见问题中对“人类基因组是否完全测序”的回答：“是的”，“是在当前技术能做的范围内已经完成”。

遗漏的未测序部分

领导Whitehead研究所实验室的Eric Lander说：“实际上，‘已经完成的测序序列’还没有完成。我经常说，这个“完成”只是一种艺术上的辞令。”Whitehead研究所在美国政府资助的人类基因组计划中承担了最主要的工作量，超过其他任何一个机构。

另外一个杰出的基因组学家文特尔（Craig Venter）表示，“非常坦白地说人类基因组从未完全测序。”

哈佛医学院的大咖级人物George Church也说，“人类基因组没有被完全测序，据我所知也没有任何其他的哺乳动物基因组被完全测序。”George Church曾在测序技术领域取得了关键的早期进展。

因为遗漏的序列看起来似乎并不重要，大概没有人会留意这个问题。但现在看来，它们可能在一些疾病——诸如癌症和自闭症等疾病——中起作用。

加州大学圣克鲁斯分校生物学家卡伦·米加（Karen Miga）表示：“20世纪80年代和90年代（人类基因组计划开始时），很多人认为这些区域是非功能性的。

“但是情况已经完全不同了，”这些区域中一些称为卫星区域的部分，在某些形式的癌症中存在异常，“因此，在这些区域中发生了很重要的事情。”Miga认为，对这些基因组中尚无法企及的未知之地进行测序，“是人类遗传学和基因组学的最后一片荒野。”

George Church在五月份的会议上提到合成基因组的工作，以及上周末国际干细胞研究学会的会议上也一直在强调这一点。他说，大多数未测序区域，“与衰老和非整倍体（即染色体数量异常，如唐氏综合症）存在有某种关联”。Church估计，人类基因组还有4％至9％尚未测序。Miga认为是8％。

（George Church）

造成这些测序结果的空白间隙（或者漏洞）的原因是：DNA测序机器在测序基因组时不像人类读书那样从第一个字看到最后一个字。相反，他们首先随机地切碎多个拷贝的23对染色体——这23对染色体总共约有30亿个“字母”——这样机器就不会因为“一口气读这么长的序列而累死”。在人类基因组计划期间，随机切碎产生的片段中大概包含1,000个碱基（Sanger测序），在当今的NGS测序平台中随机切碎产生的片段约为数百个碱基）。这些片段相互重叠。用计算机可匹配重叠，将片段组装成正确的顺序。

但是如果这些片段包含大量重复的段，如TTAATATTAATATTAATA，这种组装就很困难，甚至无法组装。“问题在于，当你拿到相同序列的区域，很难组装，”Lander说，就像拼图游戏中遇到显示同样蓝天的拼图碎片时。

2004年，人类基因组计划报告说，人类基因组序列中有341个空白间隙。多数的空白——其中250个——位于每条染色体的主要部位，即维持生命运行的蛋白质的基因所在之处。这些空白间隙很小。只有几个空白间 - 最新计数是33个 - 位于每个染色体的着丝粒（染色体两个部分连接之处）和端粒（染色体末端的帽）上或附近，但这33个空白间隙大小，大约是那250个空白间隙总和的10倍之长。

这使得着丝粒区域就像基因组里未知的曲折起伏的河流。华盛顿大学的Evan Eichler表示，每个染色体都有这样的难以测序的重复元件 -就像是DNA语言中的结结巴巴的地方 - 例如其中包括一段臭名昭着的、长达171个字母的、末端回文重复达数千碱基的片段。

现任麻省理工学院和哈佛大学Broad研究所所长Lander说，在人类基因组计划开始时就“非常清楚，这些高度重复的序列对现有技术来说是无法对付的。当时并不算一个很大的困扰，因为他和其他项目负责人期望下一代科学家找到一个解决方案。这个问题到现在仍没有真正解决，部分原因是没有太多的动机去一对一定位映射这些区域。 “我不确定，有点怀疑，这些位置是否真的对于疾病来说很重要，但也许我这样说是因为我们还没法读到这些序列。” DNA重复序列是否致病取决于什么？

（Eric Lander）

然而，随着新的测序技术已经能够帮助科学家去窥视这些未测序的领域，他们已经看到，“这些难以测序的区域内经常包含具有重要作用的基因，”Pacific Biosciences的董事长兼首席执行官Michael Hunkapiller说。PacBio是第三代DNA测序仪生产商。（Hunkapiller以往的显赫战绩包括1998年曾聘请文特尔到他的新公司Celera Genomics，以一私人公司之力单挑由美国政府支持的人类基因组计划，双方展开激烈竞争，最终政府支持的人类基因组计划居然没占到优势，以克林顿总统出面协调，按双方平手共赢收场，嘿嘿，厉害。）

Hunkapiller说，PacBio以增加测序读长（可读取及组装的DNA片段之长度）为终极奥义。越长的读取片段，其效果就像放大拼图块一样——即使这些拼图块仍然包含很多重复的“蓝天”（拼图游戏中大片非常相似、没啥特征的区域），更大的读出序列长度使得它们更有可能包含一些足够新的信息，使得它们更容易组装。 Hunkapiller说，PacBio的当前最大DNA读长约为6万碱基，平均读长为1.5万个碱基对。相比NGS100多到250bp的短读长，优势不言而喻。

Lander说：“有了这么长的测序读长，你可以通读很多这些令人讨厌的[未测序]区域了。”

这看起来越来越像一个值得的事情，不仅因为未测序区域可能含有实际与制造蛋白质相关的基因；有证据表明，非基因部分 - 特别是DNA重重复复或者断断续续的部分 - “显然对疾病有影响，”Hunkapiller说。一个人与另一个人之间的“基因组差异”部分有四分之三是这样的结构变异”，而不是过去一直特别受关注的单碱基差异（SNP）。早在2007年的一篇文章中，文特尔（现为Human Longevity Inc.公司董事长）及其团队也表明，造成人与人之间的差异的，更多是这种结构变异，而不是单碱基差异。

90％的结构变异体被漏掉了

Eichler和他的同事去年报道，约90％的结构变异体，其中的绝大多数在人类基因组计划、以及其后的1000人基因组计划的测序中“被漏掉了”！

Hunkapiller说，这些基因组中“结结巴巴的”重复区域之所以可能有特别不同寻常的影响力，在于这些重复的DNA可以移动，拷贝自己的副本，翻转它的方向，或者做其他变化，因而“可以有相当戏剧性的功能效果”。另一方面，Miga说，围绕着丝粒周围的、被称为卫星的重复元件，可能导致分裂细胞发生癌变，因为它们可能破坏整个基因组的稳定性。

当斯坦福大学的研究人员试图寻找一个年轻人的神秘疾病的遗传原因——导致非癌性肿瘤在其整个身体内生长时，他们使用常规的全基因组测序没有发现异常；但是，PacBio机器的“长读测序”能够找到结构变异并马上发现了问题所在。

这些重复区域甚至可能是“使我们成为人类的根本原因”。 Eichler说，这些复杂重复中的部分显示出对于更高级的神经适应功能的演变——也就是大脑发育来说非常重要。称为ARHGAP11B的基因是由一个这样的重复产生的，导致皮质发育出支持复杂思想的无数褶皱; SRGAP2C也是重复的，引发大脑发育。

Eichler说：“这些是在过去几百万年间在我们谱系中发展出来的新基因。相同的重复也可以产生“与自闭症和智力障碍等神经发育障碍相关的DNA重排”。

“完成顺序！”本该成为却没有成为一个战斗口号。文特尔说：“我可不会闭着眼睛瞎说我们不需要担心这些没测序的区域。”开发这些还未开垦的处女地，很可能将会带来新的一波研究热潮。

短读测序的NGS费用下降，使得在测序技术临床检测应用中异军突起，催生了一大波以针对已知序列测序为核心的精准医疗的热潮。而自从今年年初PacBio重新获得了进军临床的机会，加上长读测序费用也在迅速降低，长读测序技术在结构变异检测、表观遗传分析等方面的优势，亦使得其在临床的应用成果已经迅速出现，这势必将给目前尚未决的遗传病研究和精准治疗带来焕然一新的变化。

斯坦福大学借助PacBio首次临床全基因组测序揭示短读取NGS未能发现的遗传病结构变异