利用远古 DNA 来揭示历史真相,这项技 术带给了我们非常大的惊喜,也给其它相 关领域带来了很大的帮助,比如如何利用 损毁严重的(当代)DNA 样品等。
作为一个物种,人类已经存在了非常长 的时间。最新的研究发现,人类存在的时间甚 至要比我们之前估计的还要早 10 万年之久。 最近,一个科研团队提出,他们可能发现了 最早的人类祖先,即距今大约 30 万年前的摩 洛哥 Jebel Irhoud(Jebel Irhoud, Morocco) 人。以前,科研人员们通过化石将远古的历 史一片片地还原出来,呈现在我们面前。如 今,我们还可以从化石中提取 DNA 分子,对 其进行高通量测序和分析,再利用计算机技 术重新构建出一个 DNA 分子化石。对此,美 国哈佛医学院(Harvard Medical School)的 人群遗传学家及进化生物学家 David Reich 认 为,这是当今最神奇的数据了。丹麦哥本哈根 大学附属丹麦国家历史博物馆地球遗传学中 心(Centre for GeoGenetics of the Natural History Museum of Denmark)的进化生物学 家 Tom Gilbert 也认为,很多时候,远古基因 组学(paleogenomics )技术是我们了解远古 历史真相的唯一手段——就好像我们真的回到 了过去一样。而不是像以前那样,仅仅只能去 猜想过去可能是什么样的。因为远古 DNA 已经 在大自然里保存了非常长的时间,所以它可以 带给我们很多有关基因组学、表观基因组学和 地球历史等各个方面的有用信息。大约在 7000 年至 4.5 万年前的远古人类 DNA 样品都曾经帮 助科研人员们发现了很多与欧洲人类历史相关 的非常重要的信息。我们可以从远古骨骼、牙 齿、毛发、蛋壳、粪便,甚至是土壤等样品中 提取 DNA 分子。如果没有骨骼化石,科研人 员们还会对多个欧亚更新世时期(Eurasian Pleistocene-era)的洞穴发掘地点的土壤进行 仔细的筛查,在其中寻找远古人类的 DNA 分子。
在分析这些远古人类的 DNA 分子时,科 研人员也会参考当代人的基因组参考序列。不 过据美国加州大学圣克鲁兹分校(University of California at Santa Cruz)的进化生物学 家 Beth Shapiro 介绍,对于很多物种来说, 哪怕亲缘关系非常接近,他们之间的进化距 离也是相当遥远的。比如已经灭绝的剑齿兽 (Toxodon )就是一个很好的例子,我们根本 就不知道哪个物种才是它们的亲戚。不过不论 是研究人类,还是剑齿兽,最大的困难都是远 古 DNA 分子的质量太差了。
质量非常糟糕,但又十分迷人的远古 DNA
据 Gilbert 介绍,目前我们提取远古 DNA 样品的效率还是非常低的。科研人员们往往需 要大量的原料,才可以进行测序研究,构建出 全基因组序列,但这些原料又非常宝贵,所以 必须尽可能少地使用。要把握这个平衡真是相 当不容易。
据中国科学院北京古脊椎动物与古人类 研究所(Institute of Vertebrate Paleontology and Paleoanthropology in Beijing)的研究人 员 付巧妹(Qiaomei Fu)介绍,化石里可能含有非常少 的内源性远古 DNA,但有些化石里根本没有这 些 DNA 分子。Fu 等人正在研究亚洲史前人类问 题。
据德国马克斯普朗克人类进化研究所 (Max Planck Institute for Evolutionary Anthropology in Leipzig, Germany)的进化生 物学家 Matthias Meyer 介绍,DNA 保存的时间 越长,就会发生更多的化学变化。这些变化在 测序分析时就会表现为 DNA 序列上的改变。在 没有出现高通量测序技术之前,我们对这些变 化了解得还不够深入,不过后来我们发现,这 种变化就是胞嘧啶变成了尿嘧啶,从而在测序 时表示为胸腺嘧啶。
远古 DNA 分子会随着时间流逝逐渐降解 为更小的片段,这些片段的末端都不是两条 链一样长的平端(blunt-ended),而是两条 链不一样长的粘性末端(sticky-ended)。 Meyer 指出,这些粘性末端具有非常高的脱氨 基(deamination)速度,因此,它们很容易 变成尿嘧啶。
不过 Gilbert 表示,我们可以使用尿嘧啶 DNA 糖基化酶(uracil-DNA glycosylase)等 工具酶来处理这些远古 DNA 分子,将 DNA 分 子在尿嘧啶位点切断。尿嘧啶积累的速度比较 慢,而且与温度和湿度都有关系。那是因为胞 嘧啶转变成尿嘧啶是一个水解反应,因此,温 度越高、湿度越大,就更容易发生该反应,生 成更多的尿嘧啶。
Shapiro 表示,我们过去总是抱怨这些 DNA 分子的末端有损伤。但是现在,我们却开 始利用这些尿嘧啶来确认 DNA 样品是不是远古 DNA。Reich 将这种 DNA 损伤模式称作“完 整性检查(sanity check)”。他们会对 DNA 分子进行严格的检查,并只对这些明确的远古 DNA 进行研究和分析。
应对样品污染问题
样品污染是一个大问题。Meyer 表示, 在过去,尤其是在处理同时存在现代人遗留物 的样品时,我们总是对样品的纯洁性表示怀 疑。Gilbert 也认为,有好几个非常知名的问题 都与样品污染有关。我们在操作骨骼标本,或 者进行 PCR 扩增操作时,都有可能对样品造成 污染。不过这都是在高通量测序技术诞生之前 的问题了。
目前科研人员使用无菌发掘技术(sterile excavation)、非常仔细的实验室操作流程, 以及洁净操作间、独立的 PCR 操作间等手段来 防止样品被污染。Gilbert 指出,虽然这并不意 味着就彻底解决了样品污染的问题,但是我们 至少可以将这作为一个因素加以考虑了。
尽管远古 DNA 这种标志性的损伤方式有 助于帮助科研人员们判断样品是否存在污染的 问题,但实际情况却并非那么简单。这种损伤 更常见于气候较温和和永冻地区发掘出的样 品。在其它区域发掘出的样品则不一定遵循这 一规律。2014 年,有科研人员报告称,他们对 墨西哥尤卡坦半岛一个山洞中发掘出来的骨骼 标本(估计该样品距今 1.2 万年至 1.3 万年)进 行了分析。在对牙齿和骨骼标本的线粒体 DNA 进行分析之后,他们发现远古美洲人和现代美 洲土著人之间存在关联。
不过 Meyer 对这一结论表示了怀疑,因 为高通量测序并没有找到远古 DNA 的踪迹。 骨骼,或者采样设备可能被现代美洲土著人的 DNA 给污染了。在一个出版交流活动中,该研 究组辩称污染造成的 DNA 损伤也会表现为远古 DNA 的模样。他们认为,独立的复制事件的确 对于验证远古人类 DNA 非常重要,不过来自不 同发掘地点的标本也的确会发生各种各样还没 有被我们充分认识到的 DNA 损伤。
大家对这一类 DNA 损伤,以及其它 DNA 损伤也都还持有不同的观点,但是据 Shapiro 介绍,大家都赞同,比如骨骼中的绝大多数远 古 DNA 并不来源于那个骨骼所属的个体。大部 分化石其实都受到了大量微生物 DNA 的污染。 Gilbert 认为这一点非常讨厌,这会给分析工 作添加很多麻烦,同时也会耗费更多的科研经费。除非实验室配备了专门从事宏基因组学研 究的人员,才能够利用富集技术进行预测序, 并在测序完成之后对数据进行过滤分析。
富集人类 DNA 分子
微生物污染的问题让 Fu 和当时还在德国 普朗克研究所攻读博士学位的 Meyer 一起开发 出了一套解决方案,即利用杂交技术富集线粒 体和细胞核 DNA。富集远古 DNA 分子碎片需要 相互重叠的探针(overlapping probe),这就 限制了可以研究的基因组范围。为了解决这个 问题,课题组的科研人员们使用了寡核苷酸芯 片技术来构建探针文库,然后用这一系列文库 构建了一个超级探针文库。这就是 Fu 在 Reich 实验室做博士后研究期间,参与“冰河世纪欧洲项目(Ice Age Europe)”时采用的技术策 略。
化石记录显示,欧洲大陆第一次出现人类 踪迹的时间最早可以追溯到 4.5 万年前。科研人 员们将 51 个距今 7000 年至 4.5 万年前的远古人 的基因组数据集中到一起进行分析,并跟踪研 究了其中的遗传学变异情况。结果发现,散布 在欧洲大陆上的各个族群全都来自同一个共同 的祖先。不过这个祖先分枝最后却在不断迁徙 的过程当中被取代,进而消失了。大约 1.9 万年 前,也就是冰河纪末期出现了一支来自西班牙 地区的族群;大约 1.4 万年前,又出现了一支来 自东方的族群。
为了开展这项研究工作,科研人员们在 非常高等级的洁净间里提取 DNA 样品,以构建 测序文库。Fu 也使用了她们那套富集方法,用 液态杂交捕获富集技术得到了 39 万至 370 万个 SNP。她们为这些 SNP 位点合成了 52bp 长的寡 核苷酸杂交探针,然后用这些探针与远古 DNA 样品进行杂交。如果没有这种研究策略,那么 研究人员是不可能从被微生物 DNA 严重污染的 样品中分离得到远古人类 DNA 样品的。
Gilbert 认为,这种人类学研究工作非常 了不起。要开展这样的工作,研究人员必须时 刻牢记,他们得出的结论源自于并不那么完美 的实验样品,而且研究结果也仅仅只源自这些 实验样品。我们研究得越深入,才越能更好地 对过去得出的结论去粗取精。现在几乎每年都 会有新的、关于欧洲和澳洲人类学研究的发现 和数据问世。这是很正常的事情,因为这就是 科研工作的常态,不过这也意味着科研人员有 责任去谨慎地对待这些研究成果,并且要时刻 牢记,他们的研究结果可能并不来自石头。
Fu 建议在开展远古 DNA 实验时,一定要 时刻牢记,身为实验人员的你是“脏”的,随 时有可能污染实验样品,而且也非常容易造成 交叉污染。在进行计算机数据分析时,则需要 时刻保持警惕,这项工作非常容易出错,所以 一定要从多个角度,使用多种不同的方法反复 验证。
研究人员一共在欧洲大陆的 7 个考古 发掘点的土壤里发现了疑似尼安德特人 (Neanderthal)和丹尼索娃人(Denisovan) 的 DNA 样品,有多个国家的科研人员一起参与 了鉴定工作,其中富集线粒体 DNA 就是非常重 要的一个环节。因为有了该技术,研究人员就 可以在缺乏骨骼化石的情况下,发现远古人类 的痕迹。
据 Meyer 介绍,通常在一次考古发掘过 程中,研究人员都会发现数千块动物骨骼。 第一步工作就是了解这些 DNA 的保存状况。 Meyer 等人主要寻找哺乳动物的 DNA,他们在 猛犸象、野牛和鹿的骨骼中找到了很多 DNA 标 本。不过最让他们吃惊的是居然找到了这么多 的 DNA 样品——他们在 50 mg 的土壤里一共发 现了数万亿的 DNA 片段,这些 DNA 足以占满一 把牛排刀的刀尖。
在进行数据分析工作期间,他们将这些线 粒体 DNA 当作“诱饵”,从海量的 DNA 片段 中钓取相似的线粒体 DNA。这样既能够钓到尼 安德特人的 DNA,也可以钓到灵长类和巨猿的 DNA。丹尼索娃人或者远古人类的 DNA 序列都 可以与这些诱饵 DNA 进行杂交。后续的序列分 析工作可以进一步筛出人类的 DNA 信息。之前 的工作已经证实,我们可以从土壤里分离得到 远古 DNA,只不过比较昂贵而已。Gilbert 希望 测序的成本能够进一步降低,因为只有这样才 可以让更多的人进入这个领域,开展相关的分析和研究。
远古 DNA 研究让我们对智人(H . sapiens )又有了新的了解和认识。以前,我 们只知道尼安德特人、丹尼索娃人和其他的一 些早期现代人种。人类的种群源自另外两个距 今 50 多万年以前的物种,尽管这是两个完全独 立的种群,但是他们彼此之间也有杂交,我们 称之为混合事件(admixture event)。如今, 人体内的 DNA 也带有一些来自远古祖先遗传给 尼安德特人和丹尼索娃的基因。很多时候,远 古 DNA 分析工作还会让我们对化石做出新的判 断。
方法学上的改进
研究人员在西班牙阿塔普埃尔卡山 (Sierra de Atapuerca)的好几个洞穴中发掘 出 28 个远古人类的化石,它们都可以追溯到距 今 40 多万年以前。其中有一个洞穴叫做 Sima de los Huesos,就是化石坑的意思。这些化 石看起来很像尼安德特人的化石,但是线粒体 DNA 分析显示,这些化石来在丹尼索娃人的 一个分支,即尼安德特人在东部欧亚地区的近 亲。之后的细胞核 DNA 研究又发现,与丹尼索 娃人相比,这些远古人与尼安德特人的亲缘关 系更近。Meyer 认为,这些化石可能属于早期 尼安德特人的祖先,或者他们的近亲。线粒体 DNA 分析的结果之所以与细胞核 DNA 的结果不 一样,是因为这个族群非常复杂,其复杂程度要远远超出我们现如今的认识水平。
这些研究工作用到了一项非常关键的 技术,即单链测序文库制备技术(singlestranded sequencing library preparation)。 这种技术将 DNA 双链分子解离成单链分子, 然后构建成两个测序文库。这是专门为了研究 非常珍贵的痕量样品而开发的一套技术。当时 研究人员在一块骨骼化石里提取到了极微量的 DNA 样品,经过该技术研究发现,这是一块 丹尼索瓦人的骨骼。有了这种技术,测序底物 的含量有了量级上的扩增。Meyer 表示,这一 点非常重要,因为他们手头上只有一小块少年 手指头的指尖标本。这套测序文库制备方法彻 底改变了他们的工作方式,同时也极大地拓展 了他们的研究范围。他们课题组还在不断地改 进这套技术,并正在用这种技术构建尼安德特 人、丹尼索瓦人和其他远古人种的参考基因组 序列。
每一个细胞内可能都含有数百个线粒体 DNA 拷贝,但是在西班牙洞穴内发现的骨骼化 石里却只能找到极微量的 DNA。幸亏有了单链 DNA 测序文库制备技术,Meyer 等人才能够富 集得到足够的线粒体 DNA,以用于科学研究工 作。
尽管目前 DNA 测序的成本已经有了大幅 度的降低,但如果没有线粒体 DNA 富集技术, 还是无法利用那些 DNA 碎片来获取有价值的 DNA 序列。而且,大部分人并不会死在洞穴 里,他们只会留下非常少的有机物残骸,这就 意味着,科研人员们只能从大量的样品中分 离出极少量的人类 DNA。之所以使用线粒体 DNA,而不使用细胞核 DNA,是因为前者有助 于我们从其它哺乳动物,比如鹿和鬣狗的 DNA 中分离出人类的 DNA。
Meyer 等人最近又使用这种单链测序文库 制备技术,开展了新的尝试。他们以经福尔马 林固定过的 DNA 为样品作为测试对象(这些 DNA 都是被严重破坏的 DNA)。结果出乎预料 的好。与双链 DNA 测序文库制备技术相比,使 用单链测序文库制备技术可以获得更多的 DNA 样品,数量提升幅度达到了 3100 倍。这主要是 因为,使用传统的双链 DNA 文库制备方式时, 我们需要用到多个酶反应和纯化步骤,这些操 作都会使样品量减少;而单链 DNA 测序文库制备技术的样品使用效率更高。
另外一个原因就是,在单链 DNA 文库制 备策略中,大部分文库制备反应采用的都是固 态操作平台,即反应都是在磁珠上发生的。这 样一来,在更换缓冲液和酶时就不会丢失 DNA 样品,而且也省去了 DNA 纯化的步骤。经福尔 马林固定过的 DNA 实验结果告诉我们,这种单 链制备技术还可以用于很多我们之前认为无法 完成的任务。
在保留 DNA 短片段(17~20bp 的远古 DNA)方面,这种单链文库制备技术也更加有 效率。因为对于这么短的 DNA 片段,我们几乎 不可能正确地将它们拼接在一起,但这并没有 吓退 Meyer,他们的目标就是不断地开发出新 的技术,让不可能变为可能,他们也为此列出 了一份《愿望清单》。
愿望清单
在处理不到 30bp 的远古人类核酸片段 时,如果要将它与微生物 DNA 区分开,真的是 需要一点技巧的,不过计算机软件方面的进展 将有助于解决这个问题(详见文后《远古 DNA 计算机处理工具》)。清单里还有一项目标, 那就是远古 DNA 修复工作,比如修复断裂的远 古 DNA。Meyer 表示,如果我们能够将这些断 裂的 DNA 全都重新连接起来,那么就可以获 得更长的核酸样品,也就可以将更多短片段的 DNA 利用起来,对它们展开分析。
现在研究人员对远古 DNA 降解机制的认 识不断加深,同时业界也不断开发出了更多更 新的方法,这让我们得以从各种骨骼中获取更 多的 DNA 样品,了解到更多的信息。Shapiro 就曾经参与过一个远古 DNA 研究项目,他们发 现了一种新的远古 DNA 损伤模式。研究工作 中,他们使用了 Helicos Biosciences 公司(该公司已经倒闭)的测序平台。Shapiro 表示, 很难知道是否还可以发现更多的 DNA 损伤模 式,不过他们相信,随着测序技术的进步,一 定还可以发现更多的 DNA 降解方式。
Reich 在远古 DNA 研究工作中还发现了好 几个前沿的研究方向,其中之一就是开发出一 种敏感度更高的方法,以获得更加微量、更加 古老的 DNA 样品。还有一个方向就是远古 DNA 自动化分析技术,它可以让我们的研究工作效 率更高,同时成本也更低。
近两年来,Meyer 等人就一直在使用自 动化技术,这极大地提高了他们的处理能力。 据 Meyer 介绍,他们的效率至少提高了 10 倍 以上。他们实验室的液相操作平台(liquidhandling systems)几乎可以完成样品准备工 作中所有的移液步骤。Gilbert 也发现,越来越 多的实验室开始使用机器人和自动化设备,不 过他认为,这种方式是不是更好,现在还不太 确定。
Gilbert 表示,随着高通量测序技术成本 的不断降低,他们考虑可以在对远古人类基因 组进行测序时加大测序深度。不过加大测序深 度需要更多的测序样品,这就与目前效率还比 较低的 DNA 提取现状形成了矛盾。不过不论是 DNA 提取工作,还是测序文库制备工作,以目 前的处理能力,还都很难将它们提升到种群研 究的层面来加以利用。
虽然大量的远古 DNA 样品都来自化石标 本,但是令人沮丧的是,我们仍然无法从很多 化石标本中提取到任何的 DNA 样品,比如, 弗洛勒斯人(Homo floresiensis )的化石和纳 勒迪人(Homo naledi )的化石就属于这种情 况。
还有一些实验室在尝试开展重构远古生物 (比如远古野牛)表观基因组的工作。但这种 工作也需要大量的 DNA 样品,同时也会消耗大 量的 DNA 样品,因此不太适合用于样品来源稀 缺的远古 DNA 的研究工作。根据自然发生的碱 基损坏信息,以及手头上已经掌握的信息,科 研人员们根据自己的推测绘制出了尼安德特人 和丹尼索瓦人的基因组甲基化图谱。Meyer 认 为,远古人类 DNA 甲基化分析是可行的,但是 就目前的技术水平来看,只能针对远古骨骼化 石开展这类研究工作。他进一步畅想将现代人的骨骼基因表达数据与远古人骨骼的基因表达 数据进行对比。如果能够用大脑的数据进行对 比就更有意义了,可惜的是,目前还没有远古 软组织的标本可供分析。
远古 DNA 计算机处理工具
实验室其实有很多种软件可以对远古 DNA 数据 进行处理和分析。Gilbert 认为,计算方面最大的挑 战在于远古宏基因组研究,因为要真正认清远古宏 基因组和现代细菌污染这个混合物,还是相当困难 的。
远古 DNA 运算软件开发者 Alexander Seitz 正在德国图宾根大学(University of Tübingen)Kay Nieselt 实验室攻读他的生物信息学博士学位。据他介绍,经典的基因作图技术比较适用于处理较短的 DNA 片 段。科研人员们可以使用 BWA 或者 Bowtie 等计算机工具来开展人类 DNA 作图工作。对于比较特殊的远古 DNA,我们则可以使用 EAGER 或者 PALEOMIX 等工具,这些工具都可以将目标序列定位到参考序列中, 用于重建远古 DNA 序列。MapDamage 和 PMDtools 则可以区分某段 DNA 序列是远古 DNA 还是现代 DNA。
鉴定远古 DNA 基因组重排或基因缺失等信息则需要利用序列从头组装技术(de novo assembly),比 如使用 Seitz 和 Nieselt 参与开发的 MADAM 软件。据 Seitz 介绍,MADAM 软件可以提高远古 DNA 序列组装的 能力。不过在使用了富集技术后,我们无法发现遗漏的基因信息,因为相关的 DNA 片段在富集过程中丢失 了。
SOAPdenovo2 和 SPADES 是可用于处理没有相关参考序列的现代 DNA 样品数据的序列从头组装软 件。不过由于远古 DNA 都是短片段分子,因此,科研人员们在尝试使用 de Bruijn 图(de Bruijn graphs)等 方式提高软件的处理能力。
De Bruijn 图组装技术是将输入信号表示为以节点(node)和边界(edge)表示的图形信号。每一个 节点代表一个 k -mer ,即一个序列长度为 K 的核苷酸短序列。在两个节点之间用一个边界连接,表示这两个 节点序列之间有重叠。比如,如果节点 A 是 ATGCG,节点 B 是 TGCGA,那么他们之间就有一个边界相连, 即重叠的 TGCG。对于远古 DNA 序列,如何设定节点的长度非常关键,因为一个样品包含了各种长度的 DNA 片段样品。MADAM 软件采用了两层策略(two-layer approach)。首先,用多个不同长度的节点 de Bruijn 图将连续的序列连接在一起。然后,再将这些“长”序列继续拼接在一起,形成一个完整的序列。
Marx V. Genetics: new tales from ancient DNA[J]. Nature Methods, 2017, 14(8):771.
(来源:生命奥秘 Sep 29, 2017)