古代希腊哲学家苏格拉底曾提出人生的终极问题 ——
我是谁?我从哪里来?我要到哪里去?
如果这个时候,有一本「家谱」,我们便可以沿着脉络,找到自己的来处。
与人一样,在生命的微观世界里,每个细胞也有这样一本神秘的「家谱」,记录着细胞的「身世」与「传承」。伴随着分裂或者分化,细胞逐步形成了不同类型的细胞和组织,有的成为了神经细胞,构建起复杂的神经网络;有的则变成了肌肉细胞,为身体的运动提供动力;还有的分化为血细胞,负责输送着氧气和营养物质 ……
这本细胞的「家谱」被称为细胞谱系,对于理解生命的发育进程和疾病的起源发展十分关键。
细胞谱系记录了个体内细胞分裂的历史
2025 年 1 月 16 日,西湖大学生命科学学院、西湖实验室王寿文团队与李莉团队合作,在
Nature Methods
上发表题为
「High-resolution, noninvasive single-cell lineage tracing in mice and humans based on DNA methylation epimutations」
的最新成果。他们在单细胞谱系追踪领域取得了突破性成果,开发了一款谱系追踪新计算工具 MethylTree。这款工具无需基因编辑,就可以精准地、以多组学的方式追踪细胞谱系,开启了非侵入式谱系追踪的新篇章,为研究人类组织发育、疾病发生机制和干细胞疗法提供了很多可能性。
论文截图
论文链接:https://www.nature.com/articles/s41592-024-02567-1
当一颗细胞发问:我从哪里来?
源起 19 世纪末的显微镜观察和记录,关于细胞谱系的研究已经过了一个世纪,目前诞生了很多研究细胞谱系的方法,但依旧存在一些缺陷 ——
例如,有些方法需要对细胞 DNA 进行编辑,不管是从伦理还是技术的角度,都不是很成熟,因此并不适用于人体研究;而那些不需要直接编辑细胞的方法,则要依赖于罕见的体细胞 DNA 突变(突变概率极低,仅为 10-9per nt/division),不仅对技术的要求非常高,并且也非常昂贵(大概每个细胞要 200 美元)。
因此,面对这些问题,研究团队一直想开发出一款高效、精准、多组学的谱系追踪新方法。
突破点在哪里?DNA 上一个常见的表观遗传修饰方法,进入了研究团队的视线。那就是甲基化。
化学概念上,甲基化是指从活性甲基化合物上将甲基催化转移到其他化合物的过程。而在 DNA 上,甲基化一般发生在胞嘧啶-磷酸-鸟嘌呤位点(CpG),经过酶的催化,胞嘧啶(C)会转化为 5-甲基胞嘧啶(5mC)。
那么,DNA 发生甲基化有什么用呢?它的主要作用就是调节基因的表达,有时能关闭某些基因的表达,有时又会诱导基因的重新活化和表达。想象一下,你有一本非常复杂、信息繁多的生命之书,书里蕴藏了浩如烟海的生命信息,有些章节需要在特定的时间被读取,而有些章节则需要在特定的时间被忽略,甲基化就好比一个书签,它们不会改变书的内容,但会告诉你哪些章节现在应该读,哪些章节可以暂时忽略。
而这种修饰方法有一个特点:有克隆记忆。
这个发现源自王寿文和李莉之前的研究。2023 年末,他们在 Cell 上发表了一个重要成果 ——DNA 甲基化在细胞发育分化的进程中能很好地保留细胞的谱系信息。也就是说,细胞在分裂和分化过程中,会保留这些甲基化「书签」,这就像是细胞在「记忆」它的历史和身份。这些特殊的「书签」可以告诉我们细胞来自哪个分支。
并且,相比概率极低的体细胞 DNA 突变,DNA 甲基化数据获取相对简单、遗传稳定性强且表观突变率概率高,突变概率是 DNA 突变的 106 倍。
如果还搞不懂什么是 DNA 甲基化,没关系,我们可以简单概括一下:有很多途径来探寻细胞的「前世今生」,但「DNA 甲基化」这个特征十分明显,也十分稳定,非常适合作为「寻亲线索」。
于是,研究团队的下一步,就是利用细胞的甲基化特征,开发出一套算法。
图 1:单细胞扩增过程中 DNA 甲基化突变的积累。
看似是个生物问题,核心其实是数学问题
在这项工作之前,几乎没有人相信甲基化上的表观突变可以被利用开发成一个普适的谱系追踪工具。
因为,其中面临很多挑战 ——
比如,单细胞 DNA 甲基化测序通常仅覆盖基因组不到 5% 的区域,因此大部分基因组区域的数据都是缺失的,这种大批量数据缺失的问题通常被称为稀疏性。利用这些数据研究细胞谱系,就像试图从一张破碎的拼图还原整个画面,极具挑战。
再如,不同细胞类型具有特定的甲基化模式。我们在中学生物课上都学习过,细胞发育过程会发生分裂和分化,分裂的细胞类型不会发生变化,而分化的细胞后代在结构和功能上会有很多差异。这就意味着同一个谱系的细胞可能会拥有截然不同的 DNA 甲基化。并且,在细胞的不同发育阶段,甲基化也有可能发生变化。另外,不同的细胞可能有着不同程度的噪声污染,从而直接影响信号的提取。
看来,用好 DNA 甲基化这个「书签」也没有那么容易。
在不断优化迭代算法之后,研究团队成功开发出了一套谱系追踪新的计算工具,命名为 MethylTree,Methyl 就是甲基化的意思,意为利用细胞甲基化的特征来追踪细胞树。MethylTree 不仅巧妙地避开了缺失值问题和噪声干扰,也成功地消除了不同细胞类型特有的 DNA 甲基化差异带来的影响。
开发了这套计算工具之后,还有一个必不可少的步骤:验算。
一起来看看这套程序的正确率如何。
首先,计算机模拟。在一组覆盖率仅为 5% 的稀疏基因组数据中,MethylTree 成功重建了所有细胞的分裂历史。
其次,真实生物系统验证。研究团队选取了现有的人类 HEK 293T 细胞数据进行谱系追踪实验,MethylTree 成功区分不同谱系来源的克隆细胞,准确重建了它们的分裂历史。
接下来,复杂生物系统验证。研究团队选用小鼠进行实验,MethylTree 同样成功识别了所有 52 个预先标记的多细胞克隆,揭示了这些克隆的分化路径。
最后,团队在人的造血系统、早期胚胎发育、癌症等多个实验体系中再次验证了 MethylTree 的准确率接近 100%!
图 2:MethylTree 成功重建人类脐带血的谱系。MethylTree 谱系热图中的克隆(右图)与实验中慢病毒 LARRY 定义的克隆(左图)一致。
物理 → 生物,交叉研究源自六年前
为什么来自生命科学学院的团队能够解决这样一个学科交叉的问题?
这里需要插播一下王寿文加入西湖大学前的故事。
其实,在博士后工作之前,王寿文并没有接触过生命科学领域的研究,2009 年到 2018 年,从本科到博士阶段,他一直在清华大学工程物理系学习。
在博士的最后一年,他前往美国普林斯顿大学访问交流,在研究了一些生物与物理交叉的问题之后,便对生物学产生了浓厚的兴趣。
在发育过程中,细胞会选择变成的细胞类型,这是细胞的命运选择。每个细胞有自己的选择,每个人也有自己的选择。于是,在博士毕业那年,王寿文跟随兴趣,选择前往哈佛大学医学院系统生物学系进行博士后工作,利用高通量谱系追踪研究细胞的命运选择。
然而,转行并不没有想象的那么容易。从理论物理跨行到生命科学,彼时的王寿文在这方面的知识可能不比高中生好多少。
来到哈佛大学的第一年,王寿文学着做从来没有接触过的生物实验,结果让人挫败,也不禁对自己产生怀疑,究竟是否还可以在生物学领域继续做下去。
大学本科期间,王寿文辅修了计算机专业,理论物理的学习锻炼了他的数学能力。他感觉,突破口可能在这里。经过一番思考和尝试,王寿文发现,高通量单细胞谱系追踪数据分析这个研究方向,需要强大的算法支持,而这正是自己的长处,他可以继续利用之前的所学在新领域发光发热!
自此,他开启了一片新天地 —— 谱系追踪的算法开发。他首先开发了 CoSpar 算法
(Nature Biotechnology, 2022),
后又与当时在波士顿儿童医院的李莉合作,开始接触单细胞 DNA 甲基化测序和多组学谱系追踪技术,并意外发现了 DNA 甲基化的克隆记忆性
(Cell, 2023),
从而萌生了开发 MethylTree 的想法。
2023 年 3 月,王寿文加入西湖大学、西湖实验室,开始组建自己干湿结合的研究团队。MethylTree 开发工作的两位第一作者西湖大学博士生陈孟旸和傅瑞江就在那时加入了他的实验室。生物学背景的陈孟旸负责验证实验的部分,物理学背景的傅瑞江参与数据分析的部分,导师王寿文负责 MethylTree 的算法与软件,并与后来加入的李莉一起指导陈孟旸完成了实验验证 …… 闻道有先后,术业有专攻,就这样,一支多学科交叉的科研小队组建了起来。