来源:西湖大学
一切要从六个 「 脑 」 说起。
博士研究生宋立阳被导师杨剑叫到办公室。门口,杨剑快速在白板上画出一个 「 六宫格 」。
「 这里有六个脑,精神分裂症、抑郁症、自闭症、癫痫、多动症,以及其他与大脑相关的疾病,」 他语速很快,显然有点兴奋,「 与这些疾病最相关的细胞分布在哪里,我们能不能找出来?」
那是一个初夏的夜晚。
此后的时间里,白板上的设想一步步付诸实践 —— 他们开发出一种新的方法,绘制出一张从疾病到细胞空间分布的 「 导航图 」,定位到了精神分裂症、抑郁症等复杂疾病(性状)的相关细胞及其空间分布。
他们是怎么做到的?
北京时间 2025 年 3 月 20 日,西湖大学、西湖实验室、未来产业研究中心杨剑课题组在 Nature 上发表了这篇题为 Spatially resolved mapping of cells associated with human complex traits 的研究论文,向全球科学家开放了这项名叫 gsMap 的新方法。
论文链接:
https://www.nature.com/articles/s41586-025-08757-x
大脑这团迷雾
杨剑画的 「 六宫格 」 里,写满了晦暗的名词。
精神分裂症、抑郁症、自闭症 …… 哪怕用上当今世界最先进的医学影像技术,都无从知晓病因。
不止精神类疾病,很多复杂疾病都是这样,病变往往不会表现得如斑块、结节、囊肿那么显著,而是悄悄发生在更隐秘的角落里。就像卫星图像已经可以精细到街景,但仍然无法告诉我们,这个世界何处正在经历一场经济危机。
所幸,硬币总有另一面。
尽管大脑始终保持着 「 人体中最神秘器官 」 的设定,但事实上在公共数据库中关于大脑的数据已经相当丰富了。
而对于杨剑实验室来说,有数据,就能想办法。
杨剑实验室,又叫统计遗传学实验室,最擅长在海量的数据中找出复杂疾病(性状)与遗传变异之间的关联,并据此寻找潜在的治疗靶点基因。他们依靠一台台电脑和背后强大的服务器,找数据、写代码、跑运算。
过去,他们最常用的数据来自全基因组关联研究(Genome-wide association study, 简称 GWAS)。
我们知道,人的行为特征比如爱喝咖啡,生理特征比如高矮胖瘦,以及更容易得什么病,大多受到基因的影响,要不为什么会说 「 刻进 DNA」 呢。科学家通过 GWAS 扫描数百万人的基因数据,寻找复杂疾病与基因变异之间的关联。
但这些基因变异在我们身体的哪个角落发挥作用呢?
没有人知道。
尽管 GWAS 成功鉴定了大量与复杂疾病和人体特征相关的遗传变异,但它无法解释这些变异如何通过人体组织中哪些特定位置的细胞影响疾病的发生和发展。
直到一项全新技术 —— 空间转录组(Spatial Transcriptomics, 简称 ST)的出现。
这像是一张 「 地图 」。科学家们利用这项技术,不仅能够 「 认出 」 特定的细胞类型,还能 「 追踪 」 到这些细胞在组织中原本所处的位置。
这组积木图一目了然,每一块积木代表一个细胞:传统的 RNA 测序也能描绘生物样品的基因表达谱,但所有细胞都混在一起。
单细胞 RNA 测序稍微好一点,能把这些细胞分门别类,但还是堆在一起。
到了空间转录组技术,终于可以还原出这些细胞原本所处的位置
* 图片来源 @BoXia7
「 每个细胞都应该有一组活跃表达的标签基因,这组基因就像是细胞的身份证,反映了细胞的类型、状态、空间位置等信息。」 杨剑和宋立阳讨论,GWAS 关联了复杂疾病与特定基因,ST 关联了特定基因与细胞。「 我们能不能开发一个方法,以基因为桥,把两头的疾病和细胞关联起来?」
也就是说,把 「 地图 」 升级成能够找到疾病相关细胞的 「 导航图 」。
以基因为桥
这是一招很妙的棋,一旦落子,局势豁然开朗。
如果 GWAS 叠加 ST 真能像他们想象的那样,关联起复杂疾病和对应细胞,那岂止是眼前这六个 「 脑 」,更多复杂疾病,都能找到与之相关的细胞,并描绘它们的空间分布。
第一版 「 导航图 」 很快搭建完成,但打击接踵而至。
直接整合 GWAS 和 ST 的数据后,他们几乎无法找到与复杂疾病显著相关的细胞。研究团队反复尝试,最后将问题锁定在 ST 数据上。「 噪声高,还很稀疏。」
这和目前的 ST 技术有关,我们尝试想象一个场景 —— 当我们用一台分辨率有限的望远镜观测星空时,会错过一些微弱的星光,这是 「 稀疏性 」;也会捕捉到一些光晕或散光,也就是 「 噪声 」;甚至可能会将邻近的星体误认为同一颗星星,即 「 数据混杂 」……
美国非虚构作家 Richard Preston 在《血疫》中说:「 在生物学上,不存在百分之百肯定的事情,一切都那么复杂,一切都千头万绪,每当你以为自己搞懂了什么,剥开一层障翳,却发现底下还有更深一层的复杂结构。」
为了克服这个难关,博士研究生陈文浩,也加入到这项研究中来。
团队商量,打算引入图神经网络(Graph Neural Network, 简称 GNN),一种人工智能方法,对数据进行降噪和平滑处理。
优化后的第二代 「 导航图 」,在小鼠胚胎中展开了又一次 「 内测 」。
结果显示:
与智商强关联的细胞,主要分布在大脑;与血红蛋白浓度相关的细胞,集中在肝脏;而与身高最相关的细胞,则分布在软骨中。
三次测试的对应关系,都符合生物学 「 常识 」。
「 内测 」 成功!
不仅如此,这也表明 gsMap 不受物种的限制,可以将人类的 GWAS 数据映射到模式动物的 ST 数据,从而帮助我们在模式动物中找到与人类疾病相关的细胞,为建立更好的疾病模型提供了可能。
他们为这张 「 导航图 」 起了一个名字,叫 gsMap——genetically informed spatial mapping of cells for complex traits。
定位 「 藏身之处 」
现在,让我们回到最初杨剑在白板上画的六个 「 脑 」。
基于公共数据库中的大脑 ST 数据(涵盖小鼠、食蟹猴和人类三个物种,共 174 张切片),由 gsMap「 导航 」,研究团队的注意力很快聚焦到 「 谷氨酸能神经元 」 身上。不论是精神分裂症还是抑郁症,都与这种神经细胞有显著关联。而同样是谷氨酸能神经元,对应不同疾病时,它的分布位置是不同的。
与智商、精神分裂症和抑郁症相关神经细胞在成年小鼠大脑中的空间分布
先来看精神分裂症。