专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
目录
相关文章推荐
字节跳动技术团队  ·  无文本编码器仍能媲美CLIP!豆包大模型团队 ... ·  16 小时前  
字节跳动技术团队  ·  无文本编码器仍能媲美CLIP!豆包大模型团队 ... ·  16 小时前  
宝玉xp  ·  可以试试 AI 帮你做,推荐试试 ... ·  昨天  
爱可可-爱生活  ·  【Boltz-1:开源的生物分子相互作用模型 ... ·  2 天前  
宝玉xp  ·  //@油基岩屑:Yi-Lightning和G ... ·  5 天前  
爱可可-爱生活  ·  【AI Logo Generator:基于 ... ·  6 天前  
51好读  ›  专栏  ›  中国人工智能学会

AI 研习丨AI 与单细胞多组学数据分析

中国人工智能学会  · 公众号  · AI  · 2024-11-19 17:58

正文

文/ 李敏,郑瑞清
摘 要:以当前生物医学领域最为热门的单细胞多组学数据为背景,总结了人工智能技术在数据预处理、细胞表示、聚类和轨迹推断,以及生物网络分析的现状,希望为未来单细胞多组学数据分析领域的人工智能算法的发展和创新提供借鉴和启发。
关键词:人工智能;单细胞;多组学;细胞表示;细胞异质性;细胞通信

0 引言

2017年,继“人类基因组计划”之后的又一个大型国际合作项目“人类细胞图谱计划”(The Human Cell Atlas)启动,该项目旨在绘制出一个完整、精细的人体细胞图谱,而影响这一计划成功的关键技术就是单细胞组学技术。单细胞组学技术打破了传统测序技术仅能获得一组混合细胞中平均生物信号的局限性,将测序的分辨率提升至单个细胞水平。Science、Nature、Nature Methods等国际顶级期刊多次将单细胞测序技术列为年度技术,并认为“单细胞测序技术有望在未来10年改变生物学和医学研究格局”。我国也将单细胞组学技术列为重点发展技术,多个“十四五”国家重点研发计划中都将单细胞组学技术列为关键性生物技术,充分体现其在生物医学领域的战略性意义


单细胞组学技术的发展积累了海量的单细胞组学数据,包括单细胞转录组、表观组、蛋白质组等,这些组学数据代表的生物含义不同、来源平台和批次不一、表现形式不一,为单细胞数据分析提出了全新的挑战。另一方面,人工智能尤其是深度学习模型的蓬勃发展,在计算机视觉、自然语言处理,以及一些生物医学领域已经取得了重要的突破。人工智能技术强大的计算能力和非线性拟合能力从大量的数据中分析和总结潜在规律,从而完成一系列复杂的下游任务。当人工智能技术遇到单细胞组学数据,能充分发挥数据的内在价值,从而将单细胞领域的研究推到新的高度。因此,本文围绕单细胞组学数据分析中几大关键科学问题,重点介绍基于人工智能技术在其中的应用情况和发展趋势

1 AI助力基于单细胞测序数据的预处理任务

单细胞不同组学数据相比于传统的组学技术具有更高的稀疏性、更高的批次效应和表达波动,如何从这样的高噪声数据中挖掘其中有意义的生物信号,并进行数据去噪和组学数据整合是整个单细胞数据分析的第一步。本章从生物信号检测、缺失生物信号填充、批次效应去除和组学匹配三个方面阐述AI技术对单细胞组学数据预处理产生的影响。

1.1. 生物信号检测
大部分单细胞组学技术受限于细胞状态、测序深度、消化技术等因素,获得的生物信号普遍存在稀疏性,这对很多下游分析造成了困难。相比于对生物特征 - 细胞矩阵进行填充,利用人工智能技术提高从原始读数中检测生物信号的能力能更加直接解决这个问题。这类研究大部分都需要检测生物信号邻域的序列信息和模式。其中,DeepCpG采用了一种基于卷积神经网络的预测甲基化区域方法,包DNA序列特征提取、CpG邻域特征提取以及整合模块,从单细胞甲基化测序scBS-seqscRRBSseq 数据中有效识别甲基化信号。AtacWorks使用残差网络架构学习低覆盖单细胞ATAC-seq和高质量单细胞ATAC-seq数据之间的内在联系,从而使模型能从少量读数和细胞的数据中准确识别大部分染色质开放区域。另一个方法 SCAPTURE 采用一个卷积和循环神经网络相结合的学习模型DeepPASS从单细胞 RNA-seq 数据中识别RNA的可变多聚腺苷酸化。

1.2 缺失生物信号填充
相比于传统的Bulk测序技术,单细胞组学技术在带来分辨率提升的同时,也存在测序深度低、测序覆盖度不均匀、测序片段丢失等因素导致原本真实存在的生物信号未被检测到,在单细胞研究中这类情况被称为dropout。大量的dropout事件会对各类下游分析任务造成严重的影响,因此识别这些dropout事件并进行填充是校正单细胞组学数据的重要预处理环节。

目前,针对单细胞转录组数据的填充工具已经十分成熟,很多方法在学习细胞表示的同时,通过数据生成和重构来还原其中潜在的dropout部分。例如,基于常规自编码器的填充方法AutoImpute在计算重构损失时加上一层掩码矩阵,将重构损失限制到只对非零值进行计算。另一些方法通过挖掘细胞内生物分子之间的关联性来进行填充。例如,DeepImpute采用分而治之的策略,为每个目标基因选择最相关的一个基因集合,通过构建多个神经网络并行处理数据集以提高填充效率。不同组学数据之间的互补性也为dropout填充提供新思路。其中,cTP-net提出了一个迁移学习框架,通过两层生成模型分别对单细胞转录组数据去噪并用来估算细胞表面蛋白质的丰度值。


1.3 批次效应去除和组学匹配
不同组学和批次的单细胞组学数据整合能产生更大规模的数据,从而提供更加丰富的信息,有助于发现稀有细胞类型,以及细胞命运决定过程的关键状态等。

目前单细胞数据整合目标主要可以分为三类,即单组学内多批次整合(批次效应去除)、单细胞多组学特征融合和不同组学多批次整合(不同组学匹配),其中批次效应去除和不同组学匹配最具挑战性。以批次效应去除为例,在学习细胞表示时需要模型能将不同批次中相同的细胞类型嵌入到一个共同空间。一些对比学习模型利用互最近邻算法寻找批次间的细胞锚点,并定义批次间的锚点对为正样本对,利用对比损失获得锚点间的一致低维表示,代表方法有INSCTMAT2。而将生成模型用于水平整合时,定义不同批次内细胞的匹配关系也有助于去除批次效应,如iMAP先利用互近邻算法找批次间的细胞对,并利用对抗学习模型学习将一个批次内的细胞表示,根据预先定义好的匹配关系映射成与另一批次相似的细胞表示。如果直接学习批次间所有细胞的相互映射,不同批次间的细胞组成不完全相同时容易校正过度。

不同组学匹配表示两类单细胞组学数据来源于相似背景,但组学类型不同并且批次也不同。在进行组学间匹配时,部分方法会预先将所有组学转换成统一的组学特征,如ATAC数据转换成基因表达矩阵,此时便可以参考水平整合模型设计思路进行对角整合;而另一类对角整合方法会保留所有组学的原始特征,然后用不同的编码器学习多组学数据统一低维表示,如GLUEGLUE在整合时为了约束不同组学的编码器所学习的特征,需要对组学间的异构特征通过生物知识定义先验关系。

2 AI助力基于单细胞测序数据的细胞表示

单细胞不同组学数据相比于传统的组学技术具有更高的稀疏性、更高的批次效应和细胞是生物体基本的结构和功能单位,在生物体生命活动中扮演重要的角色。目前,各类单细胞组学数据的发展都是趋向于从多层次、全方面捕捉细胞特征。如何有效表征细胞之间的异同是其中至关重要的环节。本章从AI技术的类型和特点对细胞表征方法进行总结。


2.1 基于自编码器的细胞表示方法
自编码器是一种流行的自监督方法,包括编码器和解码器两个部分,通过编码器将高维数据降维到低维空间,并利用解码器将低维空间点对点恢复到高维空间来驱使编码器获得更好的低维表示。在单细胞组学数据处理中,很多情况下细胞类型、发育阶段等标注信息是未知的。因此,基于自编码器的模型往往能在有限信息的情况下取得比较好的细胞表示效果。

原始的自编码器采用均方误差(mean-square error, MSE)作为损失函数,然而这种损失过于强调解码器对每个基因表达值的还原程度,而在单细胞组学数据高噪声的情况下却不利于刻画细胞之间的共性和差异。一些基于常规自编码器的变体,例如深度计数自编码器网络DCA,通过引入零膨胀负二项分布(zero-inflated negative binomial distribution)来改进损失函数,通过解码每个基因表达分布中的均值、离散度和dropout率来拟合输入表达情况。

另一类重要的自编码器是基于生成思想的变分自编码器。其基本思路是将样本编码为低维空间中的多个概率分布,接着通过一个解码器从这些概率分布中随机采样结果重构出原始的表达数据。目前的研究表明,基于变分自编码的方法能更好反映细胞的隐式表达。scVAE借助深度生成模型,将高斯或高斯混合分布作为潜在表示的先验分布,来对单细胞转录组数据进行建模,以学习细胞的潜在表示并捕获不同细胞群中的更多变异性。MoE-Sim-VAE通过混合专家相似度变分自动编码器学习高维数据的多模态分布,它鼓励细胞的低维潜在表示遵循高斯混合分布并准确还原了细胞之间的相似性。scVI采用深度生成框架,使用深度神经网络和随机优化方法来聚合相似细胞和基因的信息,使得低维表示逼近观察到的表达值的分布来学习细胞的非线性低维表征。

2.2 基于对比学习的细胞表示方法
对比学习是另一类自监督学习方法,近年来在计算机视觉领域取得了巨大成功。对比学习方法能在无标签的数据集上获得样本的低维有效表示,从而用于各种下游任务。不同于基于自编码器的方法,主流的对比学习算法通常是在无标签数据上定义一个实例判别任务:每个实例与其经过扰动的扩增样本视为一对正样本,而不同实例间互相视为负样本。在学习过程中,对比模型不断扩大正样本对之间的相似度,并缩小与负样本对之间的相似度来学习更好的样本表示。尽管对比学习出现时间较短,但其在样本规模大、类型层次结构复杂的单细胞测序数据上取得了良好的效果。

现有基于对比学习的细胞表示方法可以分为两类,第一类使用经典的三元组损失函数与孪生网络架构,代表方法有INSCTMAT2等。在负例对相似时三元组损失难以给出有效惩罚进行分隔,单以聚类任务而言,单细胞数据中存在众多相似细胞亚型与稀有细胞,因此三元组损失较难在表示空间区分相似细胞亚型或稀有细胞。第二类方法引入了最新的InfoNCE损失函数和MoCo架构,如SMILECLEAR方法,InfoNCEMoCo架构相比三元组损失与孪生网络能提高模型对相似负例对的敏感性,促进负例对的分隔,从而能更好地表现每个细胞邻域空间的丰富性。

2.3 基于图神经网络的细胞表示方法
在细胞聚类、轨迹推断等单细胞组学数据分析任务,如何衡量细胞间的距离 / 相似度并构建细胞之间的相似性图是其中关键环节。通过对单细胞组学数据以细胞关系图的形式进行表示能一定程度上降低原始生物噪声带来的影响,同时抽取数据内在的主要结构信息。传统的基于K-近邻方式构建细胞间关系图是武断且不完整的,因此引入图神经网络能一定程度上缓解这些问题。

图神经网络能通过图卷积、图注意力机制、图自编码来学习给定图的结构和节点特征,提取和发掘其中的特定模式。通过图神经网络进行细胞表示一般以K-近邻图或其他简单的细胞网络作为初始网络,结合原始的表达信息作为节点特征,然后通过图神经网络实现端到端的细胞低维特征和网络结构学习。例如,scGNN采用带有多模式的图自编码器来聚合细胞网络的结构信息同时动态修剪细胞网络,此外还加入一个左截断的混合高斯模型来对细胞的初始特征进行预处理。与scGNN不同,scTAG等方法通过将表达特征的零膨胀负二项分布集成到拓扑自适应图卷积自编码器。

除了对细胞之间的关系构图外,一些方法通过将组学数据表示为一个由生物特征和细胞异构图学习其中的高阶特征。例如,Deepmaps中将细胞和基因作为异质图中的两类节点,通过异质图多头注意力机制考虑局部和全局背景下细胞和基因之间高阶传递联系,从而获得更好的细胞和基因低维表示。

2.4 基于多视图学习的细胞表示方法
近几年,出现了很多能同时获得每个细胞不同组学特征的多组学技术,例如能同时获得转录组信息和表观组信息的单细胞多组学技术sciCAR-seqSNARE-seq,同时获得转录组信息和蛋白质组信息的CITE-seq技术,以及同时获得三种及以上组学信息的scNMT-seqECCITE-seq等。这些多组学技术提供了不同层次的细胞特征,能助于更好地刻画细胞之间的异同。然而,不同组学数据之间存在的特征模式异构性和不同噪声水平,例如RNA-seq数据以基因的表达水平为特征,而ATAC-seq数据以染色质开放区域为特征,并且不同组学之间也存在复杂的生物关联,对计算方法提出了新的挑战。

目前,单细胞多组学领域的计算方法还处于早期阶段,其中大部分深度学习方法的思路都是将不同组学数据嵌入到一个共同的低维空间。例如,MultiVI采用两个变分自编码器,分别学习单细胞RNA-seq和单细胞ATAC-seq数据的低维表示来最小化两个潜在空间的距离得到共享的低维表征。scMVP除了通过聚类一致性约束的多视图变分自动编码器模型学习单细胞RNA-seq和单细胞ATACseq的共同潜在空间表示外,同时结合了各组学特异性生成学习模块和循环学习模块来进行实现原始组学数据的增强,保留了不同组学之间的共性和个性特征。scAI选择使用矩阵分解模型,从不同组学的表达矩阵中学习一个共同的低维细胞表示矩阵。

随着单细胞测序步入多组学时代,不同组学技术组合越来越多,而不同组学之间包含的信息量是不同的,例如CITE-seq技术中,转录组对基因的覆盖率远高于蛋白质组对细胞表面蛋白的覆盖率,而处理这种组学间的信息量偏倚是目前计算方法亟需突破和改进的。

2.5 融合生物知识和信息的细胞表示方法

细胞发挥具体的生物功能离不开内在的生物分子。在过去几十年间,大量生物学家对这些分子间的相关关系进行了研究并总结为一个个先验知识,例如基因本体注释基因及其产物属性、生物通路概括了导致改变某类功能变化的细胞内分子之间相互作用,基因集合描述了与特定表型、疾病相关的一组基因,而这些生物知识恰好能为人工智能这类黑箱模型提供一些先验的规则信息。例如,Lin等在设计神经网络结构时融入了基因调控关系等先验的生物学知识来修剪节点间的连边,从而获得更加符合生物过程的细胞降维表示。而KPNN以这些生物知识为基础,为神经网络中的每一个节点赋予生物含义,例如代表受体蛋白、信号蛋白、转录因子等,通过网络中权重来表示这些分子之间的调控和相互作用关系,大大弥补了深度学习模型在可解释性方面的不足。除了这些生物知识以外,空间转录组、时序数据,以及发展中的活细胞测序技术(Live-seq)等,在组学信息基础上,为相应的图神经网络和其他深度学习模型提供了额外的时间和空间信息,帮助模型更好捕获细胞的时空动态性。

3 AI助力基于单细胞测序数据的异质性分析

单细胞不同组学数据相比于传统的组学技术具有更高细胞异质性分析是各类单细胞组学数据分析任务中的核心,各个器官、组织的细胞图谱绘制都依赖于对细胞类型、轨迹的鉴定和推断。本章从细胞类型鉴定和细胞发育轨迹推断,阐述AI技术对单细胞组学数据异质性分析带来的推动作用。

3.1 细胞类型鉴定
监督学习就是用算法发现数据中可能存在的隐含规律,从一定意义上已经在很多问题上帮助人们获得了新知识,比如从单细胞组学数据中发现新的细胞类型(见本期李敏文章)。在教育学领域有一个概念叫“探索性学习”,是指学生从观察现象中自主发现比较丰富和高维的知识,这是人类智能的基本部分,科学家从自然现象获得科学发现的过程也是一种探索性学习。那么,机器能否像人一样具有发现比非监督聚类更高复杂度的知识。

常见的细胞类型鉴定方法包括无监督聚类模型和有监督分类模型。常见的无监督聚类算法通过在学得细胞表示基础上,结合k-means、Louvain、GMM等常规聚类算法实现分布式聚类。而以DESC为代表的系列深度单细胞聚类算法,通过在细胞表示学习过程中融入了细胞软聚类损失来指导模型学习更适合聚类的细胞表示。

随着人类细胞图谱绘制不断完善及类别标注信息越来越丰富,有监督细胞分类模型发展也越来越迅速。在有监督的细胞类型分类任务中,至关重要步骤是去除多个数据集之间的批次效应。例如,CellBLAST利用对抗学习策略来消除数据集间的批次效应,将带类型标注的数据集作为参考数据集对新数据集预测细胞类型,并且对参考数据集中不存在的、未知的细胞类型具有很好的敏感性。相似的细胞类型鉴定方法还能用于不同组学间的细胞标签迁移。例如,scJoint将单细胞ATAC数据转换为基因表达矩阵,然后便能直接定义组学间细胞的相似性,从而寻找细胞锚点或对定义细胞相似性构建表示模型,通过锚点对将一个组学的细胞类型标签迁移到另一个组学,接着利用组学内的标签传播实现所有细胞的类型鉴定。

目前,人工智能方法在细胞类型鉴定任务取得了显著的效果,但随着对单细胞组学数据的不断深入挖掘,需要模型能挖掘更深层次的细胞亚型,尤其是能发现疾病发生发展过程中那些数量稀少但具有重要功能的稀有细胞。

3.2 细胞发育轨迹推断
细胞异质性不仅仅体现在细胞亚型上,还体现在细胞周期、细胞发育和细胞分化等连续动态的生命过程中。采集不同时刻的样本来分析细胞连续变化过程十分耗费时间和金钱。因此,通过一个单细胞“快照”数据,解析“快照”中的细胞状态并推断细胞轨迹是当前最有效计算手段。

细胞分化轨迹非常依赖于一个准确的细胞低维表示。该低维表示应当同时保留整体轨迹的拓扑结构和细胞局部相似性。一些方法通过在低维表示中融入全局和局部的结构来进行校正。其中,PHATE利用样本间基于扩散的信息-几何距离来捕捉局部和全局非线性结构的降维可视化方法,应用于单细胞数据时能较好的保留分化轨迹。scDART通过计算细胞之间的扩散距离(diffusion distance),以及低维和高维之间距离差的惩罚来保留细胞的连续轨迹。

4 AI助力单细胞测序数据的生物信号检测和关联分析

细胞是一个整体系统,细胞内生物分子之间相互促进、抑制和协同,以及细胞之间的信号传导作用是推动细胞在时空上从无序态向有序态进行变化,并响应外界刺激的重要机制。本章对AI技术在基因调控网络构建,以及细胞通信网络构建两个方面进行总结。

4.1 基因调控网络构建
在细胞内,很多生物分子,例如基因、RNA、蛋白质都不是孤立存在的,而是相互协作、互相影响。例如,细胞内基因之间相互作用并且影响目标基因转录水平的行为成为基因调控网络。解析这些生物分子的复杂关联关系能进一步理解生物体实现基本生命活动、塑造不同表型的核心机制。

目前,最为成熟的细胞水平的关联分析主要是在单细胞RNA-seq和单细胞 ATAC-seq。单细胞RNA-seq能从RNA表达水平定量分析基因之间共表达和调控关系;单细胞ATAC-seq能捕获染色质开放区域,通过标注顺式调控元件并借助调控因子的结合位点基序(transcription factor binding motifs)来对细胞特异性调控元件以及调控因子进行解析。另一类单细胞HiC数据能识别三维染色质组织的细胞间特异性变化,通过Loop结构发现功能调控元件对目标基因的远端调控作用。

基因之间的调控机制涉及到很多因素,而深度学习强大的非线性表征能力和计算能力在大样本的单细胞组学数据上能取得不俗的构建效果。在单细胞基因调控网络构建领域,Yang等提出了GripDL,这是一种有监督的深度学习模型,纳入了转录因子和靶基因的先验调控知识,基于空间表达图像特征进行学习和预测未知的基因调控关系。Shu等提出了DeepSEM,通过结合一个改进的变分自编码器和结构方程模型(structural equationmodeling, SEM),通过L1正则化从单细胞RNAseq数据学习基因之间直接调控关系。DeepTFni则根据单细胞ATAC-seq数据生成转录因子调控网络的骨架网络,以及基因活性特征矩阵,并将其放到变分图自编码器来预测未知的调控关系。单细胞多组学数据的出现为细胞水平的基因调控网络构建和动态解析提供了新思路,Janssens等基于scRNAseqscATAC-seq数据,提出了一种基于卷积神经网络的方法DeepFlyBrain,该方法使用共可及区域序列(topics)作为输入,经过训练后输出topics的可及性,提供了高置信度、细胞类型特异的全基因组结合位点预测。

4.2 细胞通信网络构建
细胞通信网络是编码细胞间信号传递进而相互调控,并产生一系列生物学效应的过程。

传统的细胞通信网络构建方法主要是基于配体和受体表达水平计算信号强度,例如 CellPhoneDBiTALK,以及另一类考虑了其级联的细胞内信号传导通路的方法NicheNetSoptSC。而事实上,细胞通信模式复杂多样,基于配体 - 受体对介导的通信类型远不能覆盖所有的互作模式。挖掘这类复杂关联恰好是深度学习的强项。例如,DeepLinc用变分图自动编码器,对单细胞空间转录组数据进行分析,通过空间上相邻细胞富集的通信类型,以及细胞内多维分子图谱来学习、挖掘二者之间的内在生物关联。GCNG则将空间转录组学数据转换为表示细胞之间关系的图,同时对基因表达数据进行编码,将已知的配体-受体关系作为正样本进行训练,并预测未知的信号传导模式。

目前,深度学习方法在预测细胞间相互作用关系方面或者细胞间通信的应用仍处于探索阶段,如何利用深度学习模型构建预测细胞间通信网络并设计一套有效、合理的评估标准是一个亟需创新和突破的方向。

5 结束语

单细胞组学技术作为目前生命科学和医学领域的重要组成部分,使很多研究者从细胞水平对生命现象、疾病发生发展过程有了新的认识,极大加速了国家干细胞研究、个性化医疗等重大计划。而人工智能技术强大的表征和学习能力赋能单细胞组学数据分析,大大加速了对大规模单细胞组学数据内在生物含义的理解,为单细胞各项研究提供了重要的技术支撑。


(参考文献略)

选自《中国人工智能学会通讯》
2022年第12卷第11期
人工智能与生命科学专题


↓↓↓ 欢迎加入学会大家庭,获取更多会员专属福利







扫码加入我们