传统“批量的”RNA测序方法可以一次处理成千上万个细胞,并得到变异的平均水平。但是没有两个细胞是完全相同的,而scRNA-seq则可以揭示出每个细胞独特的微妙变化,甚至可以揭示全新的细胞类型。
例如,在使用scRNA-seq技术检测了约2,400个免疫细胞后,位于马萨诸塞州剑桥市Broad研究所的Aviv
Regev及其同事发现了一些具有强大T细胞刺激活性的树突细胞,一种能够刺激这些细胞的疫苗可能会潜在地增强免疫系统功能,并预防癌症。
这些发现来之不易,操纵单个细胞比大群体要困难得多,而且因为每个细胞只产生少量的RNA,所以没有任何犯错的余地。此外,另一个问题是如何分析海量数据产生的结果,因为我们目前所使用的工具可能不是直观的。
通常,研究人员需要费力地在Unix操作系统中键入命令来分析RNA-seq数据。数据文件会从一个软件包传递到下一个软件包,每个工具包在这个过程中处理其中一个步骤:基因组比对、质量控制、变异分析等。
这个过程十分复杂,但是对于“批量的”RNA-seq来说,至少已经形成了一种共识,即每一步哪种算法最适合,以及它们如何运行。因此,现在已经有了基本的流程,虽然仍有待调整,但至少对非专家来说是可处理的。在分析基因表达的差异方面,英国癌症研究所计算生物学家Aaron
Lun表示,RNA-seq的问题目前来说已基本解决。
但对于scRNA-seq来说,我们还不能妄言已经解决:研究人员仍然在探索可以用数据集做什么、哪些算法是最有用的。
但是一系列在线资源和工具正在简化scRNA-seq数据分析的过程。在GitHub网站上,一个名为“Awesome
Single Cell”的页面收录了70多种工具和资源,涵盖了分析过程的每个步骤。西雅图华盛顿大学的生物学家Cole
Trapnell说,该领域已经催生了计算生物学工具的小型产业。
定制技术
夏威夷大学的生物信息学家Lana
Garmire,在去年发表的一篇评论中列出了scRNA-seq数据分析以及约48项工具的基本步骤。尽管每个实验都不尽相同,但大多数分析流程都遵循着相同的步骤来清理和筛选测序数据,找出哪些转录子可以表达,并且对于扩增效率的差异是正确的。研究人员随后进行一项或多项二级分析,以检测亚群和其他功能。
Christina
Kendziorsk,威斯康星大学麦迪逊分校的生物统计学家说到,在许多情况下,大规模RNA-seq中使用的工具也可以应用于scRNA-seq。但数据的根本差异意味着,这并不总是可行的。Lun表示,一方面,单细胞测序数据的背景噪声更大。在如此少量RNA的情况下,扩增和捕获效率的微小变化,就可能在细胞间产生与生物学无关的巨大差异。因此,研究人员必须对“批量效应”保持警惕,因为在不同日期制备的看似相同的细胞,可能因为纯粹的技术原因而不尽相同,导致“中途退出”的基因在细胞中表达,但在测序的数据中却没有发现。
澳大利亚悉尼心脏研究所的生物信息学家Joshua
Ho也谈道,另一个挑战是规模。典型的大规模RNA-seq实验涉及的样品数量较少,但scRNA-seq研究可能涉及数千个样本。能够对十几个样本进行处理的工具在遇到10倍或100倍数目的样本时,处理速度往往会十分缓慢。
此外,即使是看似简单的问题,如一个良好的细胞制备是如何构成的,在scRNA-seq的领域里也很复杂。Lun的工作流程假定大多数细胞具有大致相当的RNA丰度。但他表示,“这种假设并不一定是正确的”。例如,他谈道,从未被抗原激活并且相对静止的初始T细胞往往比其他免疫细胞具有更少的信使RNA,并且在分析过程中可能会被移除,因为程序认为没有足够的RNA来进行处理。
或许最重要的是,执行scRNA-seq的研究人员倾向于从分析大量RNA的问题中提出不同的问题。“批量”的分析通常是研究基因表达在两种或多种治疗条件之间的区别。但是,研究单个细胞的研究人员通常旨在识别新的细胞类型或状态,或重建细胞的发育途径。Lun强调:“因为目标是不同的,所以这就需要一套不同的工具来分析数据。”
例如,单细胞分析的一种常见类型是维数约简。该过程简化了数据集,以便于识别类似的细胞。据英国剑桥研究所的计算生物学家Martin
Hemberg所说,scRNA-seq数据将每个细胞表示为“20,000个基因表达值的列表”。
主成分分析(PCA)和t分布式随机相邻嵌入(t-SNE)等维度降低算法,有效地将这些特征投射到二维或三维中,使得相似的细胞簇易于分辨。另一个流行的应用程序是伪时间分析。2014年,Trapnell开发了第一个名为“Monocle”的工具。Trapnell表示,这款机器学习软件从scRNA-seq实验推断出伴随细胞分化的基因表达变化序列,这就像从空中拍摄跑步者的路径一样。
此外,其他工具解决了亚群检测(例如,波士顿哈佛医学院Peter
Kharchenko开发的Pagoda)和空间定位的问题,其使用了关于组织中基因表达分布的数据来确定每个转录组产生自哪里。Rahul
Satija工作于纽约基因组中心,他开发一种这样的工具,名为“Seurat”。他表示,该软件利用这些数据,将细胞定位为三维空间中的点。“这就是为什么我们将其命名为Seurat(Seurat为法国印象派画家,在绘画技法上运用画笔一笔一笔点在画面,这种作品被称为点彩画)。”他解释说,“因为这些点让我们联想起了一副点彩画。”
尽管针对特定的任务,这些工具通常涉及多种功能。例如,Rahul Satija的研究团队通过Seurat进行了细胞亚群分析,以识别新的免疫细胞。
加州大学圣地亚哥分校的生物信息学家Gene Yeo谈道,大多数的scRNA-seq工具都是基于R语言的Unix程序或软件包编程的,但相对而言,很少有生物学家在这些环境中工作。即便是这样,他们也可能没有时间下载和配置所有工作,使这些工具真正发挥作用。
目前,研究人员已经开发了一些即用型的流程。还有端到端的图形工具,包括来自FlowJo的商业化GenSeq软件包,以及一对开源的Web工具:来自Garmire集团的Granatum和来自瑞士联邦理工学院Bart
Deplancke实验室的ASAP(自动单细胞分析流程)。
ASAP和Granatum使用Web浏览器提供相对简单的交互式工作流程,使研究人员能够以图形的方式探索数据。用户上传了他们的数据后,软件会逐步走完他们的步骤。对于ASAP,这意味着通过可预处理、可视化、聚类和基因表达差异分析获取数据;Granatum还允许伪时间分析和蛋白质交互作用数据的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在让生物信息等多个领域的研究人员共同合作。研究人员曾经认为,“(生物信息学家)获取数据并产生结果是十分神奇的,”夏威夷大学博士生、Granatum首席开发人员Xun
Zhu表示,“现在研究人员可以参与一些参数的调整,这是一件好事。”
谨慎前行
当然,这些工具并不是完美的。例如,在识别细胞类型方面性能优异的工具可能会因伪时间分析而出现问题。此外,加州大学伯克利分校生物统计学家Sandrine
Dudoit强调,合适的方法是“非常依赖于数据集的”。这可能需要对方法和参数进行调整,以考虑诸如测序长度之类的变量。但Marioni谈道,重要的是不要完全信任这些流程,他打比方说:“就像卫星导航告诉你开车进入河流,但你可不能真开进河里。”
对于初学者来说,保持谨慎的态度是有道理的。生物信息学工具几乎总是能给出答案;但问题是,这些答案究竟意味着什么?Dudoit的建议是进行一些探索性的分析,并验证你所选择算法的假定条件是有意义的。
Satija还谈道,一些分析任务仍然颇具挑战性,如在不同实验条件或生物体间进行比较,并整合不同组学的数据。
但是,目前的工具已经基本满足了大多数研究人员的需求。Kendziorski建议那些感兴趣的研究人员可以深入了解。每一种新的工具都可以揭示生物学的另一个方面,只要你关注科学,并做出明智的选择。