夏威夷大学的生物信息学家lana Garmire在去年发表的一篇综述中列举了scRNA-seq数据分析的基本步骤和48种工具。
O. B. Poirion et al. Front. Genet. 7, 163; 2016.
她说,虽然每个实验都是独特的,但大多数分析流水线还是依据一样的步骤来清洗、筛选测序数据,找出是哪个转录本在表达,还要校正扩增造成的差异。研究者们会继续跑一个或多个后续分析,来检测亚组和其他功能。
威斯康星大学的生物统计学家Christina Kendziorski说,在许多情况下,大量细胞RNA-seq所用的工具对scRNA-seq也还适用。但数据上的根本差异意味着,这并不是永远都行得通。Lun说,有一点值得注意,单细胞数据的噪点更多。处理这一小丢丢RNA,扩增和捕获时失之毫厘,便会在细胞之间谬以千里,日复一日,最后玩的就不是生物了。
所以研究者们必须警惕“批处理效应”,不是同一天处理的细胞看起来很有个性,可能只是纯粹的技术原因造成的,还有那些“漏网之鱼”——在细胞中明明表达了的基因,测序数据中却没有捞到。
悉尼张任谦心脏研究所的生物信息学家Joshua Ho说,还有一个挑战是规模。一个典型的大量细胞RNA-seq实验通常收纳少数样本,但scRNA-seq则一来就是好几千。原来那些处理几十个样本的工具塞给它十倍百倍的数据量,处理速度就成了龟爬。
哪怕是像怎么制备细胞才算好这样看起来很简单的问题,放到scRNA-seq领域也会变复杂。Lun的工作流程是先假设大多数细胞都有近似等量的RNA丰度。他说,“可是这个假设未必就是真的。”比如,初始T细胞,尚未被抗原激活时相对静态,它的mRNA相对其他免疫细胞就比较少,在分析时可能就会被移除,因为程序认为没有足够的RNA可以处理。
也许最重要的一点是,用scRNA-seq做研究的人,问的问题都跟做大量细胞RNA分析的不一样。大量细胞分析一般研究两种或以上的干预方法中,基因表达有什么不同。但跟单细胞玩耍的研究者的目标则是鉴定新的细胞类型或状态,或重建细胞发育通路。Lun说,“因为目标不一样,则必然要用到不同的工具来分析数据。”
比如单细胞分析的一个常见方法就是降维处理。这是将数据简单化,以便鉴别相似的细胞。如英国剑桥的威康信托桑格研究所的计算生物学家Martin Hemberg所说,在scRNA-seq数据中,每个细胞都是由2万个基因表达值组成的表单(list)。降维算法,如主成分分析(PCA)和t分布随机邻域嵌入(t-SNE),可以有效把数据变成二维或三维图形,使相似细胞的聚类特征更明显。
另一个常用的方法是伪时间分析法(pseudo-time analysis)。2014年Trapnell开发了第一个运行这个算法的工具,叫Monocle。他说这个软件是运用机器学习,从一个scRNA-seq实验推测细胞分化过程中伴随的有基因表达改变的序列,就像从竞走比赛的航拍照片推测比赛路线。
其他工具则用于检测亚组(比如波士顿哈佛大学医学院的Peter Kharchenko开发的Pagoda),还有空间定位,即利用组织中基因表达分布的数据,了解每个转录组都在组织的哪些地方出没。纽约基因组中心的Rahul Satija是Regev的博士后,他就为此开发了一个叫Seurat的R语言包。他说Seurat是利用数据把细胞在三维空间中定位为一个点,这就是它的名字Seurat的由来,那些数据画成的点看起来像一幅点彩派画作。
左:画家Seurat的作品 | 右:R包Seurat的作品(Nature Biotechnology. 2015; 33, 495–502.)
尽管这些工具都是为某个特定目的开发的,但通常也都包含多种功能。就说Seurat吧,除了上述的空间定位,还配备了细胞亚组分析的功能,那是Regev的组用来鉴定新的免疫细胞类型所需要的。
大多数scRNA-seq工具都是Unix程序或R语言包,但相对来说还是很少有生物学家喜欢使用这些开发环境,加州大学圣迭戈分校的生物信息学家Gene Yeo说,就算喜欢,也可能没时间下载并配置好运行所需的一切。
于是有人开发了一些开袋即食型(原谅吃货小编想不到更贴切的形容词)工具。另外还有一些端对端的作图工具,包括FlowJo的SeqGeq商业程序包,还有一组开源的网页工具:Garmire组开发的Granatum(拉丁文:石榴),还有瑞士联邦理工学院的生物工程师Bart Deplancke实验室的ASAP(the Automated Single-cell Analysis Pipeline)。
http://garmiregroup.org/granatum/code
ASAP和Granatum都是用网页浏览器来呈现相对简单、互动的工作流程,让研究者们能用图形方式来探索自己的数据。用户上传数据,软件就依流程一步步运行。
还是ASAP画风最正 | https://asap.epfl.ch/
对ASAP来说,就是带着数据过一遍预处理、可视化、聚类、差异基因表达分析;Granatum还包括伪时间分析,并整合了蛋白质相互作用数据。
Garmire和Deplancke都说,ASAP和Granatum的设计是为了让研究者和计算生物学家能够好好合作。夏威夷大学的博士生、Granatum的开发组组长Xun Zhu说,研究者们曾经以为生物信息学家是有魔力的生灵,拿到数据魔杖一挥就能生成结果。现在他们也可以参与进来,调整一下参数就行,这很好。