不管是自测还是公共数据库,测序等组学数据是大家手头上最容易拿到的数据。
先前大家通过生信分析可以批量水文章,现在组学数据和生信分析的意义正在发生改变,更重要的价值是如何从组学数据中发掘出“亮点”。
但是,组学数据的特点是又多又杂,
组学数据的解读和梳理、判断就是第一步,而后续的工作才是如何基于组学数据讲好故事。
今天我就来抛砖引玉分享一下,
当拿到组学数据的时候,如何从千头万绪的结果中挑选到线头并把故事讲好,步骤大致分为四步
:
1
质控判断:从数据质量、样本、分组等整体情况看结果是否可信和可靠。
比如常见的
2
组
3
样本(
3vs3
)细胞的
RNA
测序结果,如果没有特殊情况下,
组内差异(
比如三个
Con
对照、三个药物组之
间)一般小于组间差异的(药物组
vs Con
),这一点可以从样本
PCA
聚类等结果看出来
,如果三个
Con
之间的差异要比组间差异还大,
下一步筛选差异基因的时候用
P
值
<0.05
大概率很难筛选到很多差异基因(
P
值太大不符合
<0.05
的情况)。
当然,
与均一性比较好的细胞相比,临床样本的异质性要大很多,特别是样本量比较大的情况下,出现离群样本很正常,这才是临床真实的情况,
那离群样本如何处理呢?
有的团队做法是舍弃这个样本,让数据看起来更好;有的则保留这个样本,但在讨论中说明可能的原因。
总体来说,这个步骤是质控步骤,也是后续分析的基石。
另外一个例子就是单细胞
RNA-Seq
分析完成后需要看整个
UMAP
(或者
TSNE
)是否“干净”,如果在
Cluster
周围有很多散点、分叉等,后续分析得到的结论有时候会似是而非,所以很多团队会在质控这一步骤不断调整,直到
Cluster
清楚干净。
这一步非常重要,需要先排除样本弄反、分组弄错、样本收集储存等过程的问题,然后才是对数据进行分析和解读。
2
结论判断:初步看一下结果是否大致符合预期。
我们在看数据之前可以先思考一下:
我关注的这个基因、药物或者疾病,如果差异基因、功能富集分析的通路和生物学过程出来后,我期待看到什么结果?
这个怎么判断呢?有两个参考:
a
是数据库和文献中关于基因、药物或者疾病的报道
,比如
A
基因可能与细胞周期有关,那大致可以预期看到
A
基因沉默后的差异基因和通路与细胞周期有关;
b.
是前期开展的功能实验
,比如我们看到
A
基因沉默后细胞凋亡比较明显,那总要看到一些跟凋亡或者细胞死亡有关的通路吧。如果我们看到这个基因
A
在沉默后有对应的基因、通路富集(活化或者抑制),就可以在文章里面说明:
如我们预期的(
As expected
)
, RNA-Seq
测序(或者其它组学结果)显示
A
基因沉默后导致了细胞周期(或者凋亡)通路或者基因的富集和改变,这与先前……的报道一致(或者与我们功能实验的结果一致,一般是
Consistent with
……)。
当然,另外一种情况就是:
结果越看越奇怪
。
比如本来实验是
A
基因沉默(并且用
qPCR
和
WB
验证过了)的细胞做的测序,怎么这个沉默组里面
A
基因表达比对照组还高表达呢,
A
本来是促进细胞死亡的,怎么
A
沉默后细胞死亡有关的通路活性都升高了,是不是分组弄反了?!
另外,
怎么这个数据呈现出来的差异基因和通路,与我关注的疾病没什么关系啊?
明明做的是炎症和损伤的疾病,怎么连细胞因子都没差异啊?差异的基因跟疾病的病理特点都对不上啊?
这个时候就要核实一下是不是分组、数据弄反了,或者样本的问题了。
3