测序等组学数据千头万绪，四步法教你找到“亮点”并讲好故事……

小张聊科研 · 公众号 · 科研 · 2025-01-29 14:39

正文

不管是自测还是公共数据库，测序等组学数据是大家手头上最容易拿到的数据。先前大家通过生信分析可以批量水文章，现在组学数据和生信分析的意义正在发生改变，更重要的价值是如何从组学数据中发掘出“亮点”。但是，组学数据的特点是又多又杂，组学数据的解读和梳理、判断就是第一步，而后续的工作才是如何基于组学数据讲好故事。

今天我就来抛砖引玉分享一下，当拿到组学数据的时候，如何从千头万绪的结果中挑选到线头并把故事讲好，步骤大致分为四步：

1质控判断：从数据质量、样本、分组等整体情况看结果是否可信和可靠。

比如常见的2组3样本（3vs3 ）细胞的RNA测序结果，如果没有特殊情况下，组内差异（比如三个Con对照、三个药物组之间）一般小于组间差异的（药物组vs Con），这一点可以从样本PCA聚类等结果看出来，如果三个Con之间的差异要比组间差异还大，下一步筛选差异基因的时候用P值<0.05大概率很难筛选到很多差异基因（P值太大不符合<0.05的情况）。

当然，与均一性比较好的细胞相比，临床样本的异质性要大很多，特别是样本量比较大的情况下，出现离群样本很正常，这才是临床真实的情况，那离群样本如何处理呢？有的团队做法是舍弃这个样本，让数据看起来更好；有的则保留这个样本，但在讨论中说明可能的原因。

总体来说，这个步骤是质控步骤，也是后续分析的基石。另外一个例子就是单细胞RNA-Seq分析完成后需要看整个UMAP（或者TSNE）是否“干净”，如果在Cluster周围有很多散点、分叉等，后续分析得到的结论有时候会似是而非，所以很多团队会在质控这一步骤不断调整，直到Cluster清楚干净。这一步非常重要，需要先排除样本弄反、分组弄错、样本收集储存等过程的问题，然后才是对数据进行分析和解读。

2结论判断：初步看一下结果是否大致符合预期。

我们在看数据之前可以先思考一下：我关注的这个基因、药物或者疾病，如果差异基因、功能富集分析的通路和生物学过程出来后，我期待看到什么结果？

这个怎么判断呢？有两个参考：a是数据库和文献中关于基因、药物或者疾病的报道，比如A基因可能与细胞周期有关，那大致可以预期看到A基因沉默后的差异基因和通路与细胞周期有关；b. 是前期开展的功能实验，比如我们看到A基因沉默后细胞凋亡比较明显，那总要看到一些跟凋亡或者细胞死亡有关的通路吧。如果我们看到这个基因A在沉默后有对应的基因、通路富集（活化或者抑制），就可以在文章里面说明：如我们预期的（As expected）, RNA-Seq测序（或者其它组学结果）显示A 基因沉默后导致了细胞周期（或者凋亡）通路或者基因的富集和改变，这与先前……的报道一致（或者与我们功能实验的结果一致，一般是Consistent with ……）。

当然，另外一种情况就是：结果越看越奇怪。比如本来实验是A基因沉默（并且用qPCR和WB验证过了）的细胞做的测序，怎么这个沉默组里面A基因表达比对照组还高表达呢，A本来是促进细胞死亡的，怎么A沉默后细胞死亡有关的通路活性都升高了，是不是分组弄反了？！

另外，怎么这个数据呈现出来的差异基因和通路，与我关注的疾病没什么关系啊？明明做的是炎症和损伤的疾病，怎么连细胞因子都没差异啊？差异的基因跟疾病的病理特点都对不上啊？这个时候就要核实一下是不是分组、数据弄反了，或者样本的问题了。

3思考和查询：哪些结果是“超出预期”的？

第三步是在第二步的基础上进一步看数据：除了符合预期的结果外，哪些是没有想到的？就像文章里面经常出现的词：Surprisingly, Notably……，我们发现……。看到这里我们就知道要引出文章的重要创新点了。

而对大家来说，这个步骤就是我们创新点真正开始的地方：从数据分析引出主要发现。比如我们发现某个药物处理细胞后，除了符合预期的细胞铁死亡、细胞周期改变外，富集最显著的居然是调控细胞骨架的通路，假如我们的知识背景是细胞骨架只与细胞运动有关，就会认为是新发现；当然查文献或者看到推文（这个“平平无奇”的信号通路，居然能与这三个顶级热点联系起来，你上车了没？）后，就会想到双硫死亡，这样药物作用就有了创新点：药物不仅影响细胞铁死亡，还能通过调控细胞骨架诱导双硫死亡。

当然，有个观念很重要：做研究和讲故事的顺序和逻辑是不同的。做研究探索的时候，先有初步假设，然后做关键实验（我们可以理解为实验检查点：通过几个关键实验初步判断假设是否成立），再根据关键实验调整假说，先把大框架完成（也就整个工作量的30%），最后再差缺补漏补充更多实验数据；而讲故事的时候，则基本拿到完整数据了，需要考虑的是：研究的亮点是什么？怎么把数据和结论包装好，让编辑和审稿人更感兴趣？

回到上面整个问题，超出预期的发现可能会有很多：不过不用都列出来，一般一篇文章里面考虑2-3个新发现就够了，之所以考虑2-3个点是因为不能保证1个新发现就能验证出来；当然你可以挑选9个新发现，然后通过进一步分析再筛选到5、6个，最后再做实验验证，最后写成几篇文章就行了。需要说明的是：这里2-3个“新发现”需要结合文献报道来确认；另外，大家还是需要对KEGG通路等要有一些基本的了解，实在不行就挨个查文献，这里确实需要对信号转导、通路和生物学过程有一些背景知识。

4基于新发现的进一步分析和验证。

完成了第三步，相当于从一团乱麻中梳理出来几个“线头（新发现）”，下面其实也分两步：a) 分析层面的进一步验证；b) 实验层面的验证。

分析层面的验证其实不仅是用更多的数据集支持这个结论，还包括搞清楚新发现的大致情况，比如到底有多少基因发生了改变，其中最重要的基因是什么，以及A通路里面富集到的基因与其他（B）通路富集的基因是不是很多都重叠？比如A通路富集到5个基因（都是一个家族的），其中4个基因在另外一条不相关的B和C通路中也被富集到，那这个发现就往后放（原因是这些基因的功能指向性不强，既能A，又能B和C，可能只是偶然被富集到）。

另外，如果差异基因比较少的情况下做的功能富集（比如100个基因），虽然能富集到某个通路上只有3、4个基因，这个结果的参考价值也要打个问号，这时候需要考虑的是：为什么疾病与对照组相比只有100个显著差异基因？

一般情况下，A基因沉默或过表达的差异基因会比疾病vs对照少一些，毕竟只是一个基因的变化造成的扰动，但是疾病如果与对照只有100个显著差异基因，就要思考一下原因了：除非这100个RNA的变化就能反映疾病差异，或者疾病与对照的差异要在蛋白层面（而非RNA层面）显示出来。

最后一个实验验证就不展开说了，大家筛选到基因、通路或者功能以后如何做都比较清楚，干扰过表达、抑制剂激动剂，最后做功能机制等等。