专栏名称: 小张聊科研
聊聊跟科研有关的感想心得,如基金,文章和实验。
目录
相关文章推荐
科研大匠  ·  北大国家杰青团队,再发重磅Science! ·  3 天前  
NaturePortfolio  ·  《自然》:太神奇了,皮肤居然自带免疫系统! ·  4 天前  
PaperWeekly  ·  北京内推 | ... ·  3 天前  
51好读  ›  专栏  ›  小张聊科研

手头有组学和生信分析数据,如何用好才能实现文章突破?

小张聊科研  · 公众号  · 科研  · 2025-02-28 18:58

正文

图片

不管是自测还是公共数据库,测序等组学数据是大家手头上最容易拿到的数据。 先前大家通过生信分析可以批量水文章,现在组学数据和生信分析的意义正在发生改变,更重要的价值是如何从组学数据中发掘出“亮点”。 但是,组学数据的特点是又多又杂, 组学数据的解读和梳理、判断就是第一步,而后续的工作才是如何基于组学数据讲好故事。

今天我就来抛砖引玉分享一下, 当拿到组学数据的时候,如何从千头万绪的结果中挑选到线头并把故事讲好,步骤大致分为四步

1 质控判断:从数据质量、样本、分组等整体情况看结果是否可信和可靠。

比如常见的 2 3 样本( 3vs3 )细胞的 RNA 测序结果,如果没有特殊情况下, 组内差异( 比如三个 Con 对照、三个药物组之 间)一般小于组间差异的(药物组 vs Con ),这一点可以从样本 PCA 聚类等结果看出来 ,如果三个 Con 之间的差异要比组间差异还大, 下一步筛选差异基因的时候用 P <0.05 大概率很难筛选到很多差异基因( P 值太大不符合 <0.05 的情况)。

当然, 与均一性比较好的细胞相比,临床样本的异质性要大很多,特别是样本量比较大的情况下,出现离群样本很正常,这才是临床真实的情况, 那离群样本如何处理呢? 有的团队做法是舍弃这个样本,让数据看起来更好;有的则保留这个样本,但在讨论中说明可能的原因。

总体来说,这个步骤是质控步骤,也是后续分析的基石。 另外一个例子就是单细胞 RNA-Seq 分析完成后需要看整个 UMAP (或者 TSNE )是否“干净”,如果在 Cluster 周围有很多散点、分叉等,后续分析得到的结论有时候会似是而非,所以很多团队会在质控这一步骤不断调整,直到 Cluster 清楚干净。 这一步非常重要,需要先排除样本弄反、分组弄错、样本收集储存等过程的问题,然后才是对数据进行分析和解读。

2 结论判断:初步看一下结果是否大致符合预期。

我们在看数据之前可以先思考一下: 我关注的这个基因、药物或者疾病,如果差异基因、功能富集分析的通路和生物学过程出来后,我期待看到什么结果?

这个怎么判断呢?有两个参考: a 是数据库和文献中关于基因、药物或者疾病的报道 ,比如 A 基因可能与细胞周期有关,那大致可以预期看到 A 基因沉默后的差异基因和通路与细胞周期有关; b. 是前期开展的功能实验 ,比如我们看到 A 基因沉默后细胞凋亡比较明显,那总要看到一些跟凋亡或者细胞死亡有关的通路吧。如果我们看到这个基因 A 在沉默后有对应的基因、通路富集(活化或者抑制),就可以在文章里面说明: 如我们预期的( As expected , RNA-Seq 测序(或者其它组学结果)显示 A 基因沉默后导致了细胞周期(或者凋亡)通路或者基因的富集和改变,这与先前……的报道一致(或者与我们功能实验的结果一致,一般是 Consistent with ……)。

当然,另外一种情况就是: 结果越看越奇怪 比如本来实验是 A 基因沉默(并且用 qPCR WB 验证过了)的细胞做的测序,怎么这个沉默组里面 A 基因表达比对照组还高表达呢, A 本来是促进细胞死亡的,怎么 A 沉默后细胞死亡有关的通路活性都升高了,是不是分组弄反了?!

另外, 怎么这个数据呈现出来的差异基因和通路,与我关注的疾病没什么关系啊? 明明做的是炎症和损伤的疾病,怎么连细胞因子都没差异啊?差异的基因跟疾病的病理特点都对不上啊? 这个时候就要核实一下是不是分组、数据弄反了,或者样本的问题了。

3 思考和查询:哪些结果是“超出预期”的?

第三步是在第二步的基础上进一步看数据: 除了符合预期的结果外,哪些是没有想到的? 就像文章里面经常出现的词: Surprisingly, Notably ……,我们发现……。看到这里我们就知道要引出文章的重要创新点了。

而对大家来说, 这个步骤就是我们创新点真正开始的地方:从数据分析引出主要发现 。比如 我们发现某个药物处理细胞后,除了符合预期的细胞铁死亡、细胞周期改变外,富集最显著的居然是调控细胞骨架的通路 ,假如我们的知识背景是细胞骨架只与细胞运动有关,就会认为是新发现;当然查文献或者看到推文( 这个“平平无奇”的信号通路,居然能与这三个顶级热点联系起来,你上车了没? )后,就会想到双硫死亡,这样药物作用就有了创新点: 药物不仅影响细胞铁死亡,还能通过调控细胞骨架诱导双硫死亡

当然,有个观念很重要: 做研究和讲故事的顺序和逻辑是不同的 。做研究探索的时候, 先有初步假设,然后做关键实验 (我们可以理解为实验检查点:通过几个关键实验初步判断假设是否成立), 再根据关键实验调整假说,先把大框架完成 (也就整个工作量的 30% ), 最后再差缺补漏补充更多实验数据 ;而讲故事的时候,则基本拿到完整数据了,需要考虑的是: 研究的亮点是什么?怎么把数据和结论包装好,让编辑和审稿人更感兴趣?

回到上面整个问题,超出预期的发现可能会有很多: 不过不用都列出来,一般一篇文章里面考虑 2-3 个新发现就够了,之所以考虑 2-3 个点是因为不能保证 1 个新发现就能验证出来;当然你可以挑选 9 个新发现,然后通过进一步分析再筛选到 5 6 个,最后再做实验验证,最后写成几篇文章就行了。 需要说明的是: 这里 2-3 个“新发现”需要结合文献报道来确认 ;另外,大家还是需要对 KEGG 通路等要有一些基本的了解,实在不行就挨个查文献,这里确实需要对信号转导、通路和生物学过程有一些背景知识。

4 基于新发现的进一步分析和验证。

完成了第三步,相当于从一团乱麻中梳理出来几个“线头(新发现)”,下面其实也分两步: a) 分析层面的进一步验证; b) 实验层面的验证。

分析层面的验证其实 不仅是用更多的数据集支持这个结论,还包括搞清楚新发现的大致情况 ,比如到底有多少基因发生了改变,其中最重要的基因是什么,以及 A







请到「今天看啥」查看全文