专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  蒋建东院士主编!IF 从 6 飙升至 ... ·  2 天前  
生信人  ·  国自然中标热点预测:线粒体质量控制 ·  4 天前  
BioArt  ·  Sci Immuno丨人类与小鼠 PD-1 ... ·  4 天前  
51好读  ›  专栏  ›  生信菜鸟团

测序数据很辣鸡?照样快速发文章!

生信菜鸟团  · 公众号  · 生物  · 2025-01-06 10:43

正文

最近看到一篇非常有意思的文献,文献标题为《Transcriptome dataset of omental and subcutaneous adipose tissues from gestational diabetes patients》,作者来自 美国密歇根州立大学。这篇文献实在是太经典了,仅仅是 2*2分组常规 bulk 转录组测序即可,并且可以毫不夸张的说:根本无需任何生物学背景就发出来了

下面来看一看,瞧一瞧,学习怎么直接利用公司的标准流程分析报告发文章~

首先是文章的实验设计,仅仅是给了一个表格

取样为 来自 自5个妊娠期糖尿病患者和匹配的5个对照组的皮下和大网膜脂肪组织(AT),展示了这10个patient的一些年龄、BMI、胰岛素等指标。

Table 1

接着是 样本的实验指标如RIN值

比如转录组建库的时候要求的 RNA 浓度、RIN值(一般建库要求RIN>8,表示RNA是否发生降解)。

Table 2

数据量展示

接着文章给出了 每个样本的数据量,包括测序前的原始测序数据量,以及过滤后的数据量,过滤前后的数据损失比例。

这里的数据量一般指 fq数据 中 每个样本测了多少条read,使用M=1000,000来表示,每个样本测了 多少个碱基,使用G=1000,000,000 表示。

Table 3

数据量在我们的转录组授课中进行了特别强调,因为很多人都 搞不清楚 fq的物理存储大小的G(即所占磁盘空间),以及 测序数据量的G(即10亿)

原始fq的fastqc质控图

第一个图展示了fq数据的每个每个碱基质量值分布,第二图为每条序列的平均碱基质量值分布,第三幅图为每条序列的GC含量密度曲线图。这些图片的详细解释也在我们的 转录组授课 中进行了非常详细的介绍,数据质量好的时候不好的时候都呈现一个什么样的分布。

Fig. 1

Hisat2比对结果展示

A图为hisat2数据总比对率的柱状图,B图为featurecount定量指标的堆积柱状图。一般样本的数据总比对率高于90%,还需要关注一下唯一比对率。

Fig. 2

样本相关性指标图

定量完后拿到一张样本表达矩阵,就可以进行下游分析了,比如差异分析前检查一下样本分组,使用样本相关性热图,样本PCA分析图。除此之外,我们的转录组课程还介绍了层次聚类,样本表达总体分布的箱线图、小提琴图、密度曲线图。

这里的一个重要指标为:样本的组内相关性一定高于组间

Fig. 3

差异分析结果展示

每种组织的单独PCA分析以及差异结果的MA图展示(可以看得出来,每次差异分析里面的组间差异不明显,反而是组内的样品异质性很大,这样的话就会导致差异基因很少很少,所以 有些差异本来就是不应该很明显

Fig. 4

功能富集分析展示

每种组织的差异分析结果使用hallmark 通路进行功能富集分析,看到这里 我不禁怀疑,这个作者 知道hallmark通路里面都是什么生物学相关的通路吗? 

Fig. 5

妊娠期糖尿病患者并不是肿瘤,理论上不需要的hallmark通路注释,所以说发这个期刊做这样的文章压根就不需要什么生物学背景!

三张表格,五张图片,文章到此,戛然而止!

全部分析流程如下:

我们随便网上找一篇公开的示例标准分析报告可能都比这强啊:https://www.bioincloud.tech/cloudir/reports/transcriptome/%E7%BB%93%E9%A2%98%E6%8A%A5%E5%91%8A.html

最后好奇这个杂志搜了一下:

《Scientific Data》是一本专注于数据的同行评审开放获取期刊,由Springer Nature出版商出版。该期刊创刊于2014年,主要发表描述具有科学价值的数据集以及促进科学数据共享和再利用的研究。以下是关于《Scientific Data》的一些关键信息:

  1. 出版信息

  • ISSN:2052-4463
  • 出版语言:英语
  • 出版地区:英国
  • 是否开放获取(OA):是
  • 出版周期:每年出版1期。
  • 内容与范围

    • 《Scientific Data》主要发表“Data Descriptors”(数据描述),这是一种新型出版物,提供研究数据集的详细描述,包括数据收集方法和支持测量质量的技术分析。这些描述旨在帮助他人重用数据,而不是测试假设或提出新的解释、方法或深入分析。
    • 期刊对广泛的自然科学学科开放投稿,包括但不限于生命科学、生物医学和环境科学领域的数据。提交的内容可以是大数据或小数据,来自新实验或现有数据的增值聚合,来自主要联盟和单个实验室。
    • 期刊也愿意考虑来自社会科学的定量数据集的描述,特别是那些可能用于跨越生命、生物医学、环境和社会科学之间传统学科界限的综合分析的数据集。
  • 影响因子

    • 2023-2024年最新影响因子为5.8
    • 影响因子呈现持续上涨的趋势,最新影响因子达到9.8
  • 分区

    • 在中科院分区中,综合性期刊为2区,小类综合性期刊也为2区。
    • JCR(Journal Citation Reports)分区等级为Q1
  • 审稿周期

    • 平均审稿速度为16周。

    《Scientific Data》以其开放获取政策和对数据共享的重视,为全球科研人员提供了一个发布、发现和重用研究数据的平台,促进了科学研究的透明度和可重复性。

    不过,它的审稿人也不是小数目了,现在(2025年01月)好像是2000美元,虽然比NC低不少,但是一年也可以赚一个小目标!详见:轻轻松松年入五个亿!清北复交中科院的最爱

    好了,看完这篇文献,你思路打开了吗?

    文末友情宣传

    强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶: