专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
刑事实务  ·  实务中给DeepSeek设置的指令集合(共1 ... ·  昨天  
西安头条  ·  突发重大刑案!警方通告 ·  2 天前  
西安头条  ·  突发重大刑案!警方通告 ·  2 天前  
最高人民检察院  ·  周喜安被查 ·  2 天前  
51好读  ›  专栏  ›  生信技能树

做生信压根就不怕造假或者出错

生信技能树  · 公众号  ·  · 2024-12-10 10:55

正文

我们的马拉松授课专注于表达量矩阵的数据处理技巧传授,包括表达量芯片,转录组 测序, 单细胞转录组,都是一脉相承的。每个知识点都有对应的练习题安排给学员来考验大家是否掌握差异分析和富集分析的精髓。

比如GSE273142这个数据集,就是一个很好的案例,作者给出来了很简单的样品信息:

GSM8422516 SUM159 control R1
GSM8422517 SUM159 control R2
GSM8422518 SUM159 control R3
GSM8422519 SUM159 DAPK3 KO R1
GSM8422520 SUM159 DAPK3 KO R2
GSM8422521 SUM159 DAPK3 KO R3

以及GSE273142_Processed_data.tab.gz这个741.8 Kb的表达量矩阵文件,但是绝大部分学员给出来的都是如下所示的有问题的质量控制图表,看一眼就知道后面的差异分析和富集分析肯定是不可靠了:

有问题的质量控制图表

如果我们使用作者给出来的样品信息

library(AnnoProbe)
library(GEOquery)  

gset = getGEO("GSE273142", destdir = '.', getGPL = F
  pd = pData(gset[[1]]) 
  colnames(pd)
  colnames(symbol_matrix)
  #pd=pd[match(colnames(symbol_matrix),rownames(pd)),]
  as.data.frame( pd$title )
  group_list=ifelse(grepl('control',pd$title ),
                    'control','case' )

得到的分组是:

>   as.data.frame( pd[,c('geo_accession','title')])
           geo_accession              title
GSM8422516    GSM8422516  SUM159 control R1
GSM8422517    GSM8422517  SUM159 control R2
GSM8422518    GSM8422518  SUM159 control R3
GSM8422519    GSM8422519 SUM159 DAPK3 KO R1
GSM8422520    GSM8422520 SUM159 DAPK3 KO R2
GSM8422521    GSM8422521 SUM159 DAPK3 KO R3

作者给出来的样品信息对应的是GSM这样的id体系,但是作者给出来的表达量矩阵文件(GSE273142_Processed_data.tab.gz)里面的样品名字是不一样的。

但是我们知道生物学背景

这个文章:《Death-associated protein kinase 3 modulates migration and invasion of triple-negative breast cancer cells》的生物学故事开始于这个DAPK3基因在乳腺癌里面的basal分子分型里面是恶性高表达,所以作者对这个DAPK3基因进行干扰(敲低):

这个DAPK3基因在乳腺癌里面的basal分子分型里面是恶性高表达

有了这个生物学背景,我们就可以读取作者给出来的表达量矩阵文件(GSE273142_Processed_data.tab.gz),检查里面的这个DAPK3基因的干扰(敲低)情况,来进行分组:

data<-data.table::fread("GSE273142_Processed_data.tab.gz",
                        data.table = F)
data$V1=str_split(data$V1,'_',simplify = T)[,2]
head(data)
data=data[!duplicated(data$V1),]
mat<-data[,c( 2:ncol(data))]
rownames(mat)=data[,1]
> as.data.frame(dat['DAPK3',])
                                dat["DAPK3", ]
JG-27250_S1.rsem.genes.results        3.350783
JG-27251_S2.rsem.genes.results        2.512186
JG-27255_S6.rsem.genes.results        3.351456
JG-27256_S7.rsem.genes.results        2.715710
JG-27260_S11.rsem.genes.results       3.391863
JG-27261_S12.rsem.genes.results       2.561012
group_list=ifelse(dat['DAPK3',]>3,
                  'control','case' )

可以看到,分组确实是不一样的,我们根据DAPK3的表达量的分组理论上比作者在GEO数据库存储的分组信息更可靠。

有了合理的分组,就可以进行合理的差异分析:

合理的差异分析

学徒作业

完成上面的合理的差异分析后,针对上下调基因进行独立的富集分析,然后看作者文章里面的EMT通路的变化情况哈

假如是实验数据

你就只能说看看作者最后上传的WB或者PCR的图而已,作者说是处理组就是处理组,指鹿为马你缺无可奈何!但是有是测序后的生物信息学数据,我们才可以发挥自己的代码能力去做合理的评估!

所以做生信压根就不怕造假或者出错,当然了,如果这个测序数据是自己产出的就更好了,毕竟现在转录组测序一个样品才三百多块钱,实在是太便宜了,与其提心吊胆的去对公共数据集进行各种各样的质量控制, 斗智斗勇。 还不如直接看看我们的活动:转录组促销价格:MGI-T7真核转录组 349元/个(6G)。

极速转录组促销活动

每一个革新的技术都会逐渐成熟为一个生产力工具,以至于大家觉察不到它的重要性。转录组就是这样的一个技术,我个人是非常喜欢转录组这个工具。倒不是因为这个技术的项目最常见,而是因为我觉得这个技术特别牛,开发这个技术的人简直是个天才。 试想一万多个基因在一管中做PCR,怎么能够确保随机,做过多重的朋友知道,上了十重或者基因表达量差别有100倍,就不太可能同时检测出来,虽然转录组的接头使用的是同一套引物,但在没有可参考经验的前提下,敢提出这种想法的人必然有着深厚的理论基础和强烈的创新动力,真的很厉害。 另外就是FPKM、差异基因、富集分析的公式都非常简洁,但是又有极坚固的理论基础,这些都反映了该技术的发明者对生命科学、计算科学的深刻理解和热爱。我平时也有一些付诸实现的小的创新想法,但是均一一失败了。 做的项目越多,对这个技术的价值有着越清晰的认识。我们小团队从19年组建时起,就把转录组作为公司的核心产品,主营业务。
这五年我们处理了有上千个转录组项目一万多例样本,积累了丰富的项目经验,同时也开发了自己的云平台。 非常感谢生信技能树一直以来的支持,年终岁尾我们准备做2024年的第一次推广活动。
转录组促销价格:MGI-T7真核转录组 349元/个(6G)。
服务内容:提取建库测序分析及售后。在相互尊重相互理解的前提下,我们是可以给客户做免费长期的售后支持的。
周期:两周内交付。
云平台网址:https://www.rnaseq.top
部分客户项目项目文章:

📅 Nature Nanotechnology

  • 论文题目 : Metal-ion-chelating phenylalanine nanostructures reverse immune dysfunction and sensitize breast tumour to immune checkpoint blockade

  • 影响因子 : 38.1

📅 Chemical Engineering Journal

  • 论文题目 : Advancing immunotherapy in triple negative breast Cancer: A novel multimodal theranostic nanoplatfrom integrating synergetic ferroptosis and photothermal therapy

  • 影响因子 : 15

2023年

📅 Communications Biology

  • 论文题目 : Oncometabiolite D-2-hydroxyglutarate dependent metabolic reprogramming induces skeletal muscle atrophy during cancer cachexia

  • 影响因子 : 5.9

📅 Science Of The Total Environment

  • 论文题目 : Di-(2-ethylhexyl) phthalate exposure impairs cortical development in hESC-derived cerebral organoids

  • 影响因子 : 6.5

📅 Nature Communications

  • 论文题目 : Gli1 marks a sentinel muscle stem cell population for muscle regeneration

  • 影响因子 : 16

2021年

📅 Journal Of Hematology & Oncology

  • 论文题目 : 3,3',5-Triiodothyroacetic acid (TRIAC) induces embryonic ζ-globin expression via thyroid hormone receptor α

  • 影响因子 : 11

2019年

📅 Molecular Ecology Resources

联系方式

联系就送mfuzz或者wgcna这样的针对表达量矩阵里面的基因进行直接分组的算法的实例哦!

(添加好友务必备注 高校或者工作单位+姓名+转录组,方便后续认识)

(另外,有少量转录组项目诊断名额,先到先得哈!)







请到「今天看啥」查看全文


推荐文章
西安头条  ·  突发重大刑案!警方通告
2 天前
西安头条  ·  突发重大刑案!警方通告
2 天前
最高人民检察院  ·  周喜安被查
2 天前
健康养身  ·  珍惜吧!人生没有下辈子......
7 年前
医学界影像诊断与介入频道  ·  声音嘶哑,你要注意啦!
7 年前