146+72本期刊《SCI期刊分析+选刊网站》免费领
扫描下方二维码免费领取☟☟☟
大家好,我是风。上回我们已经把文章复现完成了,这周按照计划应该是进行文章的扩展分析,写推文时候我突然醒悟,困扰大家的并不一定是怎么做扩展分析,而是怎么找到扩展分析的思路。其实宝山就在大家眼前,关键在于你想不想得到?敢不敢想?酸菜老师的《三十六策》凝集了医生做科研的精华所在,“玄之又玄,众妙之门”,奥妙之处肯定不止在于基础科研的套路。大家都练九阴真经,梅超风练成了“九阴白骨爪”,而杨过却悟出了“黯然销魂掌”,今天我们也来斗胆一试,看看从《三十六策》中能不能悟出一点生信内功?
我们就以前面复现的那篇文章展开,来看看基因家族的分析套路能够添加什么内容?
传送门:少妇体验,2020年零代码4分生信套路拆解+全文复现
从简单的开始,《三十六策》中讲到三变量有分子、药物、通路,其中最简单的变量就是药物,那我们就挑软柿子下手。生信分析最常见的就是做诊断和治疗靶点,那么从药物的角度切入也就顺理成章,药物作为一个可爱的变量,它没有分子那么多变。从药物入手我们最容易想到的就是化疗药、中药,化疗药物有网站名为GDSC,而中药更是开辟出一种套路叫做网络药理学。
因为GDSC纳入的基因有限,所以我们以熟悉的BRAF为例,我们来探讨BRAF突变与化疗药物IC50之间的关系,IC50的概念我就不展开了,简单地说,IC50是越低越好。我们先打开GDSC网站(https://www.cancerrxgene.org/ ):
在检索框中输入BRAF后按回车,进入下方页面:
选择GDSC1进入,也就是第一行,就出现了相应的IC50曲线:
接着点击scatter plot到散点图页面:
这里默认选择p值最小的药物,显示BRAF突变与药物IC50之间的关系,当然也可以右上角“Select Feature”选择类型进行展示,GDSC还有很多东西可以探索,这里我们只提供最简单的方法。
那如果你是学中医的想要研究中药,看看陈皮的有效成分与你研究的基因家族如CXCL1在肿瘤中的作用,那你可以做一个网络药理学分析,常规我们做网络药理学需要通过GeneCards等网站找疾病的靶基因,但是你有了目标基因就可以直接使用TCMSP的结果进行关联,中药那么多啊,在TCMSP筛一圈总会有结果出来,说不定还可以找到目标基因的某个中药有效成分,然后借此设计一个课题,那不就是双喜临门。网药是一个很复杂的操作,这里我直接呈现一张图片让大家看看做完这一圈分析大家可能会得到什么结果,给大家类比一下:
以CXC家族和肾透明细胞癌KIRC为数据进行分析,那么得到类似上图的结果就应该是:中间HCC换成KIRC(疾病名称),第一个圈为某种中药有效成分,第二个圈为CXC家族成员(目标基因)。
从药物角度进行扩展,寻找基因和化疗药物的关系我们可以看成是“老药新用”,而寻找中药有效成分看成是“发现新药”,这是三十六策第五章——“引药生变”,你看,同样的思路,不仅在基础科研适用,在生物信息学分析一样适用。
药物进行切入是最简单的方向,那除了药物,我们还有千变万化的第二个变量——分子。36策在讲分子这个变量的时候就说到了生物信息学——“要么筛,要么猜”,不可否认,生信的最终目的在于“筛”,但是这个过程我们可以千变万化。
从分子入手,我们先一起来看一个网站:
ENCORI,也就是曾经的starbase,上边的菜单栏就已经完美解释了分子这个变量在生信分析中可以做的工作。我们举几个例子:
ceRNA,36策第21策——“蝶使蜂媒” :这种在生信中被玩到奇招迭出的套路其实是属于RNA交互的升级模式,它的本质的miRNA作用机制的升级,将线式调控转换为网络式调控,你们想想是不是这么回事?我们呈现ceRNA网络的时候,是不是以LncRNA—miRNA—mRNA的方式进行呈现,不管你是用cytoscape构建网络还是使用桑基图,miRNA总是中间那个稳如泰山的存在。当你有了目标基因,想要寻找这些目标基因可能参与的机制,那就可以构建一个ceRNA网络,在文章的最后放上一个ceRNA网络调控的图,别人的文章都是以ceRNA为主体,而你的文章却把ceRNA作为其中一个Figure,这样的小心机,你说会不会比其他人的文章更容易接收呢?
RNA-蛋白交互,36策第20策——“左右逢源”:蛋白是执行功能的基本单位,以RNA和蛋白进行交互有在生信中有两种呈现方式:RNA-RBP和RNA-蛋白组学,前者RNA结合RBP只是使用RBP来间接表示蛋白,而后者直接升级到了多组学层面进行分析。RBP与RNA的相互作用一样可以通过ENCORI进行分析,甚至目前有的生信套路直接搜集所有的RBP然后进行“挑圈联靠”分析,简直残暴!那蛋白质组呢?可以登陆CPTAC和TCPA数据库下载蛋白质组学数据进行分析,当然更简单你可以使用UALCAN(http://ualcan.path.uab.edu/ ),里面直接提供了CPTAC数据分析页面:
当然如果你觉得上面的内容可能暂时做不了,只想用在线数据库,那你还可以上游找驱动因素,上游有两个常见的机制,第一个是转录因子,CXC家族分析的文章已经使用了转录因子也就是TRRUST数据库来获得Table 2,这属于16策——“秉轴持钧”:
第二种就是第17策——“甲冠天下”,甲,就是甲基化,探讨RNA甲基化和RNA表达量的关系,或者探讨特定基因cg位点和RNA表达量的关系,甚至探讨特定基因cg位点和疾病临床病理参数的关系,这些都是可以添加的内容,数据库很多啊,我们随便拎几个出来:cBioportal,MethyCancer,MEXPRESS,这些在线网站都可以不断继续应用。
分子的变化无穷无尽,如果你觉得上面的东西你还不过瘾,那我们继续往下再深入一点:
可变剪切,36策第23策——"阳奉阴违”,可变剪切属于mRNA转录出来加工成熟的过程中产生的RNA水平的变化在安德森肿瘤中心开发的Splice-Seq网站(https://bioinformatics.mdanderson.org/TCGASpliceSeq/ )将可变剪切模式分为了7种,分别是:AA/AD/AP/AT/ME/ES/RI,生信分析套路中就有一种基于可变剪切数据进行分析的套路,当你有了特定靶基因之后,可以直接输入到网站中,将出来的基因的可变剪切模式呈现在文章之中,然后与其他结果合并解释,也可以分析基因特定可变剪切模式与RNA表达之间的相关性,甚至在可变剪切中有一类RNA叫做Splicing Factor,你可以直接分析特定基因与这些Splicing Factor之间的相关性,至于可变剪切下游的解释,你可以直接解释表型相关,或者是通路相关,这些操作起来较有难度,但是可以从文献中进行引用和借鉴。
如果你还是觉得不过瘾,想要再深入一把,那么36策第五章——“敝而新成”,你应该会甘之如饴。“敝而新成”这一章讲的是细胞交互,细胞?听到这里你们想到了什么?细胞系?免疫细胞?都可以,细胞系可以是特定药物的细胞系那你就需要跳回到前面看药物部分的GDSC,结合分子——药物——细胞系进行阐述,当然还有CCLE数据库,还可以一键分析,美滋滋,当然免疫细胞更不用我说了,现在发个生信文章添加免疫细胞的内容都成了标配了?但是还是想提醒一下大家,免疫细胞的简单分析现在大部分文章都在用,如果用了之后讨论部分不能衔接好,那可能就不是加分而是减分了,甚至因为这个画蛇添足而使文章直接毙掉的可能都有(好好品 ψ(`∇´)ψ)
其他的分子的内容很多,比如m6A RNA甲基化、自噬、代谢等等基因集,先不说直接拿这些特定表型分子进行发文,在文章的末尾跟这些特定表型基因简单靠一下那也还行,当然更常见的应该还是CNV、SNP等等内容,分子这个变量千变万化,从来只有你不敢想,就是没有它做不到,如果你觉得它做不到,那估计只是你想不到。
我们医生做生信,先天上就不足,因为变成能力就比不上生物信息学专业的牛人,甚至我们常用的R,在专业的编程人员手中都不算是编程语言。然而我们也有我们的优势,我们有着系统的生物学背景,还有着《36策》这样的秘籍,今天的推文还只是说了三变量中的“药物”和“分子”,你看啊,三变量都还没说完,还有5恒量可以横向延伸纵向嵌套,所以找不到分析的思路?终究还是没有好好看书啊!idea不仅可以来源于文献,也可以来源于酸菜老师的总结,更何况这只是《36策》,如果我告诉你,《24型》也能找到很多生信分析的影子,那你会是什么心情呢?相信我,当你的生信文章跨过了“模仿”的阶段,想要进入下一阶段进行创新的时候,学好《36策》,你一定会有收获!好啦,36策的江湖等着大家去继续探索,是“一剑霜寒十四州”还是“何处江天不可飞”,全在你想象之间,我们下回见!(*^_^*)