科研内卷、毕业头秃的当下,哪怕是985的准毕业生可能也差那么一两篇小文章,又或者某个editor提出了你这分析/主附图稍有欠缺呀,先加个生存曲线看看吧~小修,45个问题,就问你怎么办?
各类成功发表的研究表明,editor们的中肯建议和意见绝对、肯定、一定是有道理滴~!那么各位研究癌症的青椒们、硕博研究生们、准毕业生们,看这里:RNADisease数据库(网址先给出来,http://www.rnadisease.org/ or http://www.rna-society.org/mndr/),是一个RNA-disease互作数据资源在线平台,收录近350万条RNA与疾病相关互作数据、提供RNA预测和富集工具,以及RNA-cancer相关的系列丰富分析结果,旨在为研究者提供更加简单易获得的RNA-disease数据资源平台,促进疾病的研究(是的,就是这个目的)。接下来我们来看看使用小技巧(扒图小技巧,不是)吧!
RNADisease中的数据主要由三部分构成:实验验证数据,收录经过实验验证的互作条目近35万条,涉及117个物种、18种RNA与4,090种疾病;算法预测数据,300万条;高通量测序数据:整合分析了来自TCGA/ICGC/TARGET数据库中44种癌型的三种RNA(mRNA/lncRNA/miRNA)的高通量测序数据。
接下来将在平台功能展示中详细介绍三部分数据的具体情况。
(一)实验验证数据
1、RNADisease中的实验验证数据可以在Home页面中非常简便的进行快速搜索,本质上提供的是一个模糊查询模块,以"RNA symbol"+"TP53"的组合为例,返回结果为RNA symbol中包含TP53字样的所有RNA以及相关的疾病信息。值得注意的是RNADisease中还收集整理了编码RNA与疾病的互作数据。
2、快速搜索获得的结果,用户仍可进行如下操作,以筛选更具兴趣偏好的特异性数据集:
(1)平台支持在结果中进一步通过疾病名称检索或组合Data source选项筛选结果条目中仅由强/弱实验验证证据支持的互作关系(关于强、弱实验证据归类信息详见平台首页的“Statistics”版块最下方列表)。
(2)检索结果默认按照Score(标题行第五列,用于标识互作数据可靠性的打分)进行降序排列,如需按照其他参数进行排序,则可通过“Sort by”选项对全部检索结果实现重排序,目前支持五种参数的重排序需求(每次只能选择一个参数):RNA Symbol、Category、Species、Disease Name和Score。
(3)进阶重排序。如需先按照RNA类别再按照疾病名称对当前页的结果数据(默认50条,可在右下角number of per page中输入当前页想要增加至多少条数据)进行重排序,则可先点击Category,再按住键盘shift键点击Disease Name即可,如果数据条目过多不便操作,可通过download下载后在本地进行更多操作。
(4)Detail-结果数据的详细信息。以TP53COR1-Breast Cancer条目为例(上图第5行),点击detail查看具体信息:
a. 基本信息:包括平台内该条目的专属ID、数据来源的实验证据强弱评价、物种及平台底层算法提供的置信度评分系统对该条目的打分(分值区间为0-1,分值越高代表互作关系可靠性越高,其已被多重证据验证支持);
b. RNA相关注释信息:注释信息来源于公共权威数据库和RNADisease平台开发课题组多年来自主开发和不断更新的系列RNA相关互作(RNAInter v4.0-Nucleic Acids Research. 2022. 50(D1):D326-D332)、定位(RNALocate v2.0-Nucleic Acids Research. 2022. 50(D1):D333-D339)和功能(ViRBase v3.0-Nucleic Acids Research. 2022. 50(D1):D928-D933; cncRNAdb-Nucleic Acids Research. 2021. 49(D1):D65-D70)等数据资源分析平台,通过深挖RNA多维数据资源并有效整合和合理评估,目前已经实现各个数据库之间的资源共享,RNADisease平台中也注明了所使用的关联数据库的版本以及具体的上线年份。
c. 疾病的详细注释:基于Disease Ontology、MeSH、KEGG DISEASE数据库的疾病注释信息,详细列示包括官方疾病名称、来源数据库内该疾病的专用ID(提供跳转链接供进一步查询相应数据库中的更多信息)、别称、概述及相关药物信息等。
d.文献中涉及实验验证的证据支持信息:这部分信息在RNADisease中的呈现也是非常丰富的,列示了支持该条互作关系的不同来源的各类实验证据,并依据生物学实验验证方法的功能强弱与有效性区分强实验验证证据和弱实验验证证据,方便生物学家根据自身研究方向和验证标准获取信息。
(这里我们找一个信息比较全的条目来展示一下~)
(二)算法预测数据
大数据时代仅通过人工检索是个极为费时费力的过程,算法的开发和应用能够有效提升效率与效能。RNADisease中整合收录了来源于23种不同RNA-disease预测算法的预测数据,可在Search(精确查询、模糊查询、批量查询均可)页面中通过Data Source选项获得。这里以hsa-miR-34a-5p为例检索其在预测数据中相关疾病的条目信息,检索后的数据结果相关操作可参照实验验证数据部分。
点击detail同样可以看到基本信息,RNA和disease的注释信息的展示都和实验验证数据的相同,这里我们着重看一下不同的部分:
(三)高通量测序数据
现阶段大量的生物学研究和基础分析或多或少都会将TCGA/ICGC等公共平台内的数据集作为验证集或对照组佐证自身研究,或尝试应用其中的生存信息、临床信息对研究中涉及或发现的关键RNA的功能和作用机制建立关联。较为常见的分析流程为:下载count表达谱、临床信息-进行标化-差异分析、功能富集和生存分析。RNADisease基于常规分析流程,整合TCGA/ICGC/TARGET数据库中44种癌型的数据,应用三种常用的差异表达分析方法(DESeq2/EdgeR/Wilcoxon rank sum test)进行差异表达分析,分别基于不同的差异结果进行功能富集和生存分析,构建底层数据池。当使用者想了解某个RNA在某种癌症中是否生存显著、是否差异表达时都可以直接在RNADisease中的Cancer Analysis中进行检索。
1.如在关键词位置选择RNA Symbol,输入hsa-miR-34a-5p,检索其在哪些癌症中差异表达,且与生存显著相关?以DESeq2分析方法为例,我们来看一下RNADisease提供了哪些信息。
(1)目标RNA的基本信息与关联信息
(2)目标RNA在疾病中的表达情况
(快看,有图,而且右侧和下侧的伸缩栏有看到吗?没用红框标,但是进去上下拉和左右拉绝对有惊喜,想要什么范围留什么范围,想要几个癌症留几个癌症,直接可以下载,上下图来找茬,看看哪里不一样?)
(3)目标RNA在不同癌症中的差异表达
(同上的操作,任君选择,绝对没有强调的意思,相信我,看我真诚的眼神)
(4)目标RNA在哪些癌症中与生存时长显著相关
结果显示hsa-miR-34a-5p在READ中与生存时长显著相关。若目标RNA在多种癌型中生存显著则会出现选择不同癌症的选项,若不在任何癌症中生存显著则不显示这部分结果。
(图!!!)
2. 同样在关键词的位置可以选择癌症名称,输入想要查询的癌症名称,检索查看针对该癌型的分析情况。这里以PCPG为例,差异分析方法选择EdgeR:
(1) 疾病的基本信息
(2)疾病中top30(50,100)差异表达的RNA,显示该癌症疾病样本中平均表达值最高的top30(50,100)的RNA。注:若正常样本数量少于3,则不进行差异分析。
(3)PCPG中相较于其他43种癌症而言特异性差异表达的RNA
(4)基于PCPG中差异表达RNA进行KEGG和GO富集,展示top20富集的KEGG pathways或者GO terms。
(5)生存分析,对差异表达的RNA,按照大于/小于PCPG中所有疾病样本的表达均值分为两类,进行生存分析。
RNADisease平台整合收录超三百万条数据,覆盖一百多个物种、四千多种疾病和十几种RNA类型。按疾病种类、RNA类型、物种和预测算法四种分类方式分别列示于Browse页面下,方便用户批量获取相关数据资源。以按疾病种类分为例:平台使用Disease Ontology、MeSh、KEGG DISEASE三种数据库的归集方式对数据进行分类,对无法使用上述三种分类标准进行分类的归入Other Diseases中。以Disease Ontology数据的分类标准为例,点击具体的疾病名称,将会自动搜索所有与该疾病相关的所有数据。其他三种方式同理。
平台内嵌了两大类在线工具,分别是基于RNA序列的RNA-disease预测工具和基于实验验证数据的疾病富集工具。
(一)Prediction Tool
RNADisease中集成了四种不同类别的RNA-disease(miRNA/lncRNA/circRNA/ piRNA)预测工具,只需要几个简单的步骤就可以使用。
1.选择需要预测的RNA类型,如miRNA。不同RNA类型使用的预测工具各不相同,如miRNA与疾病关系的预测使用的是MDNNMTF工具(首次发表于2021年),会标识在对应的RNA类型后面。
2.如图所示输入或上传fasta格式的RNA序列(也可使用.txt文件)。我们这里输入hsa-mir-17以及hsa-mir-142的序列作为示范。
3.选择每个待预测RNA需要展示的结果数量,这里以10为例。
4.点击Run按钮得到所有预测结果。为了方便用户的使用,RNADisease提供全部结果的免费下载,每个RNA的预测结果将被分别保存在不同的.xls文件中。
(二)Disease Enrichment Tool
平台内整合收录大量人工收集的实验验证数据,基于这些数据资源构建以实验验证数据为背景、超几何分布为原理的疾病富集工具。用户可输入RNA symbol/RNA ID或以文件的形式上传RNA list,通过设置个性化参数,类比GO/KEGG富集分析的原理,获得与用户输入/上传的RNA list显著相关的疾病。结果呈现方式包括疾病富集的全部结果表格及top20显著相关疾病的条形图和气泡图。
1.使用步骤
(1)选择需要输入的RNA List的类型。目前支持lncRNA、circRNA、piRNA、mRNA、miRNA五种RNA类型。如果选择‘All’则代表输入的RNA List 可以包含所有五种RNA类型。这里以lncRNA为例。
(2)输入或上传RNA List,可点击平台提供的例子了解使用方法。这里以平台提供的lncRNA List为例。
(3)根据需求,设置个性化筛选条件,以控制结果的输出。其中P Value用于限制富集到疾病的最小p值,如设置为0.05就只会得到富集p值小于0.05的疾病;FDR值的作用与P Value相似,用于限制富集到疾病的最小FDR值,FDR值是通过对P值进行BH矫正获得;Max Count和Min Count分别用于限制富集到疾病的最大RNA数量和最小RNA数量,默认值分别为10000和0,如不作修改则会得到富集数量介于0~10000的疾病。
(4)点击Run按钮,获得平台数据中匹配到的RNA Symbol List,将会输出RNA List中能在RNADisease平台数据中找到的所有RNA。值得注意的是,如果输入的RNA List中包含RNA ID的话,将会被全部转换成对应的RNA Symbol再输出。
(5)复核Match RNA Symbol List,确保其中包含目标RNA,点击Go按钮。
2.结果展示
(1)Disease Enrichment 首先提供了一个列表,表中包含所有被显著富集的疾病。其中Disease Name是疾病的名称;Count是平台数据中该疾病所有相关RNA与RNA List中RNA重叠的数量;Number是平台数据中该疾病所有相关RNA的数量;P Value 和FDR 分别是RNA List富集到该疾病的P值和矫正后P值(BH矫正);RNA列包含了RNA List中所有富集到该疾病的RNA Symbol。
(2)与目标RNA最相关的20种疾病展示(气泡图)
(3)与目标RNA最相关的20种疾病展示(双向条形图)
RNADisease 提供实验数据、预测数据以及历史版本数据的下载。其中实验数据可以根据需要选择mRNA-disease、miRNA-disease、lncRNA-disease、circRNA-disease、piRNA-disease、snoRNA-disease、tRNA-disease七种类型的互作数据进行下载。只需点击对应类型数据后侧红色Download按钮即可下载。
预测数据可从miRNA-disease、lncRNA-disease、circRNA-disease、piRNA-disease四种类型中选择下载。
历史版本数据包含MNDR v3.0、MNDR v2.0、MNDR v1.0三个版本。
下载文件中,每列所代表的含义如下:
更详细的使用指南可参见http://www.rnadisease.org/help(RNADisease的Help界面说明)
最后的最后,正经科研,请正确(正经)引用,不洗锅、不背锅、勿cue,谢邀~
来源:RNADisease v4.0: an updated resource of RNA-associated diseases, providing RNA-disease analysis, enrichment and prediction. Nucleic Acids Res. 2022. doi: 10.1093/nar/gkac814.
PMID: 36134718