很多从事临床科研的朋友,都会碰到“多大样本量”的问题,如何选择样本量是个技术活。样本多了,科研费用吃不消;样本少了,往往不能发高影响力的期刊。毕竟Nature Genetics或CNS上的测序大文章,动辄几百几千,甚至更多的样本量,无论样本数还是费用,一般研究者都望而却步。当然,样本数多有多的好处,并不是说好文章必需大样本量,这是个误区。好创意或重大发现才是王道。自有样本数不多或经费不足咋办?千万不要忘记NCBI、TCGA等众多数据库,可以从不同数据库里找到众多的研究,及其所用数据。这是宝贵的免费资源,一定要用起来。
本文举个例子,原文中只对15个肿瘤患者和5个正常人进行了RNA-seq,仅仅20例。Paper发在了PLOS Medicine,虽然该期刊宣称拒绝IF评判,但人家的IF=12,很霸气吧。该paper充分利用了NCBI和TCGA两大数据库,从NCBI下载了4套SRA数据,也就是4个不同的研究所用的原始数据。从TCGA下载了667个胶质瘤和78个正常样本的RNA-seq数据。总样本数超过了700,样本量挺大,而且,所有样本的分类比较齐全,II期III期和IV期的胶质瘤样本都有。神经胶质瘤的lncRNA研究较少,而lncRNA又是近年的研究热点,该paper找对了痛点。当然,还有一个重要因素,病人信息比较齐全,可做生存分析等多种数据挖掘。下面就大体看看该paper的框架。
结果1. 鉴定新的lncRNA
![](http://mmbiz.qpic.cn/mmbiz_png/CPzCjkN0MOfvPkibpfEmu5XnqyO4icib1iarIdKLQ3vCKTD3SKkv18GReGDRXVtDtKnBcvctRax0Y9gl48icWrH3dxg/0?wx_fmt=png)
这部分说明一下本文的分析流程(A)。CPAT来区分新鉴定的RNA是不是lncRNA(B),CPAT筛选出的疑似lncRNA又与ProteomicsDB数据库比较,检测有无编码能力,这一部分做的很简单,只用了两个方法来鉴定筛选新的lncRNA。还做了一下H3K4me3 ChIP-seq来区分新lncRNA与蛋白编码基因(C)。(GBM:glioblastoma multiforme。LGC:lower grade glioma)
结果2. lncRNA在胶质瘤中的失调或异常
![](http://mmbiz.qpic.cn/mmbiz_png/CPzCjkN0MOfvPkibpfEmu5XnqyO4icib1iarqrNicsC965rfmvb6nqgY5Mdm6xgkPlHtKYWsQCzyj66C2BpToh278lw/0?wx_fmt=png)
第一部分鉴定了新lncRNA,按照常规分析第二步就要找差异表达了,在这一部分,筛选出了1000+个差异表达的lncRNA,之后,作者毫无依据(没说明是根据P值还是变化倍数,也许是作者查了胶质瘤文献,查到了这些lncRNA)的列出了GBM中10个lncRNA(A,蓝色表示上调,红色表示下调,灰色表示没有差异)和LGG中9个lncRNA(B,蓝色表示上调,红色表示下调,灰色表示没有差异)。还对其中的某些lncRNA(如CRNDE与TUNAR)与其他已发表的文献进行了比较。随后挑选了几个差异lncRNA进行了PCR的验证(C)。最后GBM的和LGG的差异lncRNA做了比较(D)。
结果3. 差异的lncRNA与胶质瘤DNA突变之间的关系
![](http://mmbiz.qpic.cn/mmbiz_png/CPzCjkN0MOfvPkibpfEmu5XnqyO4icib1iar0x1RM4P4bd9U6GURMDjiaVVyEK4JMuWnfq8oYSbicCbwPh5AboWewDAg/0?wx_fmt=png)
这部分有点意思,该paper不仅分析了lncRNA的差异表达,还与DNA突变结合了一下。
GBM(A)和LGG(C)中与DNA突变有关的lncRNA及其差异倍数(FC)。GBM(B)中差异的lncRNA与差异的DNA突变之间的overlap很少,而LGG(D)则很多(红色代表上调,蓝色代表下调,灰色代表没有差异)。
结果4. lncRNA与胶质瘤的分型
![](http://mmbiz.qpic.cn/mmbiz_png/CPzCjkN0MOfvPkibpfEmu5XnqyO4icib1iarTgLWkYvrD5OCLM1iazM6Pcnl0X4p7PjKgaA6cJibTf5UTKA3z3swNBFw/0?wx_fmt=png)
这一部分与后面的部分都是常规分析,筛选出了差异lncRNA,要么深入分析做pathway或机制,要么做biomarker,诊断型的或预后型的。做机制需要用到细胞系甚至动物模型,费时费力,但容易出好文章;做biomarker,只需要简单PCR验证,甚至不需要验证,短平快。该paper做的就是biomarker。该部分就是lncRNA对胶质瘤亚型的分类。lncRNA对GBM(A)和LGG(B