阅读文献或查询数据库的时候,经常遇到各种各样的Gene Symbol、ID、name,一个基因在不同数据库中往往有不同的名字,马甲太多,尤其是ensembl这个数据库。举例说明,非编码基因DDX11L1,它在ensembl中的名字是ENSG00000223972,但,有时候在文献中它还叫ENSG00000223972.5或ENSG00000223972.4。其实有规律可循,DDX11L1在ensembl中的ID是ENSG00000223972,在GRCh38中叫ENSG00000223972.5,而在GRCh37中叫ENSG00000223972.4。也就是说ID小数点后面数字代表ensembl版本号。在转换ID的时候要把小数点及后面的数字去掉,以免有些数据库不识别。因为NCBI不支持ensembl的基因ID,因此本文介绍一下Ensembl与NCBI Gene ID的转换工具。
1. DAVID:https://david.ncifcrf.gov/conversion.jsp
DAVID主要用于基因功能富集分析,它支持多种gene ID。它有一个专门的ID转换工具:Gene ID Conversion Tool。
1)粘贴上要转换的gene ID,如果基因多的话,就放在文件里,上传文件。
2)选择这些基因的类型:此处为Ensembl Gene ID。
3)选择基因类型:ID转换用“Gene List”。
4)选择把Ensembl Gene ID转换成什么类型的ID:此处为ENTREZ_GENE_ID。
5)最后提交:Submit List。
2. ENSEMBL: http://asia.ensembl.org/biomart/martview/ed5cf4d3337ba783ed44f2993a07acef
NCBI不支持ensembl的ID,ensembl却支持NCBI的Ensembl Gene ID。Ensembl还提供ID转换。注意:在转换ID的时候要把ensembl ID小数点及后面的数字去掉。
1)点击“Dataset”,在右侧选择对应的gene ID类型。
2)点击“Filters”,继续点击右侧的“GENE”,最右侧选择输入的gene ID的类型,并上传文件。最多500个ID,不能做大量的ID转化。
3)点击“Attributes”,选择输出的内容,输出EnsemblGene ID和ENTREZ GENE ID。
4)最后点击“Results”就会返回结果了。