写在前面
全基因组层面可视化特征标记(如基因位点),从文字标签到图形标签。文字标签应该是三四年前实现的。图形标签,Emmm,事实上,这个功能已经实现了太久,以至于我自己只记得可以实现,而不记得如何使用。考虑到昨天推出这个功能后,不少朋友还是挺感兴趣,于是想了一下,那就干脆写一个教程贴。大体介绍下,这个功能到底咋用。
IOS 逻辑
前述我在推文和几场直播中,都已经提及 TBtools 的 IOS 逻辑。相信大家都不陌生。此处我们直接进入主题,看看具体可视化所需的文件及其格式:
以下逐个文件展开说明
染色体长度文件
顾名思义,记录了每条染色体的长度信息。只要有基因组序列文件,可以使用 TBtools 的 Fasta Stat 直接生成一个。如下
于是可以得到
特征标记的染色体位置
这个文件,得靠大家自己准备了。比如可以是某个基因家族的成员,或差异表达基因分布,更或者分支标记等信息。此处,我们使用 sRNAanno 数据库上 水稻 的 PHAS 注释信息,进行可视化。直接在
http://plantsrna.org/PHAS21list.jsp?species=Oryza_sativa 页面复制,保存到本地 txt 文件即可。对应的 24 nt PHAS的链接为 http://plantsrna.org/PHAS24list.jsp?species=Oryza_sativa
注意,在Excel里面做文本整理,记得另存为 制表符分隔 的文本文件。
特征标记的着色信息
TBtools 支持两类输入:
-
标记ID\tR,G,B
-
标记ID\tlog2Fc
很明显,前者的意思是,对标记ID进行颜色自定义,后者是一个偷懒过程。比如log2Fc是正数,那么就会显示为红色,是负数就会显示为绿色。对于 PHAS 位点,有不成文的着色方案。所以 21 PHAS 位点,我们全部给蓝色,而 24 PHAS 位点,我们全部给橙色,如下,
染色体热图信息文件
... 可以使用 TBtools 的 Gene Density Profile 功能,基于基因结构注释的GFF3/GTF文件直接生成,具体参考《生信札记》公众号往期推文《TBtools | 全基因组 - 基因密度统计,充实你的图片》。
准备就绪
进行可视化!
Emmm,我们必须承认,这是一个不错的开始。起码已经可视化出来的。只是.....
水稻的PHAS位点太多了,以至于图片太长,我们无法很好的展示。
使用图形标签
于是,我们只需要对 基因位置信息 文件增加一列即可。如下,
原来的文件信息,
我们对所有 PHAS21 位点信息增加一列
0
,而对所有 PHAS24 位点信息增加一列
1
。(当然,目前是支持四种性状,0,1,2,3,如果需要增加维度,建议和着色信息做组合)。得到
保存后用于可视化,于是得到
优化可视化参数
使用了图形标签之后,可以发现,多少还是有不少希望。我们可以进一步压缩邻近的位点,比如把距离不超过100kb的PHAS位点合并展示,于是可以得到