专栏名称: 生信草堂

最权威生信服务，最前沿的生信咨询~

目录

相关文章推荐

51好读 › 专栏 › 生信草堂

VSE—连接遗传位点和功能基因组的桥梁

生信草堂 · 公众号 · · 2018-05-07 17:00

正文

请到「今天看啥」查看全文

生信草堂交流群

加入模式 : 加微信bioinformatics88为好友, 标注“ 加入生信草堂交流群 ”, 在群里请大家注明自己 本名，单位，研究领域 。

征稿邮箱 ： [email protected]

详情阅览 ：一手科研开花，一手赚钱养家

VSE：连接遗传位点和功能基因组的桥梁

后 GWAS 时代人们最关心的问题是如何解释显著遗传位点的生物学功能。一般来讲，由 GWAS 找到的显著位点大部分落在不编码蛋白的基因组区域，然而我们对这些区域的了解目前还十分有限。随着 ENCODE, FANTOM 等数据库的逐渐完善，基因组中的非编码区段正在被各种新的组学技术揭开神秘面纱。具有某些特定功能的基因组非编码区段是否与 GWAS 易感位点在位置上具有显著的交互关系就显得尤为重要。

为了帮助研究以上科学问题，我给各位读者介绍一款不错的工具—— Variant Set Enrichment (VSE). 首先，这是一个非常有名的 R 包，曾在《 Nature Genetics 》被多次引用。其核心算法是比较真实的遗传位点集合是否比随机匹配的模拟集合更加富集与某一特定的功能基因组区段上。

下面我就带领大家利用示例数据学习使用 VSE 。

1

上传遗传位点数据

首先需要说明的是 GWAS 报道的显著位点以及与其有连锁不平衡的位点都有可能发挥生物学功能，因此我们需要将 tag SNP 以及其 LD SNP 一起纳入分析。 VSE 支持直接从 rAggr 网站（ http://raggr.usc.edu/ ）上获取的具有连锁关系的 SNP 集合。一旦完成以上工作，数据导入就很简单了。

示例代码如下：

library("VSE")

bca.ld

bca.avs

avs.size

2

构建匹配的随机模拟位点

这一步中， VSE 要根据第一步得到的真实的位点信息去基因组中随机产生匹配的模拟位点。只用一行代码就可以轻松搞定。

bca.mrvs.200

###该步骤有两个参数，其中bgSzie表示随机模拟的次数，mc.cores表示用到的计算机节点数，Windows下只能是1

3

载入功能基因组区段信息

还是经典的 bed 文件格式即可。 VSE 自带了 5 个来自 MCF7 细胞系的组蛋白 Chip-seq 的数据，下载地址为（ www.hansenhelab.org/VSE/sample_regions/ ）。读者也可以通过自带函数“ loadSampleRegions ”下载。

# Downloading sample regions

sampleSheet_path

# Loading sample sheet

samples

4

用热图直观描绘遗传位点与功能区段的交互情况

在进行统计分析之前， VSE 可以给出一个近似热图的交互矩阵（如图 1 ）。不禁让人窃喜：又能在文章中多放一个图了。

bca.intersect

图 1 ：遗传位点与基因组区段的交互热图

5

富集分析

VSE 需要 SNP 集合，模拟集合以及基因组坐标三个输入来进行富集分析。一行代码即可实现：

bca.vse

在展示 P 值之前， VSE 还提供 QQ plot 对 null distribution 的正态性进行检验。只有符合正态分布的结果才可行。

par.original

par(mfrow = c(ceiling(length(samples$Peaks)/3), 3), mai = c(1, 1, 0.5, 0.1))

VSEqq(bca.vse)

par(par.original)

如图 2 ，富集分析的正态性进行检验结果

最后，我们可以放心大胆地展示结果了。 VSE 提供图和表两种形式的展示结果的方式。

（ i ）表

bca.vse.res

bca.vse.res

结果如下：

（ ii ）图

VSEplot(bca.vse, las = 2, pch = 20, cex = 1, cex.main = 0.6, padj = 0.05, main = "BCa AVS in MCF7 genomic features")

如图 3 ，红色的点对应的区域既是遗传位点显著富集的区域（ Bonferroni adjusted P-value < 0.01 ）

图 3 ：最终富集结果图

最后，给各位读者一些使用注意事项

（1）VSE对tag SNP的数量非常敏感，低于15会导致不准确的结果。

（2）确保使用0.8作为LD的阈值。

（3）用户需尽量选择可靠来源的功能基因组数据。

（4）随机次数决定结果的显著程度。随机次数越大，分布的正态性越好，结果越可信。

本文为生信草堂原创，欢迎个人转发分享，其它媒体或网站如需转载，请在正文前注明转自生信草堂并联系bioinformatics88

又见数据挖掘|遗传与调控数据揭示肺癌亚型之间的若即若离

功能基因组学研究利器——Hi-C

如何从ENCODE数据库中快速获取组蛋白chip-Seq的可视化数据

功能基因组学研究利器——ChIA-PET

铅笔分割线

undefined

请到「今天看啥」查看全文

推荐文章

OSC开源社区 · OSChina 周六乱弹 ——因为Bug在，故你在。

8 年前

大数据文摘 · 2017大数据版图最新发布：新趋势和新玩家

8 年前

优秀网页设计 · 甲方说，我们没钱买字体...

7 年前

摄影笔记 · 摄友照片点评（街拍）

7 年前

家长慧 · 这10个拉低成绩的致命坏习惯，竟然有八成学生改不掉！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!