大文章下脚料利用---高通量CAPS标记开发 (一)

生信百科 · 公众号 · 医学 · 2017-06-28 12:23

正文

请到「今天看啥」查看全文

请注意，这里 CAPs 不是很多帽子，也不是什么共同农业政策 (Common Agricultural Policy) ，而是 Cleaved AmplifiedPolymorphic Sequences 。

随着越来越多的测序数据公布，尤其是海量重测序数据的释放，很多物种中的基因组多态性位点尤其是 SNP ，不能说完全被发现，但是接近饱和是真的。这几年国内测序环境实在是太好了（钱多人不傻，不要跟我说是因为情怀），热的不能再热，测几百个上千个种，做个群体结构、重要性状 GWAS 、驯化分析，堆堆数据，自圆其说，重要物种花钱花的多的，发个 NG 。影响力小的物种发个 NC 。文章一出，鸡犬升天。。。数据随之束之高阁（有点儿夸张，但也差不多 ^_^ ）。其实内心是很嫉妒的有没有，为什么人家资源那么多还那么有才（ qian ）。

其实花巨资测的这些数据，除了发一个大文章来提高影响力以外，其他的也很有价值。如何利用这些种质资源，结合分子标记进行分子标记辅助育种（ MAS, GS ），提高人们生活质量这才是研究的最根本目的吧。至于什么进化啊，目前没看出来什么应用价值吧，请同行们拍砖，洗耳恭听

情怀说 完了， 说说为 什么要做 这 个高通量 CAPS marker 设计吧 。

官方是这样解释的：

1. 相比 Indel 来说，基因组范围内 SNP 的数量是其 10 倍不止，因为设计 marker 比较麻烦也有限制，除了高通量测序，芯片，这么多资源很少被利用，虽然现在也有什么 fludigum 。身为科研人觉得这样浪费资源太可耻了。

其实是这样的：

1. SSR 已经被人设计完了。

2. Indel 太简单，显示不出能力来啊。会 CAPS 还能设计不出来 Indel 么。

3. 发个文章耍耍，作为数据库类型的文章，可能引用率还是很高的。你看到的没错，是文章，可以发文章！！！看到这里是不是心动了，没看到这就关闭的同学那就不怪我咯。

进入正题

基本思路如下图：

1. 用所有可用的限制性内切酶对要研究物种的全基因组进行酶切，统计酶切位点。

2. 将目前公布的 SNP 数据与酶切位点进行比对，提取重合位点。（这些位点就可以进行 CAPS 标记开发）

3. 对这些位点上下进行 150bp 的片段进行高通量引物设计。跑过胶的同学都知道，对 marker 来说， 200bp 以内还是很好用的 ^_^ 。省酶省时间啊（就是这么抠）。

4. 对你的 primer 进行物种内 blast ，如果你的引物和基因组其他位置高度匹配，那么这种引物就要舍弃。

5. 实验验证。你设计了这么多引物，总得验证下效率吧，不然谁敢用啊。

6. 做个小界面程序方便别人利用，有数据库的放到网站上最好哦。

7. 写个文章吧。（文章大小取决于你研究物种的影响力哦 ……^ ^ ）

准备数据：

1. 研究物种的基因组， fasta format 。

2. 研究物种已公布的 SNP 数据，要有位点信息和 allele 信息。

所需工具：

1. EMBOSS 软件。请自行查找安装，可能有点儿小麻烦，主要是限制性内切酶的数据库问题，这里不讨论如何安装，如果遇到麻烦请留言，留言多了的话再加一期如何安装这个软件。

2. Primer3, 设计引物用。

2. python ，没有 python 我该如何过滤我的数据。。。 perl or any other you want^^.

3. R, 并不是所有语言都能像 R 这么无脑使用的 ^ ^ 。

先抛个话题，下期我们正式搞起。