请注意,这里CAPs不是很多帽子,也不是什么共同农业政策(Common Agricultural Policy),而是Cleaved AmplifiedPolymorphic Sequences。
随着越来越多的测序数据公布,尤其是海量重测序数据的释放,很多物种中的基因组多态性位点尤其是SNP,不能说完全被发现,但是接近饱和是真的。这几年国内测序环境实在是太好了(钱多人不傻,不要跟我说是因为情怀),热的不能再热,测几百个上千个种,做个群体结构、重要性状GWAS、驯化分析,堆堆数据,自圆其说,重要物种花钱花的多的,发个NG。影响力小的物种发个NC。文章一出,鸡犬升天。。。数据随之束之高阁(有点儿夸张,但也差不多^_^)。其实内心是很嫉妒的有没有,为什么人家资源那么多还那么有才(qian)。
其实花巨资测的这些数据,除了发一个大文章来提高影响力以外,其他的也很有价值。如何利用这些种质资源,结合分子标记进行分子标记辅助育种(MAS, GS),提高人们生活质量这才是研究的最根本目的吧。至于什么进化啊,目前没看出来什么应用价值吧,请同行们拍砖,洗耳恭听
情怀说完了,说说为什么要做这个高通量CAPS marker设计吧。
官方是这样解释的:
1. 相比Indel来说,基因组范围内SNP的数量是其10倍不止,因为设计marker比较麻烦也有限制,除了高通量测序,芯片,这么多资源很少被利用,虽然现在也有什么fludigum。身为科研人觉得这样浪费资源太可耻了。
其实是这样的:
1. SSR已经被人设计完了。
2. Indel太简单,显示不出能力来啊。会CAPS还能设计不出来Indel么。
3. 发个文章耍耍,作为数据库类型的文章,可能引用率还是很高的。你看到的没错,是文章,可以发文章!!!看到这里是不是心动了,没看到这就关闭的同学那就不怪我咯。
进入正题
基本思路如下图:
1. 用所有可用的限制性内切酶对要研究物种的全基因组进行酶切,统计酶切位点。
2. 将目前公布的SNP数据与酶切位点进行比对,提取重合位点。(这些位点就可以进行CAPS标记开发)
3. 对这些位点上下进行150bp的片段进行高通量引物设计。跑过胶的同学都知道,对marker来说,200bp以内还是很好用的^_^。省酶省时间啊(就是这么抠)。
4. 对你的primer进行物种内blast,如果你的引物和基因组其他位置高度匹配,那么这种引物就要舍弃。
5. 实验验证。你设计了这么多引物,总得验证下效率吧,不然谁敢用啊。
6. 做个小界面程序方便别人利用,有数据库的放到网站上最好哦。
7. 写个文章吧。(文章大小取决于你研究物种的影响力哦……^ ^)
准备数据:
1. 研究物种的基因组,fasta format。
2. 研究物种已公布的SNP数据,要有位点信息和allele信息。
所需工具:
1. EMBOSS 软件。请自行查找安装,可能有点儿小麻烦,主要是限制性内切酶的数据库问题,这里不讨论如何安装,如果遇到麻烦请留言,留言多了的话再加一期如何安装这个软件。
2. Primer3, 设计引物用。
2. python,没有python我该如何过滤我的数据。。。perl or any other you want^^.
3. R, 并不是所有语言都能像R这么无脑使用的^ ^。
先抛个话题,下期我们正式搞起。