专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
51好读  ›  专栏  ›  生信百科

测序结果中的接头序列来自哪里?!

生信百科  · 公众号  · 医学  · 2017-07-20 05:01

正文

本期我们来了解一下测序数据中的接头序列是怎么来的。

Illumina 测序原理

在进入本期的正题之前,我们需要了解一下 Illumina 的测序原理。关于这部分内容,大家可以在百度里搜索:"【陈巍学基因】视频1:Illumina测序化学原理"。这个视频时长13分29秒,很详细地介绍了 Illumina 的测序原理  (陈巍学基因有一系列很棒的视频,建议大家有时间都看一下),我在这里用一张图简单的展示一下:

图1 Illumina 测序原理 (图片来自https://www.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf)

重测序建库程可以简单的概括为:

  1. 随机打断、加A、加接头 (图1A)

  2. 桥式 PCR 扩增成簇 (图1B - F)

  3. 进行测序反应 (图1G - H)

我们的测序结果中为什么含有接头序列呢?

从图1 A 中我们看到,在建库时把 DNA 随机打断为特定长度的片段,然后在每个片段的两端都连上了接头,新形成的测序片段可用图2简单表示:

图2 测序片段构成示例 (图片来自http://nextgen.mgh.harvard.edu/CustomPrimer.html)

图中显示的是仅单端有 Index 的情况,如果 polling 的样品较多时,则双端均会有 Index;

如果建库时未用标准的试剂盒、barcode 位于插入片段开始或者结尾的话 (比如某些 GBS 文库),双端可能均没有 Index。

只有当插入片段的长度小于测序的读长 (PE125 中的 125 就是测序反应的读长) 时才会在测序结果中出现接头序列。我们用一张图简单地介绍一下:

图3 测序结果中出现接头序列的原因 (图片来自

https://www.ecseq.com/support/ngs/trimming-adapter-sequences-is-it-necessary)

图3 上半部分显示插入片段长度大于测序读长的情况,这时我们得到的都是未含有测序接头的正常 reads;

图3 下半部分显示插入片段长度小于测序读长的情况,这时我们得到的是含有测序接头的 reads;

如果插入片段长度为124,测序读长为125,那么测序得到的 read 里会有 1 碱基的接头序列;

一般的建库流程 (如重测序、外显子测序、简化基因组测序等) 会有片段选择步骤,只要控制好片段区间,测序结果中一般不会出现测序接头或者接头含量很少;

某些特殊的文库 (如小 RNA 文库) 插入片段很短,测序得到的每条 reads 都会有部分接头序列出现。

Reads 中的接头我们该如何处理呢?

关于是否有必要去掉 reads 中的接头序列存在争议。测序接头是人工合成的、不会出现在目标基因组中的序列,它的存在会降低 mappping quality,增加不能 map 的序列,个人觉得我们应该在质控阶段截掉接头序列 (推荐做法) 或者去除含有接头序列的 reads

往期回顾:

数据质量不好,可以用么?
FastQC 你需要知道的在这里!
群体基因组学之分析流程介绍
fastSructure 的安装及使用介绍
无脑安装群体遗传学常用软件
使用 HiSeq 3000/4000/X ten 测序的注意啦!
群体遗传学相关研究的测序方法选择以及取样策略

为了便于交流、讨论,我们建立了一个QQ群 (575383226),欢迎大家积极加入。

如果喜欢我们的文章,欢迎订阅我们的公众号。