测序结果中的接头序列来自哪里？！

生信百科 · 公众号 · 医学 · 2017-07-20 05:01

正文

本期我们来了解一下测序数据中的接头序列是怎么来的。

Illumina 测序原理

在进入本期的正题之前，我们需要了解一下 Illumina 的测序原理。关于这部分内容，大家可以在百度里搜索："【陈巍学基因】视频1：Illumina测序化学原理"。这个视频时长13分29秒，很详细地介绍了 Illumina 的测序原理 (陈巍学基因有一系列很棒的视频，建议大家有时间都看一下)，我在这里用一张图简单的展示一下：

图1 Illumina 测序原理 (图片来自https://www.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf)

重测序建库过程可以简单的概括为：

随机打断、加A、加接头 (图1A)
桥式 PCR 扩增成簇 (图1B - F)
进行测序反应 (图1G - H)

我们的测序结果中为什么含有接头序列呢？

从图1 A 中我们看到，在建库时把 DNA 随机打断为特定长度的片段，然后在每个片段的两端都连上了接头，新形成的测序片段可用图2简单表示：

图2 测序片段构成示例 (图片来自http://nextgen.mgh.harvard.edu/CustomPrimer.html)

图中显示的是仅单端有 Index 的情况，如果 polling 的样品较多时，则双端均会有 Index；
如果建库时未用标准的试剂盒、barcode 位于插入片段开始或者结尾的话 (比如某些 GBS 文库)，双端可能均没有 Index。

只有当插入片段的长度小于测序的读长 (PE125 中的 125 就是测序反应的读长) 时才会在测序结果中出现接头序列。我们用一张图简单地介绍一下：

图3 测序结果中出现接头序列的原因 (图片来自

https://www.ecseq.com/support/ngs/trimming-adapter-sequences-is-it-necessary)

图3 上半部分显示插入片段长度大于测序读长的情况，这时我们得到的都是未含有测序接头的正常 reads；
图3 下半部分显示插入片段长度小于测序读长的情况，这时我们得到的是含有测序接头的 reads；
如果插入片段长度为124，测序读长为125，那么测序得到的 read 里会有 1 碱基的接头序列；
一般的建库流程 (如重测序、外显子测序、简化基因组测序等) 会有片段选择步骤，只要控制好片段区间，测序结果中一般不会出现测序接头或者接头含量很少；
某些特殊的文库 (如小 RNA 文库) 插入片段很短，测序得到的每条 reads 都会有部分接头序列出现。

Reads 中的接头我们该如何处理呢？

关于是否有必要去掉 reads 中的接头序列存在争议。测序接头是人工合成的、不会出现在目标基因组中的序列，它的存在会降低 mappping quality，增加不能 map 的序列，个人觉得我们应该在质控阶段截掉接头序列 (推荐做法) 或者去除含有接头序列的 reads。

往期回顾：

测序结果中的接头序列来自哪里？！

正文

数据质量不好，可以用么？

FastQC 你需要知道的在这里!

群体基因组学之分析流程介绍

fastSructure 的安装及使用介绍

无脑安装群体遗传学常用软件

使用 HiSeq 3000/4000/X ten 测序的注意啦!

群体遗传学相关研究的测序方法选择以及取样策略

请到「今天看啥」查看全文