专栏名称: 生信圈

关注生物医学大数据、以及数据分析方法在转化医学研究中的应用进展，讨论与生物信息相关的一切话题。

微生物扩增子分析流程——质控拼接

生信圈 · 公众号 · · 2017-09-07 21:00

正文

图片.png

微生物扩增子测序指通过检测目的区域(高变区)序列的变异度和丰度，以研究环境微生物多样性及群落组成差异。低廉的价格是其备受青睐的关键，其主要从物种组成及分布上进行差异研究。质控拼接是微生物测序的关键前提，其直接决定后续分析结果的优劣，主要包括过滤低质量reads和去除接头、barcode、及嵌合体几个步骤。

一、数据及软件准备

Illumine 下机PE reads：sample1_raw_1.fq.gz和sample1_raw_2.fq.gz

常用嵌合体数据库：silva，rdp，glod，这里使用比较小的并方便使用的glod.fa

安装软件Fqcheck,flash,Qiime, Usearch

二、操作步骤

过滤低质量reads及去接头

软件fqcheck，安装过程这里就不详细介绍了，感兴趣的可以自行搜索相关资源。

fqcheck -q 33 -r sample1_raw_1.fq.gz -c sample1_raw_1.fqchek

fqcheck –q 33 -r sample1_raw_2.fq.gz -c sample1_raw_2.fqchek

参数说明：

-q 过滤的最低质量值；

-r 输入文件，原始reads的fastq文件；

-c 输出的质量统计文件

以fqcheck为后缀名的质量统计文件（sample1_raw_1.fqchek，sample1_raw_2.fqchek，见图1）会统计每条reads前100个位点每个位置的ACGTN含量，以及0-40质量值的个数，最终会得到整体的错误率，GC,Q20,Q30(位于文件结尾，见下图)

图片.png

图1 fqchek质量统计文件

图片.png

图2 fqcheck质量统计文件最后两行

拼接及质控

由于扩增子测序目前多以双末端测序为主，测序得到的PE reads需要经过拼接才能得到目标扩增片段的序列，拼接过程和参数如下：

flash sample1.raw_1.fq.gz sample1.raw_2.fq.gz -o sample1 > sample1.flash.log #将左右两条reads进行拼接获得扩增区域序列，其结果文件以sample1为前缀名（-o参数设置）

参数说明：

-m 拼接时overlap区的最小长度，默认10bp；

-x overlap区的最大碱基错配数目/overlap区长度，默认0.25；

-p 质量值类型，64或者33，默认33；

-t 线程数，默认1。

共生成6个结果文件，如图3所示

图片.png

图3 flash拼接的结果文件

其中sample1extendeFrags.fastq文件为扩增片段序列文件,sample1.notCombined_1/2.fastq文件为拼接不上的reads；sample1.flash.log文件详细记录了拼接过程的参数和拼接统计的数据。

拼接得到的tags需要进一步进行质控和序列截取，此部分分析过程和参数如下：

Python split_libraries_fastq.py -q 19 --barcode_type not-barcoded --store_demultiplexed_fastq -o ./ --sample_ids sample1 -i sample1.extendedFrags.fastq –m sample1.mf #split_libraries_fastq.py为Qiime的python包

参数说明：

-q 测序质量阈值，默认为3，程序建议设为19

-r 需要截断的连续低质量碱基数目，默认为3

-p 一条reads中连续高质量碱基率阈值，reads中连续高质量碱基数目/该条reads长度，默认0.75

--barcode_type 设置barcode类型，默认为golay_12，并支持错配；通常设置为整数，对应barcode的长度总和，(此处设置为not-barcoded，我们的样本已经在下机时去掉barcode);

-m 实验设计，依赖样品barcode列表将序列按样品重新命名，见图4；

-o 输出文件夹

-I 输入文件，此处为上一步拼接的文件

-- store_demultiplexed_fastq 是否产生对应的fastq文件，默认为false

--sample_ids 以逗号隔开的样本名列表，当store_demultiplexed_fastq为真时使用

Sample.mf文件为实验配置文件，需要提前自行配置，主要由sampleID，BarcodeSequence，LinkerPrimeSequence，Description四列组成，其中sampleID和Description为必须配置列(见图4)；

图片.png

图4 sample.mf文件

微生物扩增子分析流程——质控拼接

正文

请到「今天看啥」查看全文