基因组草图的gap closer软件:GapFiller

1. GapFiller简介 (2)

组装出来的基因组草图的scaffold需要进一步进行gaps的关闭。进行这样功能的软件有:SOAPdenovo GapCloser v1.12r6IMAGEGapFiller.

GapFiller文章发表在Genome Biology上:Boetzer M,Pirovano W. 2012. Toward almost closed genomes with GapFiller. Genome Biol.13:R56。从文章可以完全明白该软件closing gap的原理。

GapFiller需要输入scaffold序列(FASTA)和NGS paired-read数据(FASTA or FASTAQ),输出FASTA格式文件。该软件的获得需要填写一些邮箱和单位信息。商业license需要花钱;学术性需要引用其文章。

2. GapFiller安装

下载GapFiller的安装包,解压缩后,里面包含bowtie、bwa和example共3个文件,其最重要的是GapFiller.pl文件,为主程序。还有2个PDF格式的manual文件。

3. GapFiller的使用

直接运行主程序,会给出软件的参数说明,如下:

-l library文件

-s scaffold序列的fasta文件

-m default:29 和gap边缘重叠的最小碱基数,该数值最好设置比reads的长度小一点点的数。比如36bp长度的reads,设置该值为30~35.

-o default:2 在补洞时,延伸一个碱基最小需要的reads数.

-r default:0.7 在补洞时,至少有该比例reads的碱基一致,才能对该碱基位点进行延伸。

-d default:50 gap部分序列的允许的最大差异。填补gap后,若值“填补上的序列长度 - gap长度”大于该阈值,则停止补洞;若小于该阈值,则不进行融合。

-n default:10 在一个scaffold中对邻近的两个contigs进行融合所需要最小重叠的碱基数。

-t default:10 由于gap边缘的碱基大部分是低质量碱基,补洞时需要先将gap边缘该数目的碱基trim掉,作为N处理。

-i default:10 迭代的最大次数。

-g default:1 使用bowtie进行比对的时候允许的最大的gap数,和bowtie中的-v参数一致

-T default:1 运行时使用的线程数

-S 跳过重新读取输入文件

-b 输出文件的basename。

 

-l 参数所指向的library文件需要先行编辑好。该文件包含7列,每一列之间以空格(space)隔开.其例子和格式如下:

Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR

Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR

Lib2 bowtie file3.1.fastq file3.2.fastq 4000 0.5 RF

 

第1列:library名称

第2列:使用的序列比对方法,如果reads长度<50,则使用bowtie;若长度>50并<150,则使用bwa;若长度很大,比如454的reads,则使用bwa。BWA和BWA-sw运行在默认模式下。

第3,4列:双末端测序的fastq文件或fasta文件。

第5,6列:插入片段的长度,以及承认的长度。比如上例子中插入片段长度为400bp,成对的reads的片段长度只有在[400-400*0.25,400+400*0.25]范围内才被承认。

第7列:双端测序reads的方向,有FF,FR,RF和RR几种。

4. 例子

编辑一个libraries.txt文件,内容如下:

Illumina_160bp bwa fragment.reads1.fastq fragment.reads2.fastq 156 0.25 FR

Illumina_6000bp bwa jumping.reads1.fastq jumping.reads2.fastq 6170 0.25 FR

运行GapFiller程序,如下:

1 $GapFillerHome/GapFiller.pl -l libraries.txt -s genome.fasta -m 90 -T 8 -b species

原文来自:http://www.hzaumycology.com/chenlianfu_blog/?p=1733