Genome-guided Trinity for Gene Structure Annotation
使用genome来引导Trinity进行基因结构注释。
RNA-seq的一个主要用途是识别基因组的转录区,重构转录子结构,同时,鉴定转录子的可变剪切。
现在最新的基于genome的转录子预测方法是将RNA-seq的reads使用剪接比对的方法比对到基因组,然后组装比对结果从而得到转录子的结 构。(eg. cufflinks, scripture)。我们将这种方法称为:align-reads then assemble-alignments
Trinity可以进行不需要参考基因组的de novo组装,见:Trinity的安装与使用;也能进行有参考基因组支持的组装:即将RNA-Seq比对到genome、RNA-Seq read的de novo组装 和 转录子比对 结合起来。
1. 步骤
1.1 align-reads
使用GSNAP来将reads比对到基因组。将基因组分成各个被reads覆盖的区。
1.2 assemble-reads
对每个区使用Trinity对相应的reads进行组装。
1.3 align-transcripts
使用PASA软件调用GMAP来将Trinity-assembled transcripts比对到genome.
1.4 assemble-transcript_alignments
使用PASA软件来组装上一步骤的比对结果,得出完整的转录子结构,同时,也能解析可变剪接的转录子结构。该步骤和上一步骤其实是在同一个PASA程序中执行得到的。
2. 需要的软件
Trinity
GSNAP & GMAP
PASA
3. 运行
Below, we describe the steps required for running the genome-guided Trinity-based transcript reconstruction pipeline. 适合于真菌物种,其基因密度较大。
3.1 Align RNA-Seq reads to the genome
$ $TRINITY_HOME/util/alignReads.pl --seqType fq --left reads.left.fq --right reads.right.fq --target genome.fasta --aligner gsnap -- -t 8
$ samtools view gsnap_out/gsnap.coordSorted.bam > gsnap.coordSorted.sam
3.2 Assemble the aligned reads using Trinity
$ % $TRINITY_HOME/util/prep_rnaseq_alignments_for_genome_assisted_assembly.pl --SS_lib_type FR --coord_sorted_SAM gsnap.coordSorted.sam -I 1000000
$ find Dir_* -name "*reads" > read_files.list
$ $TRINITY_HOME/util/GG_write_trinity_cmds.pl --reads_list_file read_files.list --paired --SS --jaccard_clip > trinity_GG.cmds
$ $TRINITY_HOME/Inchworm/bin/ParaFly -c trinity_GG.cmds -CPU 6 -failed_cmds trinity_GG.cmds.failed -v
$ find Dir_*  -name "*inity.fasta" -exec cat {} + | $TRINITY_HOME/util/inchworm_accession_incrementer.pl > Trinity_GG.fasta
3.3 Align and assemble the Trinity-reconstructed transcripts using the PASA pipeline
$ cp $PASA_HOME/pasa_conf/pasa.alignAssembly.Template.txt alignAssembly.config
$ perl -p -i -e 's/MYSQLDB=.*/MYSQLDB=sample_mysql_database/' alignAssembly.config
$ $PASA_HOME/scripts/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g genome.fasta -t Trinity_GG.fasta --ALIGNERS blat,gmap --transcribed_is_aligned_orient --stringent_alignment_overlap 30.0