sequencing

NGS data analysis (tips | seqclean | Gap Filling | Scafolding) MEME | MUMMER | The MUMmer 3 manual | The MUMmer Home Page | The MUMmer 3 examples | Platanus

SRA | SDSPB-SRA | AMOS | AMOS2 | AMOS Getting Started | Bambus2 | AMOS Fedora installation | Hawkeye | Minimus2 | Quake | PASA |

DeLoxer | Rocks cluster

QuorUM error corrector | MaSuRCA assembler | RNA-Seq data analysis | DeconSeq | REAPR | 基因组大小 | SMALT | CoGe | Eric Lyons | Infernal (rna注释一网打尽) | Rfam 11.0|

gam-ngs | GAA | REAPR | Mauve | Sailfish(做表达量计算) |Masurca

sequenced animal genomes

sequenced archaeal genomes sequenced bacterial genomes sequenced fungi genomes sequenced plant genomes sequenced plastomes sequenced protist genomes
Danio rerio, a zebrafish Takifugu rubripes, a puffer fish Oryzias latipes, medaka Latimeria chalumnae, West Indian Ocean coelacanth
 
       
Xiphophorus maculatus, platyfish Gadus morhua, Atlantic cod Gasterosteus aculeatus, Three-spined stickleback Tetraodon nigroviridis,, a puffer fish
       
Callorhinchus milii, an elephant shark,      
     
       
       

官网 rocks cluster | Rocks WIKI

Rocks集群系统(cluster)的安装与管理维护

Rocks clusters安装经验总结  

Rocks clusters安装配置指南

rocks cluster下第三方软件使用的问题

rocks cluster视频学习

Rocks Cluster Distribution: Users Guide:

rocks cluster 安装配置

Rocks Cluster Register

Ganglia讨论区

Ganglia:分布式监控系统  

 

Rocks安装详解

Rocks集群系统(cluster)的安装与管理维护  

 

什么是ROCKS?
一款构建集群系统的软件
开放源代码
高效率的创造和维护高性能集群
是基于RedHat Linux发行版本构建的Rocks系统


集群运算的意义
单台计算机的处理能力达不到要求
超级计算机不能满足日益增长的需要
实现相对分立的Pc能协同完成一个任务

由于ROCKS采用了KICKSTART机制,解决了扩展性和同步性问题,受到欢迎


集群运算的技术
并行计算概念
把一个大的问题分解为彼此独立且又相关的子问题,然后再分散到各个计算节点上执行的一种计算方法

 

现有集群的分类
高可用性集群系统
负载平衡集群系统
高性能计算集群系统

主要操作系统有VMS、Unix、WindowsNT以及Linux等等

 

硬件准备
一台前端节点:
光驱
2块网卡
18GB硬盘
512MB内存
N台子节点:
普通PC

 

ROCKS的安装(主节点)
使用MARS HILL版本(4.3)
从http://www.rocksclusters.org
下载ISO,一共7个,四个是必须的
从光盘启动,在第一个询问界面上键入frontend
安提示操作,直到完成

 

ROCKS的安装(子节点)
启动主节点,以root登陆
运行命令insert-ethers
在弹出的对话框里选择选择Comput项
用第一张内核盘启动一台子节点
在第一个对话界面直接回车,即自动安装

 

安装的注意
在没有安装frontend时,安装子节点,会在某个界面出现无法安装的情况,因为:安装的时候,有许多文件是直接通过网络向前端节点获取的,而不是从光盘拷贝
ROCKS会无法更改地安装覆盖原来的系统,而在安装ROCKS后,再安装其他系统,也将会使ROCKS系统出错.甚至只要ROCKS检测到其他非必要格式的存在,都会出错.
系统要对应,有X86和I386两个版本,分别对应64位和32位机器,主机和子节点系统也要对应,彼此不互通

 

使用ROCKS来工作
Roeks集群编程通过使用消息传递编程模型来实现
并行程序由一系列进程构成,每个进程处理数据的一个子集
进程使用消息传命进行通信,访问或修改属于其它进程的数据

 

内部实现
常见的消息传递库:
消息传递界面MPI(Message Passing Interface)
并行虚拟机PVM (Parallel Virtual Machine
ROCKS采用了MPI的一个实现版本,即MPICH

 

MPI?
MPI——并行计算机编程接口
只是一个库
采用了其实现版本:MPICH
主要在任务的C编程中调用其接口,实现并行运算的任务分配


SGE
Sun grid engine网格引擎
ROCKS使用SGE进行系统任务的管理
主要通过脚本来向队列递交任务,完成计算
用任何一种Sun系统创建一个Sun虚拟计算庄园,从而将网络计算资源扩展到桌面上。

 

SGE机制
接受用户投放的任务;
在任务运行以前,将任务放在一个存储区域;
发送任务到一个执行设备,并监控任务的运行;
运行结束时写回结果并记录运行日志。

 

常用SGE命令
qsub——向系统递交任务
qstat——查看队列状态
qdel——删除队列中的任务
qconf——队列配置
qhost——主机任务
qselect——命令选择
qmon——图形界面

 

一个简单的SGE脚本
#!/bin/bash
#$ -cwd
#$-j Y
#$ -S/bin/bash
MPI-DIR =/0pt/mpich/gnu
$MPI-DIR/bin/mpimn-np  $NSLOTS-machinefile
$TMPDIR/machines-nolocal/home/bin/abinip <tx.files>&log

 

简单的说明
#$开头——SGE参数
#$ -cwd——在当前目录下执行
#$-j Y——标准屏幕输出和错误输出合并显示
#$ -S/bin/bash——用bash来解释任务
MPI-DIR定义了MPICH路径(具体执行集群运算的)
最后,递交任务,用标准的MPICH格式
/home/bin/abinip——执行程序(假设目标为一个名为ABINT的程序)
Tx.files是ABINIP需要的输入
LOG为其输出目标
/home/bin/abinip——更改可以运行其他程序
$NSLOTS需要的CPU数目
$TMPDIR——生成的临时目录
递交脚本:$qsub-pe mpich 16 RunAbinit.sh
RunAbinit.sh——脚本名;CPU用16块(我只能用4块……)

 

备注
一旦执行命令,任务就进入了SGE维护的任务队列里面
但是,只有当系统资源满足要求之后,程序才会真正开始运行,否则将会一直处于等待状态

 

 

 

 


Demultiplexing

Demultiplexing - using the Illumina Casava version 1.82 pipeline, to split the samples (that were sequenced together in one lane) into separate fastq files for each sample.

Read Quality checks

- Fastx toolkit   | DeconSeq

- FastQC       我们的测序数据QC结果举例

- Usearch to count adapters  

Adapter filtering

Adapter filtering - if adapters are present in the reads then the assembler will try to align the reads on the adapter sequences (instead of on the actual transcriptome sequence), which would produce incorrect assembly or fail to assemble. We use the ‘Scythe’ program, and a fasta file of adapter sequences.

Fastx toolkit

CD_HIT | 2

cutadapt | Readme

piRNA Database - piRNABank

piRNApredictor

Quality trimming

Quality trimming - the assembler doesn't use the quality scores so it has to assume that all bases are accurately called. To improve the assembly, bases with low quality scores (ie. less accurate bases) are trimmed from the ends of reads before assembly. We use the ‘Sickle’ program with parameters of: -t sanger -l 50 -q 20 -n –x 

Fastx toolkit

Trimmomatic | bcl2fastq

温州医学院mirTools

De-novo Assembly

Oases, uses Velvet (EBI). | PCAP/CAP 3
SOAPdenovo-Trans (BGI) – Fastest.
Trans-ABySS (BcGsc).
Trinity (Broad) – Slower but Longest contigs, and more EST blast hits, fixed kmer length. Other link for Trinity

Mapping reads to the contigs

-BWA – Fast, can map DNA reads to a genomic reference, but not splice aware.
-Stampy – Slower, more sensitive to Indels.
-TopHat – uses Bowtie, Fast, slice-junction aware.
-GSNAP – Slower, slice-junction aware, claims to give more SNP-tolerant alignment.

Bowtie: An ultrafast, memory-efficient short read aligner

Differential expression analysis

-DEseq -  an R package, via BioConductor, uses “negative binomial distribution, with variance and mean linked by local regression”.
-EdgeR - an R package, uses “empirical Bayes estimation and exact tests based on the negative binomial distribution.”
-CuffDiff – part of CuffLinks, calculates Transcript and Gene differential FPKM.
-GeneProf – has web-based interface,
-Partek - needs license.
 
De novo transcriptome assembly Wiki
 
Phrep-Phrap
 
PAML
FASTX
Blast2GO 本地化方法及注意事项
List of RNA-Seq bioinformatics tools
Trunity
NCBI SRA
BLAT
SHRiMP
LASTZ
MAQ
SamTools
Velvet
Cufflinks
RNAseq Assembly in Trinity
KEGG Software
ALLPATHS-LG | 使用
BWA
TopHat
Blast2Go
fsatQC
华大
龙漫远 | Eric Lander Lander |
杨子恒
 
How to run Trinity |
Trinity RNA-Seq Assembly mailing list
SEQanswers
Trans-ABySS
 
rSeq: RNA-Seq Analyzer
Genome Savant
ireckon: - Resources and Source Code
Qualimap |
SRA

miRDeep2 |

miRDeep2学习笔记

miRDeep2的文件夹下面有自带的tutorial,参考通过参考这个例子学习miRDeep2.

tutorial_dir文件夹里有下面几个文件,.fa为fasta格式。

cel_cluster.fa:            #   研究物种的基因组文件  

mature_ref_this_species.fa:         #   研究物种的成熟miRNA文件,miRBase有下载

mature_ref_other_species.fa:        # 其他物种相关的成熟miRNA文件,miRBase有下载

precursors_ref_this_species.fa:     # 研究物种miRNA前体的文件,miRBase有下载

reads.fa:                           #   deep sequencing reads

~~~~~~~~~~第一步~~~~~~~~~

#  利用bowtie-build建立基因组文件的index

bowtie-build cel_cluster.fa cel_cluster      #   cel_cluster.fa是基因组文件,cel_cluster是index文件的

前缀,这个前缀可以是任意的

                                                                #   字符,不一定要和基因组文件相同。

~~~~~~~~~~第二步~~~~~~~~~

#  处理reads文件并且把它map到基因上


perl mapper.pl reads.fa -c -j -k TCGTATGCCGTCTTCTGCTTGT  -l 18 -m -p cel_cluster -s

reads_collapsed.fa -t reads_collapsed_vs_genome.arf -v

参数讲解
-c 指出输入文件是fasta格式,同类的参数还有-a(seq.txt format),-b(qseq.txt format),-e(fastq format),-d

(contig file)
-j 删除不规范的字母(不规范的字母是指除a,c,g,t,u,n,A,C,G,T,U,N之外的字母)
-k 剪切接头,后跟接头序列,例子中的TCGTATGCCGTCTTCTGCTTGT就是接头
-l 忽视小于某长度的序列,例子中忽视18nt长度的reads
-m collapses the reads
-p 将处理过的reads map到之前建立过索引的基因组上,例子中的cel_cluster
-s 指出将处理过的reads输出到某个文件,例子中将处理过的reads输出到reads_collapsed.fa
-t 指出将mapping的结果输出到某个文件,例子中将mapping后的结果输出到reads_collapsed_vs_genome.arf文件中
-v 在屏幕上显示处理的动作,加v和不加v的区别见附注1,明显看出来加v后屏幕不仅显示了一个处理后的summary,而

且显示了mapper的动作,如discarding,clipping,collapsing,trimming。不加v屏幕上只显示一个summary

例子中未使用的参数
处理/mapping参数
-g 给reads一个前缀,默认是seq。-s和-t两个输出文件中reads前面会多出seq三个字母。
-h parse to fasta format
-i 转换rna成dna(再map到基因组)convert rna to dna alphabet (to map against genome)
-q 种子序列中一个错配(mapping的时间会变长??)map with one mismatch in the seed (mapping takes

longer)
-r 允许在基因组上map到的最多的位置数,默认是5。也就是说最多map 5个位置
-u 不移除临时文件的路径
-n 覆盖已有文件

 

~~~~~~~~~~第三步~~~~~~~~~
# fast quantitation of reads mapping to known miRBase precursors.

(This step is not required for

identification of known and novel miRNAs in the deep sequencing data when using miRDeep2.pl.)
快速定量reads mapping到已知的miRNA前体。利用miRDeep.pl在deep sequencing数据中鉴定已知和未知的miRNA,这

一步不是必须的。

quantifier.pl -p precursors_ref_this_species.fa -m mature_ref_this_species.fa -r reads_collapsed.fa

-t cel -y 16_19

参数讲解
-p miRNA前体文件,miRBase可以下载

-m 成熟miRNA序列文件,miRBase可以下载

-r reads文件

-t 物种,可以指定某个物种,这样分析的时候只考虑某个物种的数据。也可以不指定,分析所有的

-y [time]    optional otherwise its generating a new one

 

 


屏幕上显示的结果
getting samples and corresponding read numbers

seq     374333 reads


Converting input files
building bowtie index
mapping mature sequences against index
# reads processed: 174
# reads with at least one reported alignment: 6 (3.45%)
# reads that failed to align: 168 (96.55%)
Reported 6 alignments to 1 output stream(s)
mapping read sequences against index
# reads processed: 1505
# reads with at least one reported alignment: 1088 (72.29%)
# reads that failed to align: 417 (27.71%)
Reported 1099 alignments to 1 output stream(s)
analyzing data

6 mature mappings to precursors

Expressed miRNAs are written to expression_analyses/expression_analyses_16_19/miRNA_expressed.csv
not expressed miRNAs are written to

expression_analyses/expression_analyses_16_19/miRNA_not_expressed.csv

Creating miRBase.mrd file

after READS READ IN thing

make_html2.pl -q expression_analyses/expression_analyses_16_19/miRBase.mrd -k

mature_ref_this_species.fa -z -t C.elegans -y 16_19  -o -i

expression_analyses/expression_analyses_16_19/mature_ref_this_species_mapped.arf  -l -m cel

miRNAs_expressed_all_samples_16_19.csv
miRNAs_expressed_all_samples_16_19.csv file with miRNA expression values
parsing miRBase.mrd file finished
creating PDF files
creating pdf for cel-mir-39 finished
creating pdf for cel-mir-40 finished
creating pdf for cel-mir-37 finished
creating pdf for cel-mir-36 finished
creating pdf for cel-mir-38 finished
creating pdf for cel-mir-41 finished


#
得到几个文件,expression_16_19.html,expression_analyses文件夹(里面有很多文件),

iRNAs_expressed_all_samples_16_19.csv
,pdfs_16_19文件夹

 

~~~~~~~~~~第四步~~~~~~~~~

#在deep sequencing data中鉴定已知和未知的miRNA

miRDeep2.pl reads_collapsed.fa cel_cluster.fa reads_collapsed_vs_genome.arf

mature_ref_this_species.fa mature_ref_other_species.fa precursors_ref_this_species.fa -t C.elegans

2> report.log


# reads_collapsed.fa是经过mapper.pl处理的reads。
# cel_cluster.fa是基因组文件
# reads_collapsed_vs_genome.arf mapping的结果
# mature_ref_this_species.fa研究物种的成熟miRNA文件,miRBase有下载
# mature_ref_other_species.fa其他物种相关的成熟miRNA文件,miRBase有下载
# precursors_ref_this_species.fa研究物种miRNA前体的文件,miRBase有下载
# 如果你只有reads,arf文件,genome文件,其他文件没有,需要这样表示miRNAs_ref/none miRNAs_other/none

precursors/none,本物种的成熟miRNA无,其他相关物种也无,更没有前体。

参数说明
-t 物种
2> repot.log表示将所有的步骤输出到report.log文件中

# 屏幕显示

#####################################
#                                   #
# miRDeep2                          #
#                                   #
# last change: 07/07/2011           #
#                                   #
#####################################

miRDeep2 started at 19:44:43


#Starting miRDeep2
#testing input files
#Quantitation of known miRNAs in data
#parsing genome mappings
#excising precursors
#preparing signature
#folding precursors
#computing randfold p-values
#running miRDeep core algorithm
#running permuted controls
#doing survey of accuracy
#producing graphic results


miRDeep runtime:

started: 19:44:43
ended: 19:46:15
total:0h:1m:32s


~~~~~~~~~~第五步~~~~~~~~~

# 浏览结果

用浏览器打开.html文件
注意,cel-miR-37预测了两次。因为这个位点的两个潜在的前体可以折叠成发卡结构。然而,注释的发卡结构得分远远

高于未注释的发卡结构(miRDeep2 score 6.1e+4 vs. -0.2)


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~附注1~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

######加v###屏幕上输出的结果如下####

discarding sequences with non-canonical letters
clipping 3' adapters
discarding short reads
collapsing reads
mapping reads to genome index
# reads processed: 1609
# reads with at least one reported alignment: 470 (29.21%)
# reads that failed to align: 1139 (70.79%)
Reported 480 alignments to 1 output stream(s)
trimming unmapped nts in the 3' ends


######不加v###屏幕上输出的结果如下####

# reads processed: 1609
# reads with at least one reported alignment: 470 (29.21%)
# reads that failed to align: 1139 (70.79%)
Reported 480 alignments to 1 output stream(s)

~~~~~~~~~~~~~~附注1~~~~~~~~~~~~~~~~~~

诺禾致源
 
 
 
 
 
 
 
 
 
 
 
 

 

常用蛋白质数据库

1.PDB数据库
   蛋白质的基本立体结构数据库为PDB (Protein Data Bank),1971年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。这 种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics, RCSB, http://www.rcsb.org/pdb/ )。

   PC机和工作站上有大量软件工具用于查看PDB 数据库中的结构。其中较好的空间结构能够动态,立体地显现出来。其下载网址为:http://www.umass.edu/microbio/rasmol/

    PDBFinder 数据库是在PDB,DSSP,HSSP 基础上建立的二级库,它包含PDB 序列,作者,R因子,分辨率,二级结构等。这些信息不易从PDB 中直接读取,随着PDB 库每次发布新版,PDBFinder 在EBI 自动生成。网址为: http://www.cmbi.kun.nl/swift/pdbfinder/

   2.NRL-3D数据库

   该数据库NRL-3D也是所有已知结构蛋白质的数据库。可用于对查询蛋白质序列进行相似性分析以确定其结构。其网址为: http://pir.georgetown.edu/pirwww/dbinfo/nrl3d.html

   3.ISSD数据库

    ISSD数据库是蛋白质数据库,其每个条目包含一个基因的编码序列,同相应的氨基酸序列对比,并给出相应多肽链的结构数据。核苷酸序列取自GenBank,结构参数来自PDB,包括多肽骨架原子坐标,二面角,还有DSSP程序所预测的二级结构。网址为:http://www.protein.bio.msu.su/issd/.

    4.HSSP数据库

    HSSP 是根据同源性导出的蛋白质二级结构数据库。每一条PDB 项目都有一个对应的HSSP 文件。因此,应先按蛋白质的PDB 编号,例如1bda在HSSP 的INDEX中查找1dba.hssp.Z。该数据库同时提供了SWISS-PROT数据库中所有蛋白质序列的同源性。其网址为:http://www.sander.embl-heidelberg.de/hssp/

     5.蛋白质结构分类数据库(SCOP)

    蛋白质结构分类数据库(structural classification of proteins ,SCOP)是对已知的蛋白质三维结构进行手动分类得到的数据库。将已知结构蛋白质进行有层次地分类(这一方法十分有效)。该资源允许用户分析查询蛋白质 是否和已知结构蛋白质具有相似性。其网址为: http://scop.mrc-lmb.cam.ac.uk/scop/

     6.MMDB蛋白质分子模型数据库

    分子模型数据库(Molecular Modeling Database ,MMDB)由NCBI 的MMDB 研究小组维护。这是Entrez 检索工具所使用的三维结构数据库,以ASN,1 格式反映 PDB 库中的结构和序列数据。NCBI 同时提供一个配套的三维结构显示程序Cn3D。网址为:http://www.ncbi.nih.gov/Structure/MMDB/mmdb.shtml

     7.Dail/FSSP数据库

    Dail/FSSP 数据库是基于PDB 数据库中现有的蛋白质三维结构,用自动结构对比程序Dail逐一比较而形成的折叠单元和家族分类库。随PDB 库的更新而更新。其网址为: http://www.ebi.ac.uk/dali/

     8.其他相关链接

     生物大分子数据库(NHGRI/NCBI Histone Sequence Database)

     2D与3D结构 预测数据库(SWISS-3DIMAGE-展示蛋白质和其他生物大分子的3D结构图形)

中文名称: 蛋白质数据库 英文名称: protein database;protein data bank;PDB 定义: 汇集已知蛋白质各种参数的集合。常用的蛋白质序列的数据库有Swiss-Prot。常用的蛋白质立体结构的数据库是创建于1971年美国的布鲁克海文 (Brookhaven)国家实验室运作的 Protein Data Bank (PDB),1998年成为Research Collaboratory for Structural Bioinformatics(RCSB)。美国的RCSB PDB、欧洲的MSD-EBI和日本的PDBJ一起构成了Worldwide Protein Data Bank(wwPDB)。

蛋白质组学研究中常用的网站和数据库

一、蛋白质数据库

1.UniProt (The Universal Protein Resource)

  网址:http://www.uniprot.org/
        http://www.ebi.ac.uk/uniprot/
  简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。


2.PIR(Protein Information Resource)

  网址:http://pir.georgetown.edu/
  简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。


3.BRENDA(enzyme database)

  网址:http://www.brenda-enzymes.org
  简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。


4.CORUM(collection of experimentally verified mammalian protein complexes)

  网址:http://mips.gsf.de/genre/proj/corum/index.html
  简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等


5.CyBase(cyclic protein database)

  网址:http://research1t.imb.uq.edu.au/cybase
  简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。


6.DB-PABP

  网址:http://pabp.bcf.ku.edu/DB_PABP/
  简介:聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与NCBI蛋白数据库存在交叉应用。


7.IUPHAR-DB

  网址:http://www.iuphar-db.org
  简介:G蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。


8.GLIDA
  网址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/
 简介:G蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。


9.LOCATE
  
  网址:http://locate.imb.uq.edu.au/
  简介:哺乳动物蛋白质亚细胞定位数据库


10.InterPro

  网址:http://www.ebi.ac.uk/interpro/
  简介:蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。


11.OKCAM

  网址:http://okcam.cbi.pku.edu.cn
  简介:人体细胞粘附分子数据库。



二、蛋白质组数据库

1.GELBANK

  网址:http://gelbank.anl.gov
  简介:提供全基因组的二维凝胶电泳图谱,搜集了已知基因组信息生物的蛋白质组二维凝胶电泳图。可通过描述相对分子质量、等电点和蛋白质序列信息进行快速检索。


2.SWISS-2DPAGE

  网址:http://www.expasy.org/ch2d/
  简介:提供人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌的2D-PAGE参考图。


3.SysPIMP(Systematical Platform for Identifying Mutated Proteins)

  网址:http://pimp.starflr.info/
  简介:通过质谱技术建立的蛋白质突变数据库。当蛋白质某一氨基酸残基发生改变时,其质谱图也会发生改变,通过蛋白质质谱图的改变,检测与疾病相关的突变。


4.Sys-BodyFluid

  网址:http://www.biosino.org/bodyfluid/
  简介:人体体液蛋白组研究数据库。提供人体各种体液的蛋白质组数据,包括血浆/血清、尿液、乳汁、泪、汗液、唾液、骨髓液、脑脊液、胃液等。


5.BloodExpress

  网址:http://hscl.cimr.cam.ac.uk/bloodexpress/
  简介:小鼠造血过程基因表达数据库


6.CentrosomeDB(human centrosomal proteins database)

  网址:http://centrosome.dacya.ucm.es
  简介:人体中心体蛋白数据库


7.ConsensusPathDB

  网址:http://cpdb.molgen.mpg.de
  简介:人类功能作用网络数据库,与多个数据库有交叉应用,提供蛋白质互作、生化反应、基因调控等作用网数据。


8.Proteome Analysis Database
  
  网址:http://www.ebiac.uk.proteome/
  简介:蛋白质组分析数据库


10.HPRD(Human Protein Reference Database)

  网址:http://www.hprd.org/
  简介:人体蛋白文献数据库


11.NOPdb

  网址:http://www.lamondlab.com/NOPdb3.0/
  简介:核仁蛋白组数据库


12.EndoNet

  网址:http://endonet.bioinf.med.uni-goettingen.de/
  简介:细胞通讯网络数据库,提供激素、激素受体相关信息



三、蛋白质互作、蛋白质网络数据库
  
1.3DID(3D interacting domains)

  网址:http://3did.irbbarcelona.org
        http://gatealoy.pcb.ub.es/3did/
  简介:搜集3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。


2.DOMINE

  网址:http://domine.utdallas.edu
  简介:结构域互作数据库。


3.PiSite(Database of Protein interaction sites)

  网址:http://pisite.hgc.jp
  简介:以PDB为基础,在蛋白质序列中搜寻互作位点。


4.Binding MOAD

  网址:http://www.BindingMOAD.org
  简介:致力于提供蛋白质-配体晶体结构数据信息。提供结构已知的蛋白质的相关配体,并附有详细注释,同时提供由实验而得的亲和力数据。


5.Phospho.ELM

  网址:http://phospho.elm.eu.org
  简介:蛋白质磷酸化位点数据库


6.SuperSite

  网址:http://bioinformatics.charite.de/supersite
  简介:蛋白质中代谢物、药物结合位点数据库,提供结合机制、识别机制、保守结合位点等信息。


7.STITCH

  网址:http://stitch.embl.de/
  简介:蛋白质-化合物作用网数据库


8.Reactome

  网址:http://www.reactome.org
  简介:人体生命活动路径与过程数据库,提供生化过程网络图,并对参与其中的蛋白质分子有详细注解,与其他数据库如UniPort、KEGG、OMIM等建立了广泛的交叉应用。


9.PID(Pathway Interaction Database)

   网址:http://pid.nci.nih.gov
   简介:由NCI和Nature共同创立,提供已知的人体细胞信号转导、调节活动及主要细胞生命过的蛋白质路径网,可通过输入某个分子名或代谢过程名称进行查询。


10.UniHI(Unified Human Interactome database)

  网址:http://www.unihi.org
  简介:人体蛋白-蛋白相互作用数据库,可根据蛋白质名称、代谢路径等进行查询。


11.VirHostNet

   网址:http://pbildb1.univ-lyon1.fr/virhostnet/index.php
   简介:病毒-宿主分子互作网数据库,提供病毒-宿主蛋白质互作信息及这些蛋白质的相关注释。可通过输入基因、蛋白质、路径等关键词进行查询。


12.Bionemo(molecular information on biodegradation metabolism)

  网址:http://bionemo.bioinfo.cnio.es
  简介:搜集与生物降解代谢相关的蛋白质、基因数据,包括蛋白质序列、结构域、结构;基因序列、调控元件、转录单元等信息。除此之外还包括生物降解的代谢路径图、相关生化反应等。


13.PMAP

   网址:http://www.proteolysis.org
   简介:蛋白质水解路径数据库



四、蛋白质三维结构数据库

1.PDB(Protein Data Bank)

  网址:http://www.rcsb.org/pdb
  简介:生物大分子结构数据库,提供蛋白质、核酸等生物大分子的三维结构数据、序列详细信息、生化性质等。


2. SARST (Structural similarity search Aided by Ramachandran Sequential Transformation)

  网址:http://sarst.life.nthu.edu.tw/
  简介:高效的蛋白质结构比对数据库


五、蛋白质基序数据库

1. CDD(Conserved Domain Database)

  网址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
  简介:蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。CDD,蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。检索者通过CD-Search服务,可获得蛋白质序列中所含的保守结构域信息,从而分析、预测该蛋白质的功能。


2.Blocks

  网址:http://blocks.fhcrc.org
  简介:蛋白家族保守区对比数据库


3.CPDB(database of circular permutation in proteins)

  网址:http://sarst.life.nthu.edu.tw/cpdb
  简介:蛋白质环形序列重组基序数据库。蛋白质的环形序列重组(Circular permutation, or CP)可看作是原来的N与C端被接在一起,然后在另一处产生新开口。 虽然当前已有很多知名的蛋白质家族被发现有CP成员,而且也有研究指出蛋白质结构资料库中可能存在着不少CP实例,高效率的CP搜寻工具却很罕见。CPSARST提供了一套有效的CP搜寻工具。


4.MegaMotifbase

  网址:http://caps.ncbs.res.in/MegaMotifbase/index.html
  简介:蛋白质基序家族、超家族数据库,提供已知基序的3D定位图、转角距等数据。


5.Minimotif Miner

  网址:http://mnm.engr.uconn.edu
  简介:蛋白质基序检测数据库,提供在蛋白质序列中寻找基序的服务。


6.Pfam
  
  网址:http://www.sanger.ac.uk/Software/Pfam
  简介:提供多序列比对服务和并提供共同的蛋白质结构域的隐马尔可夫模型。
  


六、预测类数据库

1.InterPreTS(Interaction Prediction through Tertiary Structure)

  网址:http://www.russell.embl.de/cgi-bin/interprets2
  简介:提供通过三级结构预测蛋白质相互作用的服务,可输入两个蛋白质的序列信息进行查询。


2.Predictome

  网址:http://predictome.bu.edu
  简介:预测蛋白质间功能关系的数据库。这些蛋白质间的关系是基于将3种计算机预测法,即染色体相邻法、系统发育谱法、结构域融合法应用与44个基因组上而得到的。



参考文献:
Nucleic Acids Research, 2009, Vol. 37, Database issue
Nucleic Acids Research, 2008, Vol. 36, Database issue   

Ps:
《Nucleic Acids Research》每年第一期是分子生物学数据库专刊,综述当前的分子生物学在线数据库。
期刊主页:http://nar.oxfordjournals.org/

常用蛋白序列和结构数据库

数据库

说明

网址链接


PDB

蛋白质三维结构

http://www.rcsb.org/pdb

SWISS-PROT 蛋白质序列数据库 http://kr.expasy.org/sprot/
PIR 蛋白质序列数据库 http://pir.georgetown.edu/
OWL 非冗余蛋白质序列 http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL 核酸序列数据库 http://www.embl-heidelberg.de/
TrEMBL EMBL的翻译数据库 http://kr.expasy.org/sprot/
GenBANK 核酸序列数据库 http://www.ncbi.nih.gov/Genbank/
PROSITE 蛋白质功能位点 http://kr.expasy.org/prosite/
SWISS-MODEL 从序列模建结构 http//www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE 三维结构图示 http://us.expasy.org/sw3d/
DSSP 蛋白质二级结构参数 http://www.cmbi.kun.nl/gv/dssp/
FSSP 已知空间结构的蛋白质家族 http://www.bioinfo.biocenter.helsinki.fi
SCOP 蛋白质分类数据库 http://scop.mrc-lmb.cam.ac.uk/scop/
CATH 蛋白质分类数据库 http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam 蛋白质家族和结构域 http://pfam.wustl.edu/


蛋白质数据库

1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库 (JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序 列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合 物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、 FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:http://pir.georgetown.edu/
数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/

2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用 文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、 序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质 结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。
SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/

3. PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋 白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过 PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子 结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感 地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

PROSITE的网址是:http://www.expasy.ch/prosite/

4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核 磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各 地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可 以在计算机上按PDB文件显示生物大分子的三维结构。
RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/

5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折 叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的 ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以 找到与未知结构序列远缘的已知结构序列。
SCOP的网址是:http://scop.mrc-lmb.cam.ac.uk/scop/

6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质 的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG 簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。

COG库的网址是:http://www.ncbi.nlm.nih.gov/COG

中科院水生生物学研究所 | 中科院海洋研究所 |

全基因组De Novo测序的拼接标准

   

基因框架图

基因组精细图

基因组覆盖率>90%

基因组覆盖率>95%

基因区覆盖率>95%

基因区覆盖率>98%

Contig  N50  >5kb

Contig  N50   >20kb

Scaffold  N50  >20kb

Scaffold  N50  >300kb

单碱基错误率<0.01%

单碱基错误率  <0.01%

  
  N50 即覆盖50% 所有核苷酸的最大序列重叠群长度,把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到全部contig或scaffold长度一半时,最后一个contig或scaffold长度。

From:http://www.igenomics.com.cn:7001/ajgene/jsp/ajweb/News.jsp?cid=20100805091905260674881627359391

Alternatrive Splicing

Links

 Some splice junction detecting tools based on RNA-Seq data
 TopHat
TopHat is a fast splice junction mapper for RNA-Seq reads. From Center for Bioinformatics and Computational Biology at University of Maryland.
 SpliceMap
SpliceMap is a de novo splice junction discovery tool. Developed by Wong Lab at Stanford university.
 Supersplat
Superplat is an application for discovery of potential splice junctions given HTS data.
  ERANGE
ERANGE is a tool which can be used for both ChIP-Seq and RNA-Seq analyses.
 QPALMA
QPalma is an alignment tool targeted to align spliced reads.
 SplitSeek
SplitSeek is a program for de novo prediction of splice junctions in RNA-Seq data. Developed by Rudbeck Laboratory at Uppsala University.
MapNext
MapNext is a software tool for spliced and unspliced alignments and SNP detection of short sequence reads. Developed by Evolution Genomicsc Lab of SUN YAT-SEN UNIVERSITY.
HMMSplicer
MMSplicer is an accurate and efficient algorithm for discovering canonical and non-canonical splice junctions in short read datasets. Developed by DeRisi Lab at University of California, San Francisco.
 Some visualization tools based on next generation sequencing data
EagleView
EagleView is an information-rich genome assembler viewer. It can display a dozen different types of information including base quality and flowgram signal. Developers at Boston College.
BamView
An easy Java application for visualizing the large amounts of data stored for sequence reads which are aligned against a reference genome sequence based on BAM file.
LookSeq
LookSeq is a web-based application for alignment visualization, browsing and analysis of genome sequence data. From the Sanger Centre.
SAM
SAM is a application for Whole Genome Assembly (WGA) Management and Visualization Tool. It provides a generic platform for manipulating, analyzing and viewing WGA data, regardless of input type. Developed at Canada's Michael Smith Genome Sciences Centre.
XMatchView
A visual tool for analyzing cross_match alignments. Developed by Rene Warren and Steven Jones at Canada's Michael Smith Genome Sciences Centre.
NGSView
NGSView is an extensible open source sequence editor to allow for visualization and manipulation of massive amount of sequence data. From RIKEN Omics Science Center, RIKEN Yokohama Institute 1-7-22 Suehiro-cho, Japan.
IGV
The Integrative Genomics Viewer (IGV) is a high-performance visualization tool for interactive exploration of large, integrated datasets. Developed at Broad Institute.
MapView
MapView is a visualization tool for short reads alignment on desktop computer. From the Evolutionary Genomics Lab at Sun-Yat Sen University, China.
SeqMonk
SeqMonk is a tool to visualise and analyse high throughput mapped sequence data. Developed at the Babraham Institute.
Savant
Savant is a genome browser which combines visualization of HTS and other genome-based data with powerful analytic tools. Developed by Computational Biology Lab at University of Toronto.
Gambit
Gambit is a new cross-platform GUI (graphical user interface) application for sequence visualization and analysis. Developed by The Marth Lab at Boston College.
inGAP
An integrated next-generation genome analysis pipeline to detect single nucleotide polymorphisms (SNPs) and insertion/deletions (indels).
MagicViewer
MagicViewer is developed to easily visualize the short reads alignment, identify the genetic variation and associate with the annotation information of reference genome. From Institute of Genomic Medicine at Wenzhou Medical College.
 Some short reads mapping tools
MAQ
Mapping and Assembly with Qualities (renamed from MAPASS2). Written by Heng Li from the Sanger Centre.
BWA
BWA is a fast light-weighted tool that aligns short sequences to a sequence database, and is a progression from MAQ.
Bowtie
Bowtie is an ultrafast, memory-efficient short read aligner. Written by Ben Langmead and Cole Trapnell at University of Maryland .
SOAP
SOAP (Short Oligonucleotide Alignment Program) is a program for efficient gapped and ungapped alignment of short oligonucleotides onto reference sequences. SOAP2 is an updated program based on Burrows-Wheeler Transform. Developed by Beijing Genomics Institute.
BFAST
BFAST is a Blat-like Fast Accurate Search Tool. Written by Nils Homer, Stanley F. Nelson and Barry Merriman at UCLA.
MOSAIK
MOSAIK produces gapped alignments using the Smith-Waterman algorithm. Written by Michael Strömberg at Boston College.
MrFAST and MrsFAST
mrFAST & mrsFAST are designed to map short reads generated with the Illumina platform to reference genome assemblies; in a fast and memory-efficient manner. From Eichler Lab at University of Washington.
Numbers of collected useful next-generation data analysis software can be accessed from SEQanswers wiki

=====================

第三代测序的希望与陷阱

2011年4月当美国太平洋生物科学公司Pacific Biosciences ( PacBio)宣布它将开始销售其商业PacBio RS系统时, 该公司预计第三代测序产品的发售将“立马扩展DNA测序在诸如癌症研究、病原体检测和农业等领域的应用”。不同于市场上的第二代系统,PacBio RS 系统能够实现单分子实时测序反应,在一天内生成结果。此外,跨越几千个DNA碱基的长序列读取将使从头测序成为可能,通过跨越重复区域可简化序列组装,并 增进对拷贝数变异的检测。由于不需要DNA扩增,这一系统将减少基因组覆盖度中的某些人为假象(artifact)和偏差。

然而一年多过去了,现在看来研究人员对采用第三代测序技术一直保持慎重。为何?其中一个缺点就是错误率相对较高。尽管通过环形共有序列 (CCS),包括多次测序较短模板,可以获得高准确度,PacBio RS仪器生成了平均不到85%核苷酸准确度的单次读取。“这些测序读取的高错误率已 经被视为这一技术的主要限制,”国家生物防御分析与对策中心基因组学研究人员Adam Phillippy说。

为了解决这一问题,马里兰大学国家生物防卫分析和反制中心的Adam Phillippy及同事们开发了一种新的融合技术将第二代和第三代 测序技术结合到一起生成了近乎完全准确的长读取,这一成果报道在7月1日的《自然生物技术》(Nature Biotechnology)杂志上。将这一 技术应用到鹦鹉基因组,通过首先绘制短读序列,计算高度准确的融合共有序列,校正了个别的长读序列。短读和PacBio RS CCS是通过454 和 Illumina测序仪生成,长单次读取是通过PacBio RS生成。“我们开发了首个能够校正和组装PacBio RS单分子序列读取的算法,并证实 PacBio RS技术的高错误率可以设法得到控制,从而大大改善基因组和转录组的组装,”Phillippy说。

和平共存?

但是仍有许多的工作要做。例如,软件开发商需要更多时间来赶上新仪器。Phillippy 说:“第三代测序仪正在生成一种全新类型的测序 数据。过去5年或更长时间以来算法开发几乎完全集中于高通量、高准确度的短读数据。将软件开发过程转向一个新焦点还需要相当长的时 间。”Phillippy的算法是朝着这一正确方向迈出的一步,因为校正的读取可以利用现有无法处理高错误率的生物信息工具来进行分析。

该技术还需要改善其可靠性、通量及成本才能具有竞争力。Phillippy说:“从454 和 Illumina技术引入到被广泛接受,并将Sanger测序推至小角色之前,也存在相似的两至三年的滞后。”

Pacific Biosciences正处于改善仪器通量及延伸读取长度的进程中。公司产品管理总监Edwin Hauw说:“系统硬件 本身并没有改变,但我们正在改善化学和软件。”目前,该系统非常适用于研究微生物基因组,但它的通量限制了对更大基因组的研究。“对于某些应用它的成本高 昂,因此对人类基因组或其他大型基因组采用针对性测序是当下最佳的策略,”Hauw说。

一旦这些障碍被克服,新技术将使研究人员能够深入了解许多与拷贝数变异和其他不容易用第二代测序技术研究的大型结构变异相关的疾病,例如癌 症、自闭症和染色体疾病。长单分子测序也可以揭示对于包含在基因组非编码内含子和基因内区域中的“无用DNA”的认识,这些“无用DNA”被认为起着重要 的调控作用,但由于无法正确组装而没有得到广泛研究。 

但第三代测序技术不太可能很快取代之前的技术。最终,对于测序技术的选择将取决于特异的研究问题。例如种群研究需要高深度测序,人类单核苷 酸多态性调查或表达研究等仍然最好用第二代技术开展研究以非常低的成本生成大量的数据。“直到第三代技术能够与这种每个碱基的成本相称,其在读长尤其重要 的应用例如基因组组装或结构变异研究中将会受到限制。我期望第二代和第三代技术将可以和平共存直至产生另一个巨变,”Phillippy说。

 

GENCODE

 

Off-Line Basecaller (OLB)

Tutorial: Fastq Quality Control Shootout

 

Tools to remove adapter sequences from next-generation sequencing data

Published on March 14, 2012 | Bioinformatics| Tags: 

List of various tools to detect and trim adapter sequences from sequencing data.

Cutadapt
Cutadapt removes adapter sequences from high-throughput sequencing data. This is usually necessary when the read length of the sequencing machine is longer than the molecule that is sequenced, for example when sequencing microRNAs.

FAR – The Flexible Adapter Remover
FAR removes adapter sequences from deep sequencing data in FASTA/Q, CSFASTA/Q format (Illumina / Roche 454 / SOLiD Colorspace). It also demultiplexes barcoded runs.

Adapterremoval
This program was developed to remove residual adapter sequences from next generation sequencing reads. The program handles both single end and paired end data.

ea-utils
Command-line tools for processing biological sequencing data. Barcode demultiplexing, adapter trimming, etc. Primarily written to support an Illumina based pipeline – but should work with any FASTQs.

Biopiece: remove_adaptor
Locates and removes a specified adaptor sequence from sequences in stream.

FASTQ/A Clipper
Removing sequencing adapters / linkers, part of FASTX tool kit.

Removing sequencing adapters
This is some example code for the removal of sequencing adapters from next generation sequence reads. This is useful for cleaning up sequence from Solexa/Illumina GA machines, and may also be relevant for the removal of adapter/primer sequence from other types of sequence machine.

Trimmomatic: A flexible read trimming tool for Illumina NGS data
Trimmomatic performs a variety of useful trimming tasks for illumina paired-end and single ended data.The selection of trimming steps and their associated parameters are supplied on the command line.

PRINSEQ
Trim sequences to a certain length, trim poly-A/T tails, trim low quality ends, trim bases from the ends.

TagCleaner

The TagCleaner tool can be used to automatically detect and efficiently remove tag sequences (e.g. WTA tags) from genomic and metagenomic datasets. It is easily configurable and provides a user-friendly interface.

ClipReadsWalker
This tool provides simple, powerful read clipping capabilities to remove low quality strings of bases, sections of reads, and reads containing user-provided sequences.

Adaptor trimming script from mirTools
Perl script used to filter low quality short reads, remove polyA, trim 3′/5′ adapter and generate the the proper input format of mirTools.

If you know other tools to trim adapter sequences, please feel free to write in comments.

Incoming search terms:

临港报告(密码:smulib)

NGS数据处理代码

把fastq转换成fasta

关于Velvet的帖子

SRA数据分析流程

==============

files in MusuRCA

FASTA Files

The generated consensus sequences are written in FASTA format. This file format is accepted by most bioinformatics analysis software. Celera Assembler generates FASTA files (like *.scf.fasta) with consensus sequence in upper case letters. Celera Assembler writes its own encoding of QV values (in files like *.scf.qv) and the NCBI encoding of quality values (in files like *.scf.qual). In both quality files, byte encodes the quality value of the corresponding base in the associated FASTA file.

Note that the *.qv files will break most FASTA parsers, as the encoded QV values contain the FASTA record separator character '>'.

Celera Assembler generates FASTA files for these entitities:

singletons
unassembled reads
$prefix.singleton.fasta
unitigs
uniquely assemblably contigs used to build contigs and scaffolds
$prefix.utg.fasta
$prefix.utg.qv
$prefix.utg.qual
degenerates
unitigs not placed in any contig or scaffold
$prefix.deg.fasta
$prefix.deg.qv
$prefix.deg.qual
contigs
ungapped multiple sequence alignments
$prefix.ctg.fasta
$prefix.ctg.qv
$prefix.ctg.qual
scaffolds
ordered and oriented contigs that constitute the assembly.
$prefix.scf.fasta
$prefix.scf.qv
$prefix.scf.qual
 

基因组测序、组装与分析总结  

基因组测序、组装与分析总结

2012年11月22日 | Bioinformatics | 暂无评论 | 被围观 174 views+

PLOB (Public Library of Bioinformatics)源地址:http://www.plob.org/2012/11/22/4824.html 这个网站整的挺不错的,推荐。

1. 测序前的准备

搜集物种相关信息,比如基因组大小,杂合度。

1.1 获取基因组大小

基因组大小的获取关系到对以后组装结果的大小的正确与否判断;基因组太大(>10Gb),超出了目前denovo组装基因组软件的对机器内存的要求,从客观条件上讲是无法实现组装的。

一般物种的基因组大小可以从(http://www.genomesize.com/ )这个数据库查到。如果没有搜录,需要考虑通过实验(流式细胞仪)获得基因组大小。

1.1.1 流式细胞仪估计基因组大小的例子:

Yoshida, S., J. K. Ishida, et al. (2010). "A full-length enriched cDNA library and expressed sequence tag analysis of the parasitic weed, Striga hermonthica." BMC Plant Biol 10: 55.

1.1.2 基于福尔根染色估计基因组大小的描述:

这本书比较经典,重点推荐:Gregory, T. (2005). The evolution of the genome, Academic Press.

1.1.3 定量pcr估计基因组大小的例子:

Wilhelm, J., A. Pingoud, et al. (2003). "Real-time PCR-based method for the estimation of genome sizes." Nucleic Acids Res 31(10): e56.

Jeyaprakash, A. and M. A. Hoy (2009). "The nuclear genome of the phytoseiid Metaseiulus occidentalis (Acari: Phytoseiidae) is among the smallest known in arthropods." Exp Appl Acarol 47(4): 263-273.

1.1.4 Kmer估计基因组大小的例子:

Kim, E. B., X. Fang, et al. (2011). "Genome sequencing reveals insights into physiology and longevity of the naked mole rat." Nature 479(7372): 223-227.

1.2 杂合度估计

杂合度对基因组组装的影响主要体现在不能合并姊妹染色体,杂合度高的区域,会把两条姊妹染色单体都组装出来,从而造成组装的基因组偏大于实际的基因组大小。

一般是通过SSR在测序亲本的子代中检查SSR的多态性。杂合度如果高于0.5%,则认为组装有一定难度。杂合度高于1%则很难组装出来。

杂和度估计一般通过kmer分析来做,这里有一个例子:

http://www.nature.com/nature/journal/vaop/ncurrent/full/nature11413.html

降低杂合度可以通过很多代近交来实现。

杂合度高,并不是说组装不出来,而是说,装出来的序列不适用于后续的生物学分析。比如拷贝数、基因完整结构。

1.3 是否有遗传图谱可用

随 着测序对质量要求越来越高和相关技术的逐渐成熟,遗传图谱也快成了denovo基因组的必须组成。构建遗传图构建相关概念可以参考这本书(The handbook of plant genome mapping: genetic and physical mapping )

1.4 生物学问题的调研

这一步也是很重要的

2. 测序样品准备

确定第一步没问题,就意味着这个物种是可以尝试测序的。测序样品对一些物种也是很大问题的,某些物种取样本身就是一个挑战的问题。

基因组测序用的样品最好是来自于同一个个体,这样可以降低个体间的杂和对组装的影响。大片段对此无要求。

3. 测序策略的选择

一般都是用不同梯度的插入片段来测序,小片段(200、500、800)和大片段(1k、2kb、5kb、10kb、20kb、40kb)。如果是杂合度高和重复序列较多的物种,可能要采取fosmid-by-fosmid或者fosmid pooling的策略。

不言而喻,后者花费是相当高的。

4. 基因组组装4.1 组装相关综述:

Li, Z., Y. Chen, et al. (2012). "Comparison of the two major classes of assembly algorithms: overlap-layout-consensus and de-bruijn-graph." Brief Funct Genomics 11(1): 25-37.

Treangen, T. J. and S. L. Salzberg (2012). "Repetitive DNA and next-generation sequencing: computational challenges and solutions." Nat Rev Genet 13(1): 36-46.

http://www.cbcb.umd.edu/research/assembly_primer.shtml

Schatz, M. C., J. Witkowski, et al. (2012). "Current challenges in de novo plant genome sequencing and assembly." Genome Biol 13(4): 243

Baker, M. (2012). "De novo genome assembly: what every biologist should know." Nat Methods 9(4): 333-337. (重点推荐)

Compeau, P. E., et al. (2011). "How to apply de Bruijn graphs to genome assembly." Nat Biotechnol 29(11): 987-991.

Birney, E. (2011). "Assemblies: the good, the bad, the ugly." Nat Methods 8(1): 59-60.

Schatz, M. C., et al. (2010). "Assembly of large genomes using second-generation sequencing." Genome Res 20(9): 1165-1173.

4.2 纠错软件:

Kelley, D. R., M. C. Schatz, et al. (2010). "Quake: quality-aware detection and correction of sequencing errors." Genome Biol 11(11): R116.

4.3 组装软件比较

Salzberg, S. L., A. M. Phillippy, et al. (2012). "GAGE: A critical evaluation of genome assemblies and assembly algorithms." Genome Res 22(3): 557-567.

Zhang, W., et al. (2011). "A practical comparison of de novo genome assembly software tools for next-generation sequencing technologies." PLoS One 6(3): e17915.

Narzisi, G. and B. Mishra (2011). "Comparing de novo genome assembly: the long and short of it." PLoS One 6(4): e19175.

Lin, Y., et al. (2011). "Comparative Studies of de novo Assembly Tools for Next-generation Sequencing Technologies." Bioinformatics.

Hayden, E. C. (2011). "Genome builders face the competition." Nature 471(7339): 425.

Finotello, F., et al. (2011). "Comparative analysis of algorithms for whole-genome assembly of pyrosequencing data." Brief Bioinform.

Earl, D. A., et al. (2011). "Assemblathon 1: A competitive assessment of de novo short read assembly methods." Genome Res.

4.4 组装质量评估

Schatz, M. C., et al. (2011). "Hawkeye and AMOS: visualizing and assessing the quality of genome assemblies." Brief Bioinform.

Riba-Grognuz, O., et al. (2011). "Visualization and quality assessment of de novo genome assemblies." Bioinformatics.

个人见解:

目前大基因组的denovo组装主流软件还是ALLPATH-LG SOAPdenovo

ALLPATH-LG的优点是:组装的连续性最好,准确性最好,但是消耗内存较大,不是太好使用

SOAPdenovo的优点是:速度快,消耗的内存可以接受,组装的连续性还可以,但是错误相对要多一些。

当然,上述评述并不是在所有情况下的,对不同物种,不同数据,他们的表现可能会不一样。

基于Overlap-layout的方法的组装软件首推CABOG,这是当年用来组装果蝇基因组的原型。另外,快要发布的MSR-CA貌似也不错,其整合了上述所有软件的优点,来势很猛啊。

5. 基因组注释

Yandell, M. and D. Ence (2012). "A beginner's guide to eukaryotic genome annotation." Nat Rev Genet 13(5): 329-342.

6. 基因组可视化

Nielsen, C. B., M. Cantor, et al. (2010). "Visualizing genomes: techniques and challenges." Nat Methods 7(3 Suppl): S5-S15.

7. 进化分析

Yang, Z. and B. Rannala (2012). "Molecular phylogenetics: principles and practice." Nat Rev Genet 13(5): 303-314.

8. 经典案例

Colbourne, J. K., M. E. Pfrender, et al. (2011). "The ecoresponsive genome of Daphnia pulex." Science 331(6017): 555-561.

Kim, E. B., X. Fang, et al. (2011). "Genome sequencing reveals insights into physiology and longevity of the naked mole rat." Nature 479(7372): 223-227.

Grbic, M., T. Van Leeuwen, et al. (2011). "The genome of Tetranychus urticae reveals herbivorous pest adaptations." Nature 479(7374): 487-492.

以上内容转载自:测序中国seq.cn(http://seq.cn/4607-48597)

基因组数据库-一个物种的官网

 

JBrowse搭建及使用

 

GBrowse安装配置指南(一)——GBrowse的安装

GBrowse安装使用常见问题

 

用GBrowse定制你自己的基因组浏览器

 

用GBrowse定制你自己的基因组浏览器  

 

基因组组装软件列表