BWA是什么意思

BWA是用于將低分叉序列比對(duì)到大的參考基因組比如人基因組的軟件包。BWA主要是由三種算法組成:BWA-backtrack、BWA-SW和BWA-MEM。第一個(gè)算法是針對(duì)于illumina測序reads最多100bp的算法。后面兩個(gè)主要是針對(duì)于從70bp到1Mbp的更長序列。BWA-SW和BWA-MEM擁有一些相同的特征例如長reads支持和序列分開模式。但是相對(duì)而言,更加推薦BWA-MEM,可以更快和更準(zhǔn)確在更高質(zhì)量的序列上比對(duì)。BWA-MEM相比較BWA-backtrack在70-100bp illumina reads上有更好的性能。。它由三個(gè)不同的算法:

BWA-backtrack:是用來比對(duì)Illumina的序列的,reads長度最長能到100bp。-

BWA-SW:用于比對(duì)long-read,支持的長度為70bp-1Mbp;同時(shí)支持剪接性比對(duì)。

BWA-MEM:推薦使用的算法,支持較長的read長度,同時(shí)支持剪接性比對(duì)(split alignments),但是BWA-MEM是更新的算法,也更快,更準(zhǔn)確,且BWA-MEM對(duì)于70bp-100bp的Illumina數(shù)據(jù)來說,效果也更好些。

對(duì)于上述三種算法,首先需要使用索引命令構(gòu)建參考基因組的索引,用于后面的比對(duì)。所以,使用BWA整個(gè)比對(duì)過程主要分為兩步,第一步建索引,第二步使用BWA MEM進(jìn)行比對(duì)。

bwa的使用需要兩中輸入文件:

Reference genome data(fasta格式.fa,.fasta,.fna)

Short reads data(fastaq格式.fastaq,.fq)