annovar注释SNP

1.软件安装

1.1使用conda安装`gtfToGenePred`软件

给conda添加下载channels

conda config --add channels defaults
conda config --add channels bioconda
conda config --add channels conda-forge

下载gtfToGenePred

conda install ucsc-gtftogenepred
conda update ucsc-gtftogenepred

usage

gtfToGenePred -genePredExt Gbarbadense_gene_model.gtf  Gbarbadense_gene_model.refGene.txt

annovar 注释

将参考基因组文件转换格式
--format指定要转换的格式
--seqfile后面接参考基因组序列文件
--outfile输出文件名

Gbarbadense_gene_model.Pred文件为gtgtfToGenePred软件生成的文件

module load annovar
retrieve_seq_from_fasta.pl --format refGene --seqfile Gbarbadense_genome_HAU_v2.0.fasta Gbarbadense_gene_model.refGene.txt --outfile Gbarbadense_refGEneMrna.fa

将vcf文件转换为annovar格式
6G的vcf文件大概跑了

convert2annovar.pl --includeinfo --allsample  --withfreq --format vcf4 ./../Gbarbadense_genome.snp.filter.recode.vcf >Gbarbadence.avinput

table_annovar.pl进行注释
gtf转换后的文件和基因序列转换后的文件都要放在Gbarbadense/目录下
- --protocol指定数据库类型
- --operation注释类型 g、r、f分别只按照基因、region、filter进行注释，对应的数据库--protocol参数也有指明
- --thread线程数
- --maxgenethread当线程数超过6时，需要声明，不然最多就是6个线程在跑
- --outfile输出文件前缀
- Gbarbadense/文件夹中包含Gbarbadense_gene_model.refGene.txt文件

   table_annovar.pl --maxgenethread 10  --thread 10  Gbarbadense.avinput  Gbarbadense/ -buildver Gbarbadense --outfile Gbarbadense_annovar --protocol refGene,refGene,refGene --operation g,r,f

只对基因区域进行SNP的注释

   table_annovar.pl --maxgenethread 10  --thread 10  Gbarbadense.avinput  Gbarbadense/ -buildver Gbarbadense --outfile Gbarbadense_annovar --protocol refGene --operation g

最终生成文件

由于--protocol参数我用的都是refGene数据库类型，所以region、fileter模式的注释应该都有问题；没放出来

├── Gbarbadense_annovar.refGene.exonic_variant_function
├── Gbarbadense_annovar.refGene.invalid_input
├── Gbarbadense_annovar.refGene.log
├── Gbarbadense_annovar.refGene.variant_function

参考

Previousbedtools NextHiC-Pro安装

Last updated 4 years ago

Was this helpful?

1.软件安装

1.1使用conda安装gtfToGenePred软件

annovar 注释

参考

1.1使用conda安装`gtfToGenePred`软件