Pan-Genome数据比对

使用bwa进行序列比对

1.构建索引

  • 参考基因组索引

  • PAN基因组索引

命令

bwa index /data/cotton/Unmapped_Gb_Mate/Gbarbadense_genome.fasta

bwa index /public/home/cotton/public_data/PAN_Final/GbPAN/Gb.final.1k.fa

2.进行比对

分别将/data/cotton/Unmapped_Gb_Mate目录下的序列文件比对到参考基因组和PAN-genom上

命令

bwa mem -t 5  索引前称 sample_1.fq sample_2.fq  -o out.bam

3.格式转换

将比对得到的sam文件转换为bam文件并且按照read 名称进行排序

命令

将排序好的文件转换为bed文件

bed文件样子:

对bed文件进行过滤,筛选指标

  • 比对质量大于30

  • 比对到基因组唯一位置的read

命令:

4.基因组位置和PAN-genom位置映射

根据Unmapped_Mate reads在基因组上的比对情况和在PAN genome比对的情况将基因组坐标和PAN-genome坐标进行关联,筛选指标

  • reads在PAN-genome上比对的长度>=100bp

在找到对应的基因组坐标后,根据reads在PAN-genom的contig上比对情况,分别对read比对到参考基因组上的坐标进行移动:

8THeN6.png

输出文件

与gene和promoter取交集

使用intersectBed将上一步得到的bed文件与gene bed 文件、promer bed文件分别取交集

得到对应的结果:

  • 基因组坐标

  • 对应的contig

  • 该区域是否有基因、是否对应promter区域

使用到的脚本

Last updated

Was this helpful?