Pan-Genome数据比对
使用bwa进行序列比对
1.构建索引
参考基因组索引
PAN基因组索引
命令
2.进行比对
分别将/data/cotton/Unmapped_Gb_Mate
目录下的序列文件比对到参考基因组和PAN-genom上
命令
3.格式转换
将比对得到的sam文件转换为bam文件并且按照read 名称进行排序
命令
将排序好的文件转换为bed文件
bed文件样子:
对bed文件进行过滤,筛选指标
比对质量大于30
比对到基因组唯一位置的read
命令:
4.基因组位置和PAN-genom位置映射
根据Unmapped_Mate reads在基因组上的比对情况和在PAN genome比对的情况将基因组坐标和PAN-genome坐标进行关联,筛选指标
reads在PAN-genome上比对的长度>=100bp
在找到对应的基因组坐标后,根据reads在PAN-genom的contig上比对情况,分别对read比对到参考基因组上的坐标进行移动:
输出文件
与gene和promoter取交集
使用intersectBed将上一步得到的bed文件与gene bed 文件、promer bed文件分别取交集
得到对应的结果:
基因组坐标
对应的contig
该区域是否有基因、是否对应promter区域
使用到的脚本
提取同一read比对到的基因组区域和PAN genome区域 https://github.com/BiocottonHub/zpliuCode/blob/40ebbc9aeb34af0a40e74223afa33e7bd32bf5b6/PangenomeAlign/extract.py
Last updated