重新开始鉴定AS.md
之前是分别使用对应的三代测序数据比对到各自的参考基因组,现在考虑用三代的测序数据分别比对对各自的亚基因组上。
## 将四倍体基因组分层At和DT进行比对,由于Scaffold没法区分A、D就不要了
grep Ghir_A -A1 Ghirsutum_genome_HAU_v1.0_another.fasta > At.fasta
grep Ghir_D -A1 Ghirsutum_genome_HAU_v1.0_another.fasta > Dt.fasta
## gmap 构建索引
/public/home/zpliu/software/gmap-2019-09-12/bin/gmap_build -D /public/home/zpliu/work/Alternative/data/gmap_build -d Ghirsutum_Dt /public/home/zpliu/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Dt.fasta &
## gmap进行比对
cat ./all.collapsed.rep.fa|~/software/gmap-2019-09-12/bin/gmap -D ~/work/Alternative/data/gmap_build/Ghirsutum_At/ -d Ghirsutum_At -f 3 -t 10 -n 1 --min-trimmed-coverage=0.85 --min-identity=0.85 -p 1 -e >A2_At.gtf
## alternative_splice.py进行鉴定
/usr/bin/python ~/software/pipeline-for-isoseq/other/alternative_splice.py -i ./D5_Dt.gff -g ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model_motify_Dt.gtf -f ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Dt.fasta -as -ats T -os -t exon -o ./alter_ten -op通过比较发现,如果真的是很保守的事件的话,他们的长度也是很保守的。对于那些长度摆动的先不管,用gmap来比对然后确定在对于同源基因上的位置。
## 将保守的IR事件,提取在对于基因组上的坐标
##不保守的事件在其他基因组的坐标使用gmap来获取对于AltA、AltD进行同样的操作
## 从剪切文件中获取对应的AltA、AltD事件坐标和长度
awk '$3=="AltA"{print $0}' end_third|paste AltA_stand -|awk '{print $2"\t"$5"\t"$6"\t"$1"\t"$3"\t-\t-\t-\t"$6-$5+1}' >AltA_static.txt
awk '$3=="AltD"{print $0}' end_third|paste AltD_stand -|awk '{print $2"\t"$5"\t"$6"\t"$1"\t"$3"\t-\t-\t-\t"$6-$5+1}' >AltD_static.txt对各种剪切事件在进化上进行分类
比较保守事件与非保守事件的长度差异
事件类型
保守类型
非保守类型
AltD
365
536
AltA
343
517
ExonS
116
1847
IR
264
341
比较序列是否存在差异
之前基因文件的版本用错了,然后提出来的序列有些问题,然后今天用新的版本的跑了一下才是一样的;还好我之前跑甲基化数据的时候用对了基因组。
对可变剪切进行分类还是使用剪切位点上下游各300bp组成的序列进行blast
提取剪切位点上下游各300bp的序列,叫做splice anchor sequence tags
进行blast比对
提取只在某两个基因组上保守的剪切事件
在三个基因组上保守的剪切事件
只在某一个基因组中出现的剪切事件
将对于的剪切事件做成bed文件
查看基因对的数目
事件类型
基因对的数目
事件数目
四个都保守的
843
1390
At = A2
1515
2629
Dt =D5
1459
2189
At=Dt
1044
1528
A2=D5
1060
1511
只在At不存在
608
845
只在Dt不存在
653
945
只在A2不存在
837
1199
只在D5不存在
574
830
只有At有
4346
9387
只有Dt有
4429
9780
只有A2有
4541
10234
只有D5有
55007
12117
统计保守的IR长度信息
在统计长度的时候发现 Gorai.006G213800这个基因内含子长度都6000多了,对应的At与A2的内含子长度只有588多但是仍旧都可以发生IR
219 12 30
师兄说不能只根据 evalue 来筛选保守的片段,得看相似度和覆盖度
把筛选的命令重新写一遍
Last updated
Was this helpful?