保守AS的鉴定
参考: Identification and analysis of alternative splicing events in Phaseolus vulgaris and Glycine max
Genome-wide identification of evolutionarily conserved alternative splicing events in flowering plan
提取两端exon序列
分别对应5种保守的ASs
其中AltD
2^,1^; 1^,2^;发生AltD的转录本为2开头的那个,就提取开头为1的转录本
AltA
2-,1-; 1-,2- AltA发生在转录本为1开头的那个,提取转录本为2的
IntronR
1^2-,0 ; 0,1^2-提取转录本为1^2-的那个转录本
Exon
1-2^3-4^,0 提取转录本为0的,并且ExonS指定的是包含那个exon的intron范围
##内部经过筛选除了,选择两端长度大于20bp的
python ~/scripte/Alternative/module/extractFEST.py
-p PAcBio.gtf
-r reference.gtf
-AS end_third
-g genome.fasta
-IR 1 -ES 2 -AltA 3 -AltD 4
##统计sequence Tag范围
grep -v ">" 1 |awk '{print length($0)}'|sort -n|less进行Blast
同一种类型的剪切、不同亚基因组之间建库
同源基因间AS event数目统计
统计剪切事件在同源基因间发生的次数
只有同源基因都存在剪切事件,才会考虑保守性;如果仅仅只有一个同源基因存在,到时候可以看看对应的亚基因组有没有保守的事件
consevePairegenes目录
相同亚基因组比较
比较
基因对数
事件数目
保守基因对
保守事件
IR A2 vs At
4508
31401
3075
11618
D5 vs Dt
5574
37375
3852
13812
ES A2 vs At
388
1285
256
542
724
2428
547
1192
AltA A2 vs At
1201
4239
610
1372
1661
5591
1031
2288
AltD A2 vs At
868
3041
430
948
1192
4000
713
1564
> >
在IR事件上,A基因组中共有4508对同源基因存在31401个IR事件,其中3075对基因表现出保守的IR,保守的IR事件占总共事件的36.99%;D基因组中共有5574对同源基因存在37375个IR事件,其中3852对占据13812件(36.95%)保守事件
在ES事件上,A基因组中388对同源基因有1285个事件,其中256对同源基因271(21.08%)为保守的;
D基因组中724对同源基因有2428个事件,其中547对同源基因1192(49.09%)为保守的
在AltA中,A基因组1201对同源基因有4239个事件,其中610对同源基因1372(32.37%)为保守的AltA
D基因组中1661对同源基因有5591个事件,其中1031对基因2288(40.9%)为保守的AltA
在AltD中,A基因组868对同源基因3041个事件,其中430对同源基因31.17%为保守的AltD
D基因组中1192对同源基因4000个事件,其中713对同源基因1564(39.1%)为保守的AltD
不同亚基因组之间进行比较看看
At vs Dt与A2 vs D5 在IR保留事件上
比较
基因对数
事件数目
保守基因对数
事件数目
IR A2 vs D5
4849
32875
2908
10110
At vs Dt
4737
31889
3219
11360
ES A2 vs D5
446
1521
233
494
At vs Dt
462
1502
297
638
AltA A2 vs D5
1136
3840
518
1122
At vs Dt
1527
5217
911
2036
AltD A2 vs D5
729
2409
317
682
At vs Dt
1220
4256
722
1632
IR 30.75%~35.62%
ES: 32.48%~42.48%
AltA:29.22%~39.03%
AltD:28.31%~38.35%
比较A2 D5在二倍体时期,保守的IR,与At、Dt四倍体时期保守的IR看看存在多少交集
使用画图脚本conserveAS.R

保守事件与非保守事件、总事件之间长度比较

可以看到在AltA、AltD、IR中保守的剪切事件相比与不保守的剪切事件更长;这可能是由于在植物中剪切复合体通过识别intron,对前体mRNA进行剪切,因此intron越长不容易被剪切复合体识别,从在mRNA中被保留;但是由于保守的AS事件,可能存在一定的功能,受到选择压的作用,即使长度相比与不保守的AS仍旧不能够被剪切。
但是保守的ES与不保守的ES在长度上没有显著性的差别。
可参考 Genome-wide survey of Alternative Splicing in Sorghum Bicolor
保守事件中碱基数为3的比例
事件
保守事件
不保守事件
IR
0.347536
0.335992
AltA
0.372501
0.340563
AltD
0.392737
0.334963
ES
0.408131
0.420226
基因保守率计算
(保守的事件数/A基因组事件数+保守事件数/B基因组事件数)/2
存在保守剪切事件的基因中,ES事件的平均保守率为0.7856,AltA事件的平均保守率为0.7646,AltD事件的平均保守率为0.7636,IR事件的平均保守率为0.5841。
保守率的高低可能和对应事件碱基数是否是3的倍数有关
提取保守基因对对应的AS事件,在碱基为3的倍数的比例
保守事件在基因组的位置,所有的剪切事件在基因组的位置
提取gene坐标,制作bin,固定100个窗口
看文章好像gene是按照intron来分bin的
做了一下,确实是这样的。
Last updated
Was this helpful?