保守AS模式的鉴定
1.筛选同源基因片段
使用同源基因的序列进行all-vs-all BLASTN,筛选比对长度大于200bp,序列相似度达到90%,根据四种同源关系,筛选那些四个同源基因间共有的同源片段;
在片段内的相似的绝对坐标看剪切事件是否在区间内,并且不同基因组间在
筛选同源片段的指标
相似长度大于200,相似度大于90%
##进行blast
bsub -q smp -n 10 -R span[hosts=1] -J blast -e %J.err -o %J.out "blastn -query blast.fa -db ./blast -outfmt '6 qseqid sseqid qstart qend sstart send nident pident qcovs evalue bitscore' -out test.blast -evalue 1e-5 -num_threads 10"根据同源基因筛选同源片段
python blast.py -homolog ~/work/Alternative/result/homologo/homologGene/A2_D5_At_Dt_collinearity.txt -Blast test.blast -geneBed all_gene.bed -o 11111根据同源片段,筛选处于同一个片段的同一种剪切事件
##
python AS.py -Blast 1111 -A2 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/A2_AS.txt -D5 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/D5_AS.txt -TM1 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/TM1_AS.txt -o At_Dt_AS筛选同源基因间保守的AS事件
python ../conseve_AS.py -AS At_Dt_AS -o At_Dt_conerved_AS比较各个基因组中AS的差异程度
IR、SE与普通的exon、IR在CG含量、长度上是否存在一个差异
比较AS gene和gene在染色体上的分布,是否存在关联
比较不同基因组间保守的AS pattern
挑几个AS event进行照胶
IR、SE长度差异
在序列长度上,SE exon相比于constitutive exon长度更短,IR长度相比于constitutive intron在中位数上更长,而在平均数上IR相比于constitutive intron更短。
合并各个基因组的数据
IR、SE在GC含量上的差异
保守的AS pattern
使用k-mer构造与AS event长度相同的k-mer,保留相似度大于90%,相似长度占k-mer长度的90%以上,得分最高的k-mer片段
将同源基因的k-mer片段与同源基因的AS事件取交集,并且为同类型事件,交集长度占k-mer长度的90%以上
这个k-mer的方法受基因注释的影响,当基因注释不完整的时候回没有那个k-mer序列,从而匹配不到
各个AS 事件的保守的比例
IR事件在四种比较中,占所有IR事件的比例
比较
A2_At
A2_D5
At_Dt
D5_Dt
比例
1976/9263
1547/9263
1216/6194
1885/7452
1869/6194
1584/7452
1223/6311
1806/6311
SE事件在四种比较中,占所有SE事件的比例
比较
A2_At
A2_D5
At_Dt
D5_Dt
比例
216/1352
187/1352
192/1173
312/1880
199/1173
185/1880
191/1122
314/1122
A3事件在四种比较中,占所有A3事件的比例
比较
A2_At
A2_D5
At_Dt
D5_Dt
比例
894/3880
846/4197
865/3993
1429/5694
876/4170
890/5676
858/3959
1318/4473
A5事件在四种比较中,占所有A5事件的比例
比较
A2_At
A2_D5
At_Dt
D5_Dt
比例
602/2749
440/2885
473/3135
786/3576
534/3212
464/3600
477/3104
745/3429
各种保守剪切事件占据所有事件的比例;
通过比较发现同一个直系基因组间A S的保守比例高于非直系同源基因组;并且IR、A3、A5事件相比于SE事件有着更高的保守比例
比较
IR
SE
A3
A5
A2 vs At
30.17%
16.97%
23.04%
21.90%
D5 vs Dt
28.62%
16.60%
29.46%
21.98%
A2 vs D5
21.25%
13.83%
20.15%
15.25%
At vs Dt
19.64%
17.02%
21.67%
15.37%
类型
IR
SE
A3
A5
直系基因组平均保守率
29.39
16.79
26.25
21.94
非直系基因组平均保守率
20.45
15.43
20.91
15.31
不同基因组在AS gene 数目上的差异
这里AS geng统计的是PacBio转录本上发生AS的类型。
大致有29.92%~37.81%的同源基因是AS gene多倍化过程中ASgene的数目在逐渐下降,在二倍体中D5 AS gene的数目显著性的高于A2基因组,而在多倍化后At、Dt间在AS gene的数目上没有显著性的差异;并且有2009(9.5%)个基因在四个同源基因中都存在AS,在A2、D5、At、Dt中分别有1046,1220,522,566个亚基因组特异性的AS gene;进一步比较AS 基因包含AS 的数目发现D基因组中更多的AS gene发生AS数目的减少。仅仅只有2009(9.5%)的同源基因都存在AS事件
基因组
AS gene
非AS gene
total
A2
6417
14649
21066
D5
6805
14261
21066
At
5122
15944
21066
Dt
5115
15951
21066
D5相比于Dt,同源基因的AS事件的数目在减少,而A2相比于At在基因AS的数目没有D基因组减少的显著;D基因组中更多的基因发生AS的减少
其他基因组
AS数目发生减少
其他基因
总基因数
A基因组
3930
17136
21066
D基因组
5362
15704
21066
对四组同源基因对在AS数目上进行分类,AS数目上相差不超过两倍则认为是没有差异的
二倍体高于四倍体
二倍体低于四倍体
A2、D5、At、Dt 四个基因组在AS 数目上没有明显差异
A2、At都高于D5和Dt
D5和Dt都高于A2和At
A2一枝独秀
D5一枝独秀
At一枝独秀
Dt一枝独秀
保守的AS pattern:基因存在保守的AS事件;
完全保守的AS pattern:所有的AS都是保守的。
A2和At间保守的AS pattern gene个数
A2和At间总共有8667个同源基因存在AS,其中仅仅只有1746(20.1%)个基因存在保守的AS,而仅仅只有135个基因存在保守的AS模式
D5和Dt间保守的AS pattern gene 个数
D5和Dt间总共有9449个基因存在AS,其中有2045(21.64%)个基因存在保守的AS,而仅仅只有108个基因存在完全保守的AS模式
A2和D5间保守的AS pattern gene 个数
A2和D5间总共有9692个基因存在AS,其中有1621(16.73%)个基因存在保守的AS,仅仅只有86个基因存在完全保守的AS模式
At和Dt间保守的AS pattern gene 个数
At和Dt间总共有8489个基因存在AS,其中有1417(16.69%)个基因存在保守的AS,而仅仅只有208个基因存在保守的AS 模式
与祖先基因组相比,约有16%~21.64%的直系同源基因都包含保守的剪切模式;同时A、D两个亚基因组在多倍化后,A、D之间存在保守AS模式的基因数目相比于祖先二倍体A2和D5中的状态来说更少了。
Ka/Ks分析
参考:A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing
同源基因都存在PacBio转录本,使用表达量最高的那个转录本的作为基因的CDS序列
当同源基因都存在PacBio转录本时,使用表达量最高的PacBio转录本作为基因的CDS序列。
proc 文件需要和序列文件放同一个文件夹
需要在序列文件所在目录运行脚本
根据Ka/Ks的结果筛选正向选择和负向选择的基因中AS基因变化的比例
AS保守的基因
没有AS的基因
存在AS的差异
比较各个基因组中AS基因和非AS基因的转录本分化指数TDI
表达的(两个基因组中都存在PacBio转录本)发生AS的同源基因
表达的未发生AS的同源基因
更高的TDI意味着更年轻的转录组,多倍化过程中处于发散阶段;而更低的TDI意味了多倍化过程中处于保守的状态
这里用来计算的TDI的基因是根据基因AS与否分为了两类:
过滤掉Ka/Ks值为NA的
基因组
都存在转录本同源基因数
发生AS
未发生AS
A2
10670
4720
4253
D5
10198
5401
3878
At
10670
4289
4684
Dt
10198
4409
4870
基因组
AS TDI
noneAS TDI
A2
0.41
0.35
D5
0.33
0.28
At
0.44
0.36
Dt
0.34
0.27
AS基因在多倍化过程中,进化更快一些;而且A2相比于D5基因进化更快。
AS事件的保守性分析
由于k-mer序列的提取依赖于基因的注释信息,因此基因注释信息的准确信会对
如果序列在基因中由于结构变异或者TE导致的缺失也是会鉴定不到的
筛选指标:
AS event 与kmer序列保守核苷酸所占的比例
使用muscle分析k-mer序列之间的保守程度
提取k-mer序列进行muscle
脚本太慢了,直接拆分文件提交任务进行跑
序列水平即使有很大的差异,但仍旧发生了AS
Ghir_D05G000980;RI:Ghir_D05:901620:901829-902035:902068:- >Ghir_A05G000820;Ghir_A05:951825-952031 98 206
这个RI与kmer即使只有98/206的相似度,但是在kmer的位置还是发生了AS事件
统计单个碱基上比对到的read数目
split只保留read覆盖区域比对质量为M的
Last updated
Was this helpful?