使用同源基因的序列进行all-vs-all BLASTN,筛选比对长度大于200bp,序列相似度达到90%,根据四种同源关系,筛选那些四个同源基因间共有的同源片段;
在片段内的相似的绝对坐标看剪切事件是否在区间内,并且不同基因组间在
##进行blast
bsub -q smp -n 10 -R span[hosts=1] -J blast -e %J.err -o %J.out "blastn -query blast.fa -db ./blast -outfmt '6 qseqid sseqid qstart qend sstart send nident pident qcovs evalue bitscore' -out test.blast -evalue 1e-5 -num_threads 10"
python blast.py -homolog ~/work/Alternative/result/homologo/homologGene/A2_D5_At_Dt_collinearity.txt -Blast test.blast -geneBed all_gene.bed -o 11111
根据同源片段,筛选处于同一个片段的同一种剪切事件
##
python AS.py -Blast 1111 -A2 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/A2_AS.txt -D5 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/D5_AS.txt -TM1 ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/TM1_AS.txt -o At_Dt_AS
python ../conseve_AS.py -AS At_Dt_AS -o At_Dt_conerved_AS
比较各个基因组中AS的差异程度
IR、SE与普通的exon、IR在CG含量、长度上是否存在一个差异
比较AS gene和gene在染色体上的分布,是否存在关联
在序列长度上,SE exon相比于constitutive exon长度更短,IR长度相比于constitutive intron在中位数上更长,而在平均数上IR相比于constitutive intron更短。
合并各个基因组的数据
使用k-mer构造与AS event长度相同的k-mer,保留相似度大于90%,相似长度占k-mer长度的90%以上,得分最高的k-mer片段
将同源基因的k-mer片段与同源基因的AS事件取交集,并且为同类型事件,交集长度占k-mer长度的90%以上
这个k-mer的方法受基因注释的影响,当基因注释不完整的时候回没有那个k-mer序列,从而匹配不到
各个AS 事件的保守的比例
IR事件在四种比较中,占所有IR事件的比例
SE事件在四种比较中,占所有SE事件的比例
A3事件在四种比较中,占所有A3事件的比例
A5事件在四种比较中,占所有A5事件的比例
各种保守剪切事件占据所有事件的比例;
通过比较发现同一个直系基因组间A S的保守比例高于非直系同源基因组;并且IR、A3、A5事件相比于SE事件有着更高的保守比例
不同基因组在AS gene 数目上的差异
这里AS geng统计的是PacBio转录本上发生AS的类型。
大致有29.92%~37.81%的同源基因是AS gene多倍化过程中ASgene的数目在逐渐下降,在二倍体中D5 AS gene的数目显著性的高于A2基因组,而在多倍化后At、Dt间在AS gene的数目上没有显著性的差异;并且有2009(9.5%)个基因在四个同源基因中都存在AS,在A2、D5、At、Dt中分别有1046,1220,522,566个亚基因组特异性的AS gene;进一步比较AS 基因包含AS 的数目发现D基因组中更多的AS gene发生AS数目的减少。仅仅只有2009(9.5%)的同源基因都存在AS事件
D5相比于Dt,同源基因的AS事件的数目在减少,而A2相比于At在基因AS的数目没有D基因组减少的显著;D基因组中更多的基因发生AS的减少
对四组同源基因对在AS数目上进行分类,AS数目上相差不超过两倍则认为是没有差异的
A2、D5、At、Dt 四个基因组在AS 数目上没有明显差异
保守的AS pattern:基因存在保守的AS事件;
完全保守的AS pattern:所有的AS都是保守的。
A2和At间保守的AS pattern gene个数
A2和At间总共有8667个同源基因存在AS,其中仅仅只有1746(20.1%)个基因存在保守的AS,而仅仅只有135个基因存在保守的AS模式
D5和Dt间保守的AS pattern gene 个数
D5和Dt间总共有9449个基因存在AS,其中有2045(21.64%)个基因存在保守的AS,而仅仅只有108个基因存在完全保守的AS模式
A2和D5间保守的AS pattern gene 个数
A2和D5间总共有9692个基因存在AS,其中有1621(16.73%)个基因存在保守的AS,仅仅只有86个基因存在完全保守的AS模式
At和Dt间保守的AS pattern gene 个数
At和Dt间总共有8489个基因存在AS,其中有1417(16.69%)个基因存在保守的AS,而仅仅只有208个基因存在保守的AS 模式
与祖先基因组相比,约有16%~21.64%的直系同源基因都包含保守的剪切模式;同时A、D两个亚基因组在多倍化后,A、D之间存在保守AS模式的基因数目相比于祖先二倍体A2和D5中的状态来说更少了。
参考:A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing
同源基因都存在PacBio转录本,使用表达量最高的那个转录本的作为基因的CDS序列
当同源基因都存在PacBio转录本时,使用表达量最高的PacBio转录本作为基因的CDS序列。
根据Ka/Ks的结果筛选正向选择和负向选择的基因中AS基因变化的比例
比较各个基因组中AS基因和非AS基因的转录本分化指数TDI
表达的(两个基因组中都存在PacBio转录本)发生AS的同源基因
更高的TDI意味着更年轻的转录组,多倍化过程中处于发散阶段;而更低的TDI意味了多倍化过程中处于保守的状态
这里用来计算的TDI的基因是根据基因AS与否分为了两类:
AS基因在多倍化过程中,进化更快一些;而且A2相比于D5基因进化更快。
由于k-mer序列的提取依赖于基因的注释信息,因此基因注释信息的准确信会对
如果序列在基因中由于结构变异或者TE导致的缺失也是会鉴定不到的
筛选指标:
AS event 与kmer序列保守核苷酸所占的比例
使用muscle分析k-mer序列之间的保守程度
提取k-mer序列进行muscle
序列水平即使有很大的差异,但仍旧发生了AS
Ghir_D05G000980;RI:Ghir_D05:901620:901829-902035:902068:- >Ghir_A05G000820;Ghir_A05:951825-952031 98 206
这个RI与kmer即使只有98/206的相似度,但是在kmer的位置还是发生了AS事件
统计单个碱基上比对到的read数目