多倍化过程中的变化3
分析同源基因对间转录本的保守性
统一用21066对四元同源基因对
在21066对同源基因中,转录出转录本的基因和没有转录本的基因数
A2
14602基因存在PacBio转录本D5
13122基因存在PacBio转录本AT
11543基因存在PacBio转录本Dt
11749基因存在PacBio转录本两个基因组间同时存在转录本的基因数
A2 vs D5 11885
A2 vs At 10670
D5 vs Dt 10198
At vs Dt 9063
四个同源基因都存在PacBio转录本:
8087个四组同源基因同时存在PacBio转录本
A2_vs_At
A2_vs_D5
At_vs_Dt
D5_vs_Dt
##比较亚组间转录本的保守性
bash Gh_result/05polyploidization/01isoformConserved/conserve_isoform.sh
##筛选保守的转录本
awk '$3~/A2/&&$4~/At/&&$6>=0.95{print $0}' Isoform_CDS.txt >A2_vs_At_conservedIsoform.txt比较
存在保守转录本
不存在
A2 vs At
6112(57.3%)
4558(42.7%)
D5 vs Dt
6079(59.6%)
4119(40.4%)
A2 vs D5
7365(61.9%)
4520(38.1%)
At vs Dt
3249(35.8%)
5814(64.2%)
首先我们对同源基因都存在PacBio转录本进行了筛选,一共筛选得到了10670对A2 vs At和10198对D5 vs Dt同源基因对,
分析了各个同源基因内AS基因数目和AS事件:
A2和At同源基因分别有
A2
5430个基因存在16791个AS事件At
4912个基因存在13628个AS事件D5和Dt同源基因分别有
D5
5843个基因存在17136个AS事件Dt
4745个基因存在13238个AS事件比较了这些同源基因对转录本的保守情况,一共鉴定到
6112(57.3%)和6079(59.6%)存在保守转录本的同源基因对;同时我们发现30.4%-32.7%的同源基因对不存在功能保守的转录本。
##都表达的同源基因中存在AS的数目
A2_At_expression_A2_AS.txt
A2_At_expression_At_AS.txt
##21066对同源基因中表达的基因数和AS事件数目
基因组
AS事件
基因数
A2
18814
6417
D5
18991
6805
At
13981
5122
Dt
14083
5115
多倍化过程中保守的AS比例:
(2885+3418)/(18814+18991)
分析同源基因间保守的AS事件:
使用K-mer获得定位另外一个基因组上的坐标,然后将k-mer坐标与AS坐标取交集,获取保守的剪接事件。
k-mer坐标至少需要90%与AS坐标存在交集
所有的AS事件都保守
存在特异性的AS事件
分析保守的剪接事件之间序列的相似程度是否比较高
特异性的剪接事件对应的PSI值差不多。
##D5 vs Dt
cat splitFile/*kmer.txt >AS_kmer.txt
##获取k-mer对应的剪接事件
python ~/github/zpliuCode/Isoseq3/04ASconserved/extractConservedAS.py AS_kmer.txt ../../../05polyploidization/02ASevent/Dt_homolog_AS.txt 11
awk '$2!~/>/{print $0}' 11 >D5_Dt_conservedAS.txt获取特异性的剪接事件对应是constitutive Exon或者Intron
##获取特异性IR和SE事件对应k-mer为constitutive-exon或者intron
awk '$2~/>/{print $0}' 11|grep RI >D5_specialRI.txt
awk '$2~/>/{print $0}' 11|grep SE >D5_specialSE.txt
##提constitutive exon
intersectBed -loj -a gene.bed AS_length/constitutive_exon.bed -F 1|awk '{OFS="\t";print $7,$8+1,$9-1,$4,$6,"constitutiveExon"}' >TM1/constitutiveExon.bed
##提取constitutive intron
intersectBed -loj -a gene.bed AS_length/constitutive_intron.bed -F 1|awk '{OFS="\t";print $7,$8,$9,$4,$6,"constitutiveExon"}' >TM1/constitutiveExon.bed
##分类
python ~/github/zpliuCode/Isoseq3/04ASconserved/extractSpecialAS.py D5_specialRI.txt ../../constitutiveFeature/TM1/constitutive_feature.bed 3
##计算每种事件的PSI值
python ~/github/zpliuCode/Isoseq3/03ASquantify/extractASPSI.py all_AS_quantify.txt ASeventFile.txt outFile.txt分析存在保守AS事件的同源基因
同源基因间存在保守的AS数和基因数,
A基因组间存在保守AS的基因比例比D基因组小,A亚组进化快一些
AS的保守程度:(那种一对多的情况,如果大于1就当做1来算)
都存在AS的同源基因对,比较这些同源基因的AS保守情况
(保守的AS数a+b)/(同源基因的AS数 a+b)
A基因组和D基因组在多倍化前后
A基因组AS更保守还是D基因组
D基因组AS相比于A基因组更保守,多倍化后At、Dt间AS剪接更加保守
RI和SE在多倍化过程中的变化
A2 vs At
保守的RI事件:
保守的SE事件:
A基因组中特异性AS事件的去向
type
RI
SE
exon
intron
Other
Special Total
A2RI
1481
-
530 (7.6%)
3984 (57.2%)
2457(35.3%)
6971
A2SE
-
182
295(33.8%)
325(37.3%)
251(28.9%)
871
AtRI
1481
-
439(9.6%)
2379(52.0%)
1758(38.4%)
4576
AtSE
-
182
399(42.0%)
207(21.8%)
345(36.2%)
951
D基因组中特异性AS的去向
type
RI
SE
exon
intron
Other
special Total
D5RI
1410
-
576(9.7%)
3070(51.4%)
2322(38.9%)
5968
D5SE
-
287
873(55.6%)
319(20.3%)
378(24.1)
1570
DtRI
1410
-
523(11.0%)
2380(50.2%)
1839(38.8%)
4742
DtSE
-
287
284(35.9%)
258(32.6%)
249(31.5%)
791
多倍化过程中大量亚组特异性的AS事件,转变为了组成型的intron和组成型的exon;
比较多倍化前后保守AS的PSI和PSJ变化
由于测序read覆盖不足的原因,鉴定出的很多AS可能是短暂出现,可能是剪接机制一不小心错误的识别了冒名顶替的剪接位点。为了准确的鉴定多倍化过程中AS的变化,我们对物种中包含多转录本的基因的AS event进行了量化:
过滤掉那种只由参考转录本和PacBio比较得出的AS,这种AS无法进行量化,对于与参考转录本比较得到的AS时,参考转录本的reads数默认为0
$a/(a+b+c)$
a: 包含剪接事件的转录本对应的FL read数目
b、c: 不包含剪接事件的转录本对应的FL read 数目
junction reads that support inclusion of alternative
junction reads that support exclusion of alternative exons
对于RI事件,支持的read数目还要进行标准化
read count read length 2/(read length *2+event length)
PSI 包含这个剪接事件的比例
对于AS变成constitutive exon或者constitutive intron;这个也许由于测序深度的影响造成AS没有检测到,分析PSI值差异大不大。
constitutive exon PSI为1
constitutive intron PSI为0
PSI再乘以基因的表达量,之后用于DNA甲基化数据的时候
##对筛选的AS事件,进行量化03quantifyASevent
python ~/github/zpliuCode/Isoseq3/03ASquantify/caculateAS_ratio.py ../02ASevent/A2_homolog_AS.txt ~/work/Alternative/result/Gh_result/CO31_32_result/evolution4/A2_PacBio.txt 11
##使用RNA-seq的数据进行量化
python ~/github/zpliuCode/Isoseq3/03ASquantify/PSIByRNAseq.py 1 ~/work/Alternative/result/homologo/FEST3/geneExpress/hisat2/D5_rmdup.bam 22由多倍化过程中内含子转变为IR的PSI值明显的低于外显子转变为IR,存在剪接印记效应,这种剪接转录本的含量比较低,或者是发挥完作用后被降解的过程中被测到了。
为了找到多倍化过程中稳定且保守的RI事件。我们使用另外一个RNA-seq的短读read数据对RI事件的含量进行了量化。同样发现了类型的现象,根据short-read得到稳定的RI事件。
IR2intron
IR2exon
intron2IR
exon2IR
SE2intron
SE2exon
exon2SE
intron2SE
IR2IR
SE2SE
IR转变为intron的例子中,IR的PIR值很低,这会不会是事件只是短暂的出现了一会
虽然这个地方检测到了RI的存在,但主要还是以非RI的转录本为主。
但是也存在打破这种诅咒的现象;用RNA-seq做一个例子的图
intron变成IR后,IR的PSI值很高,read数目也很多
分析RI和SE在四个亚基因组中的保守性
保守的RI和SE事件
A2 D5 1418 180
At Dt 1107 179
A2 At 1491 182
D5 Dt 1412 287
##AS在四个基因组中的保守性
python ~/github/zpliuCode/Isoseq3/04ASconserved/homologConservedAS.py all_conserve_RI_SE.txt 11
##筛选同一个位置处得到最保守的剪接事件,
python ~/github/zpliuCode/Isoseq3/04ASconserved/filterConservedAS.py ../A2_D5/A2_D5_conserved_AS.txt 11
##二倍体和四倍体中保守的AS事件
awk '$1~/RI/||$1~/SE/{print $0}' ../A2_D5/A2_D5_conserved_AS.txt |wc -l
##A基因组和D基因组保守的AS事件
在二倍体和四倍体都保守的IR和SE事件
都保守的AS事件:577
只在二倍体中存在,2274
只在四倍体中存在 1981
在A基因组和D基因组保守的IR和SE事件
只在A基因组中存在,2308
只在D基因组中存在 :2841
亚组特异性的剪接事件?
举例子:
总结:
分析存在保守AS的基因占(存在AS基因)的比例(柱状图)
分析多倍化过程中IR向intron和exon类型转变(很多特异AS事件转变为CI)
不同转变类型的PIR值大小(箱型图),特例图(打破诅咒的)
比较不同基因组间AS的保守程度(箱型图)
二倍体和四倍体都存在的保守IR和SE(韦恩图,胶图)
举个例子(PacBio转录本例子)
筛选标准:
read数目都大于10
PSI值都大于0.1
保守的RI事件之间,PSI值相差两倍以上
不保守的RI事件,则是PSI值介于0.05-0.95,支持read>5
#根据PSI值筛选差异的RI事件,进行GO富集分析 paste A2RI_PSI.txt AtRI_PSI.txt |awk '$7-$3>$3||$3-$7>$7{print $0}'|less ##特异性的RI事件 awk '$3>=0.05&&$3<=0.95&&$2>5{print $0}' A2RI_PSI.txt |less
在这些保守的IR或者SE事件中,有多少PSI值是存在两倍差异的
基因组
二倍体上调
四倍体上调
不变
A RI
1481
96()
553()
832()
D RI
1410
106()
345()
959()
A SE
25()
21()
136()
D SE
287
35()
21()
231()
对差异表达的保守RI事件进行GO富集分析
第五个结果:多倍化过程中转录本的保守性
模型:AS加速同源基因间的进化
比较转录本的趋同进化和并行分化
2418个同源基因在多倍化前后都存在功能保守的转录本。
多倍化前有多少比例的同源基因存在保守转录本:
二倍体中 7365/11885 (62.0%) 基因存在保守转录本
四倍体中 有3249/9063 (35.8%)基因存在保守转录本
A2 vs At中有6112/10670 (57.3%)基因存在保守的转录本
D5vsDt中有6079/10198 (59.6%) 基因存在保守的转录本
比较不同基因组间转录本的保守程度
多倍化前后,不同基因组存在保守转录本的基因的比例变化(柱状图)
分析四个同源基因间存在保守转录本的基因数(韦恩图)
分析存在保守转录本的同源基因,相比于功能发生分化的同源基因表达水平和Ka/Ks值(箱型图)
多倍化过程中存在保守转录本基因与非保守基因表达水平和Ka\Ks值
并行分化
虽然At、Dt间保守转录本的程度比较低,只有(3249)30%多。5814个亚基因组同源基因功能发生了分化,在这些功能分化的同源基因中有80.3%的基因是与二倍体祖先存在功能一致的转录本的。
2346 个At基因与A2存在保守的转录本 (饼状图)
240个At基因与D5存在保守的转录本
2322个Dt基因与D5存在保守的转录本
231个Dt基因与A2存在保守的转录本
在At与Dt转录本分化的这些同源基因中,有基因是分别转录了二倍体基因的不同转录本,基因的AS直接变成不同基因来转录不同的转录本,形成功能互补。总的来说一共有4402基因与二倍体相比存在保守的转录本,而亚基因组同源基因间不存在保守的转录本。
这些同源基因转录本发生分化的基因中,基因表达水平和Ka/Ks值的差异(柱状图)
比较分化的At、Dt基因与保守的转录本的At、Dt基因,在AS数目上的差异程度。
##保守的亚基因组同源基因,AS数目上的差异程度
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' conserved_AScount.txt |awk '{print sqrt(($2-$4)*($2-$4))}' >1
##不保守的亚基因组同源基因,AS数目上的差异程度
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' diversity_AScount.txt |awk '{print sqrt(($2-$4)*($2-$4))}' >2
## 计算相差AS数目对应的频率
sort 1 -n|uniq -c |awk '{print $1/3249"\t"$2}'GO富集图(分析)
举例子(igv画转录本结构图)
在发生分化的At、Dt同源基因中,有多少对同源基因是祖先同源基因功能分化的结果,两个同源基因分别转录出祖先不同的转录本,承担不同的功能,亦或者是通过AS来调节同源基因的表达。
在2346 个At与A2存在保守转录本的基因中,有296个Dt基因与A2相比也存在保守的转录本,
在2322个Dt与D5存在保守转录本的基因中,有221个At基因与D5相比存在保守的转录本。
有的At、Dt同源基因既可能继承了A2的互补转录本,也可能继承了D5的互补转录本;所以去个重,总共得到了464个同源基因对,它们分别转录出祖先基因中的一个转录本,功能上是互补。
同源基因产生功能互补的转录本,这些转录本存在AS的差异
##At、Dt亚组间转录本功能发生分化的基因,但是都与祖先基因组存在保守的转录本 :/public/home/zpliu/work/Alternative/result/Gh_result/05polyploidization/01isoformConserved/homologDifferentiation
cut -f3 At_Dt_differ_D5_Dt_gene.txt |xargs -I {} grep {} ../D5_vs_At/conserved_Isoform.txt |cut -f1 |sort |uniq |xargs -I {} grep {} ~/work/Alternative/result/Gh_result/CO31_32_result/evolution5/A2_D5_At_Dt_collinearity.txt >At_DtDifferent_AllConservedWithDiploid/At_Dt_different_AllConservedWithD5.txt
##对应的转录本,在A2中是否存在AS差异
python ~/github/zpliuCode/Isoseq3/08IsoformDifferentiation/homologIsoformDifferentiation.py ~/work/Alternative/result/Gh_result/CO31_32_result/evolution2/D5_AS.txt ../../D5_vs_Dt/D5_vs_Dt_conservedIsoform.txt ../../D5_vs_At/conserved_Isoform.txt 22 At_Dt_different_AllConservedWithD5.txt转录本的保守程度(箱型图)
A基因组的转录组经历更大变化
不同基因组间转录本的保守程度:
保守转录本数目/(转录出转录本的数目) 保守程度:
A2 At 0.386
D5 Dt 0.421
A2 D5 0.413
At Dt 0.248A、D亚基因组;转录本功能上更加分化,但是AS剪接更加保守。
AS的保守与转录本的功能保守性之间是否存在联系(柱状图)
多少比例的分化是由于AS导致的
讨论:这种保守的AS信号可能是由于同处于一个细胞核的剪接复合体的识别造成,三维结构上的靠近。
存在保守AS的基因,转录本的保守性,与不存在保守AS的基因,转录本功能的保守性;AS的保守性和转录本功能的保守性存在关联转录本功能分化程度和基因AS剪接保守程度是否存在弱相关性(柱状图)
Last updated
Was this helpful?