可变剪切的进化分析
对同源基因的AS和ORF进行统计
对于AS isoform的分类不能用AS来描述了;改成使用是否包含这段AS片段
例如Ghir_A01G005170基因中对应的PB.5574.2转录本就存在一个ES事件,但是这个转录本不包含对应的exon序列;suppa软件的输出中将其放在最后一列。
对每个棉种中基因的AS和ORF数据进行统计分析:
基因存在发生AS的转录本,与正常功能的转录本;并且对应的ORF发生了提前终止、或者frameshift
基因存在发生AS的转录本,与正常功能的转录本;并且对应的ORF编码框没有发生改变,发生了in-frame change;在中间增加了一个序列;或者later stop
梳理一下AS的结果
A3:Ghir_A01:116840-116977:116835-116977:-
两个转录本上的exon坐标前面表示比较长的那一段exon序列;后面那一段表示比较短的那段exon序列
RI:Ghir_A01:524019:524047-524087:524141:-
表示两端exon的坐标序列;从第二个到第三个则是对应保留的intron坐标,第一个转录本表示包含保留的Intron
SE:Ghir_A01:2306968-2307075:2307164-2307243:+
中间的坐标表示被跳跃的exon坐标;两端的坐标分别表示两端exon的位置,第一个转录本表示包含跳跃的exon
A5:Ghir_A01:242983-244582:242983-244631:-
前面的坐标表示包含A5那段序列的转录本,在两端exon的坐标;后面则是不包含A5那段序列的转录本
针对ORF和AS进行分类
转录本与注释的转录本再ORF上存在差异、转录本与对应的注释转录本再AS上同样存在差异
转录本与注释的转录本ORF上不存在差异,转录本与对应的注释转录本再AS上不存在差异
转录本与注释的转录本ORF上不存在差异,转录本与对应的注释转录本再AS上存在差异
转录本与对应的注释转录本存在差异,但是与对应的注释转录本再AS上不存在差异
对转录本进行打上标签:
相比于对应的参考转录本,发生了AS,并且包含剪切片段
相比于对应的参考转录本,发生了AS,并且不包含剪切片段
相比于对应的参考转录本,没有发生AS
根据是否与AS相关联将PacBio转录本分成两类:
比较noAS 转录本与AS转录本在移码框和终止密码子上是否存在差别;然后再看每种剪切事件对应的转录本有多少比例发生移码突变,有多少发生终止密码子提前
分析与AS相关的转录本的组成
将isoform associate with Alternative splice 转录本分为两类:
contain alternative splice fragment 相比于参考基因组转录本
not contain alternative splice fragment
基因组
与AS相关
与AS无关
TM1
24407
46154
A2
13547
41398
D5
13433
33915
统计AS associate 相关的isoform中多少AS events包含了alternative splice fragment
可以发现在大多数IR事件中,PacBio检测到的AS associate isoform是包含了对应的intron的;而A3、A5、ES事件中;包含AS片段的转录本比例与不包含的比例接近1:1;这也可能是导致PacBio转录本相比于参考基因组的cDNA序列长度更长的原因之一;
基因组
RI
ES
A3
A5
TM1
9069/1673
1231/1371
6338/4507
4822/3752
A2
6186/443
726/568
2970/2097
2380/1674
D5
5421/630
785/673
2767/2807
1821/1561
分析AS associate isoform与编码框的偏移
基因组
frameshift
noframeshift
inframeChange
TM1_noAS
5583 12.10%
39621 85.85%
950 2.06%
TM1_AS
7885 32.31%
13820 56.62%
2702 11.07%
A2_noAS
5994
34402
1004
A2_AS
4981
7029
1537
D5_noAS
3981
29100
834
D5_AS
3911
7461
2061
分析AS associate isoform 与终止密码子的提前
基因组
early
later
both unchange
ORF change but stop not change
TM1_noAS
7420
1024
27669
9091+950
TM1_AS
8523
1387
2413
9382+2702
A2_noAS
8476
425
23395
8100+1004
A2_AS
6203
67
7
5733+1537
D5_noAS
5713
1009
21102
834+5257
D5_AS
4763
519
1476
2061+4614
分析四种剪切事件中发生frameshift
和early stop codan
的比例
进行卡方检验
编码框的改变
类别
发生frameshift
不发生frameshift
p-value
TM1_noAS
5583
40571
2.2e-16
TM1_AS
7885
16522
A2_noAS
5994
35406
2.2e-16
A2_AS
4981
8566
D5_AS
3981
29934
2.2e-16
D5_noAS
3911
9522
终止密码子的改变
类别
终止密码子发生改变
终止密码子没发生改变
p-value
TM1_noAS
8444
37710
2.2e-16
TM1_AS
9910
14497
A2_noAS
8901
32499
2.2e-16
A2_AS
6270
7277
D5_noAS
6722
27193
2.2e-16
D5_AS
5282
8151
发生frameshift的比例
AS couple with frame shift and early stop
ES事件导致的frameshift比例是最低的可能和exon是3的倍数相比于intron更高有关;这里可以统计一下
基因组
IR
ES
A3
A5
TM1
1822/6048
401/1492
1734/6157
1327/4387
A2
1428/4234
298/850
1159/3148
937/2457
D5
1187/3952
223/978
938/3699
615/2249
average
0.312
0.279
0.300
0.318
发生early stop的比例
基因组
IR
ES
A3
A5
TM1
2577/6048
350/1492
1588/6157
1267/4387
A2
2293/4234
338/850
1184/3148
975/2457
D5
1899/3952
232/978
933/3699
552/2249
average
0.483
0.29
0.295
0.31
小结
在证明了编码框的改变会影响基因表达后;我们对可变剪切对ORF的影响进行了探究;首先将PacBio与参考转录本进行比较鉴定出isoforms associate with Alternative splice;和none Alternative splice;其中IAAS转录本又分为两组:
与参考转录本相比,包含剪切片段的
与参考转录本相比,不包含剪切片段的
通过统计这两种AS 转录本在各种剪切事件的比例;发现在IR事件中包含剪切事件片段的转录本占据主要;而其他事件中两种转录本的比例约为1:1;
进一步比较noneAS转录本与AS associate 转录本在frameshift、earlyStop上是否存在差异;进行卡方测验发现AS associate 与非AS associate isofrom转录本在编码框的改变、提取终止的密码子上没有显著性差异
论证AS与编码框、提前终止的密码子存在联系后;提取AS转录本的子集,只看那些与参考基因组转录本存在一个剪切事件差异的剪切事件,分析这些剪切事件导致frameshift、earlyStop的比例;分析发现exon skip事件中导致framshift、earlystop的比例是最小的,而IR事件有着高比例的frameshift和earlyStop;这可能和exon原本就起着重要的作用
AS与基因表达
前面已经讨论了AS会改变转录本的编码框,并且ES事件对编码框的影响是最小的;而IR事件对编码框的影响是最大的;既然AS影响了转录本的编码框;在后续的翻译阶段就可能会存在着两种命运;
例如AS导致的编码框的移码、终止密码子的提取,最终受到NMD调控机制调节从而导致转录本被降解,这种机制在一定程度上相当于转录本的一个分流器,调控基因的表达
AS保留或者截取的片段,并没有导致mRNA被降解的命运;而是在经过翻译后形成了新的蛋白质亚基,行使新的功能。
为此我们将经过AS和ORF注释后的转录本进行了分类:
none AS isoform
AS association isoform with (frameshift|earlyStop)
AS association isoform with(inframeChange)
从整体表达水平看,None AS转录本的表达水平高于 inframeChange isoform转录本,而最小的则是frameshift转录本。从表达水平上的角度也验证了我们的想法。根据这个想法我们把从中筛选了基因的子集:
只转录出与参考转录本ORF一致转录本
转录出与参考转录本ORF一致的同时,还转录出一些由于AS导致frameshift|earlyStop的转录本
转录出与参考转录本ORF一致的同时,还转录出一些由于AS导致inframeChange的转录本;编码框没有变,ORF改变了
这里画一个韦恩图,多少基因转录出与参考转录本ORF一致的 转录本,多少基因转录出可能有AS导致的frameshift&earlyStop ,多少基因转录出in-frame Change;经过分析将近有18%的基因在转录出参考转录本的同时,还受到AS的调控;11.6%的基因在没有转录出于参考转录本一致的ORF情况下受到AS的影响。
对基因分好类后比较它们的表达水平和进行GO富集分析
Last updated