多倍化过程中变化2
保守转录本与不保守转录本的差异
特异性的转录本:A2与At相比CDS不保守的转录本
1.保守转录本与不保守转录本在亚基因组间的占比
多倍化过程中有54.1%~60.7%的转录本是特异性的转录本,并且在A基因组中有更高比例的特异性转录本存在,D5基因组中特异性转录本的比例最低
基因组 | 保守转录本 | 特异性转录本 | 总的转录本 |
A2 | 17915(39.3%) | 27629(60.7%) | 45544 |
At | 13386(41.8%) | 18612(58.2%) | 31998 |
Dt | 15357(45.9%) | 18106(54.1%) | 33463 |
D5 | 17151(44.0%) | 21821(56%) | 38,972 |
2.转录出特异性转录本的基因数,在多倍化过程中逐渐减少,多倍化后更少的基因转录出多个特异性的转录本
在A2中一共有8557个基因存在特异性的转录本,At中一共有7630个基因存在特异性的转录本,D5中一共有8103的基因存在特异性的转录本,Dt中一共有7420个基因存在特异性的转录本。
在二倍体中更多的基因转录出多个特异性的转录本
3.特异性转录本与保守转录本在CDS长度和FPKM上的比较
低表达的转录本:FPKM值<1,卡方测验
不同类型的转录本与转录本的表达水平是否存在差异
At中类型 | 低表达 | 高表达 |
特异性的转录本 | 10424(56.0%) | 8188 |
保守的转录本本 | 5163(38.6%) | 8223 |
Dt中类型 | 低表达 | 高表达 |
特异性的转录本 | 10519(58.0%) | 7587 |
保守的转录本本 | 5854(38.1%) | 9503 |
A2中类型 | 低表达 | 高表达 |
特异性的转录本 | 16706(60.4%) | 10923 |
保守的转录本本 | 7572(42.3%) | 10343 |
D5中类型 | 低表达 | 高表达 |
特异性的转录本 | 11935(54.7) | 9886 |
保守的转录本本 | 6298(36.7%) | 10853 |
4.特异性转录本中不同AS类型的数目
在同一个直系基因组中将特异性的转录本与保守的转录本进行比较,发现差异的AS在其中的比例,
并且这种差异的AS被认为是亚组特异性的AS
基因组 | 保守的转录本 | 特异的转录本 | 特异转录本与保守转录本间存在AS 差异 | 其他原因导致的特异性转录本 |
A2 | 17915 | 27629 | 17566 | 10063 |
At | 13386 | 18612 | 12831 | 5781 |
D5 | 17151 | 21821 | 15032 | 6789 |
Dt | 15357 | 18106 | 12530 | 5576 |
这些AS事件的种类和数目的统计
同时基因产生特异性转录本的数目与AS的数目存在正相关,这只筛选存在AS差异的基于进行相关性分析
基因组 | IR | ES | A5 | A3 | total |
A2 | 7231 | 1132 | 2788 | 4139 | 15290 |
At | 5953 | 1133 | 3120 | 4044 | 14251 |
D5 | 6805 | 1452 | 3186 | 5046 | 16489 |
Dt | 5979 | 1076 | 3003 | 3905 | 13963 |
5.A、D亚组间特异性转录本的丢失与获得
A2 vs At 11292
D5 vs Dt 11690
不同的基因组对于特异性转录本的比例是否存在相关性,在多倍化过程中A基因组显著性的更多的基因发生了特异性转录本的丢失;而在四倍体中同样的是At中更多基因获得了特异的转录本。
卡方测验:特异性转录本的丢失
A2 和D5进行比较谁丢的多的时候,A2和D5的总的基因数目要一样;
At和Dt进行比较谁获得的特异性转录本多的时候,At和Dt总的基因数目要一样多;
使用四元同源基因对。
基因组 | 存在特异性转录本的基因 | 不存在特异性转录本的基因 | Total |
A2 | 8557(75.77%) | 2735 | 11292 |
D5 | 8103(69.3%) | 3587 | 11690 |
At | 7630(67.5%) | 3662 | 11292 |
Dt | 7420(63.5%) | 4270 | 11690 |
基因组 | 存在特异性转录本的基因 | 不存在特异性转录本的基因 | Total |
A2 | 6927(64.44%) | 3824 | 10751 |
D5 | 6519(60.63%) | 4232 | 10751 |
At | 6154(57.24%) | 4597 | 10751 |
Dt | 5984(55.66%) | 4767 | 10751 |
特异性转录本丢失的例子
特异性转录本获得的例子
5.根据基因包含特异性转录本的情况对基因进行分类
high
mild
none
不同类别基因的表达水平的差异
6.基因主要表达的转录本是否发生改变
在多倍化过程中存在特异性转录本和保守转录本的基因中,基因所表达的productive 转录本是否发生了改变。
类型 | 主要表达的转录本发生改变 | productive 转录本没有发生改变 | Total |
A基因组 | 1599 | 3338 | 4937 |
D基因组 | 1375 | 3604 | 4979 |
可以做一个胶图,那些有些高表达基因既存在保守转录本,又存在不保守转录本,但是表达量高的是不保守转录本
对这些主要表达转录本发生改变的基因进行功能富集分析
处理GO的输出结果
A基因组中基因富集在脂质代谢作用上;
D基因组中基因富集在激动蛋白途径,与细胞骨架相关
找差异表达基因做胶图
筛选发生剪接事件的地方有较多的read覆盖,同时基因的表达水平也比较高
举例子
A2 vs At中的基因
evm.TU.Ga05G1374 vs Ghir_A05G013330 二倍体中高表达的转录本包含一个IR事件,而四倍体At中是正常的那个
evm.TU.Ga03G0628 vs Ghir_A02G005750 二倍体中存在一个高表达的IR转录本
evm.TU.Ga03G1862 vs Ghir_A03G015520 二倍体中存在一个高表达的IR转录本
evm.TU.Ga05G0904 vs Ghir_A05G008720 二倍体中存在一个高表达的A5转录本
evm.TU.Ga05G1931 vs Ghir_A05G018570 四倍体中存在一个RI高表达基因
PB.10935.3 、PB.11193.4
D5 vs Dt中的基因
Gorai.006G171900 vs Ghir_D09G015850 ,在四倍体中存在一个RI的高表达转录本
Gorai.003G002800 vs Ghir_D03G000260,在四倍体中存在一个RI高表达的转录本
Gorai.001G174600 vs Ghir_D07G015890,在四倍体中存在一个RI的高表达的转录本
7.同一个基因组内,不同类型基因的比较
多倍化过程中,稳定的转录后调控基因表达水平相比于不稳定的转录后调控基因表达水平更高;可能不稳定的转录后调控基因产生的转录本大多是无意义的
不存在保守转录本的这些基因,表达量最低,这里把两个基因组的数据放在同一个图内,并且对不同基因组间的表达量进行一个标准化
A2 vs At 时,保证基因的总的表达量是一致的
A2基因总表达量为:886732 read数为 77490057
At基因总表达量为:270235 read数为 55815433
Dt基因总表达量为:286558 read数为 58665229
D5基因总的表达量为:585450 read数为 73759547
At按照A2总表达量进行标准化,乘以3倍;Dt按照D5的表达量进行标准化乘以2
A、D两个亚基因组间的差异
大多数AS可能是noise,并且产生截断的蛋白质;并且物种间AS的不保守可能也是由于AS与物种特异性功能的形成有关;例如人类和老鼠中仅仅只有10%的AS event在同源基因间是保守的;AS的快速分化有助于物种的形成。
类型 | 数目 |
所有转录本都保守 | 1170 |
At中所有转录本保守、但是Dt中有特异性的转录本 | 855 |
Dt中有特异性的转录本、但是At所有转录本都保守 | 943 |
At、Dt除了保守转录本,两个都存在特异性转录本 | 1621 |
不存在保守的转录本 | 5062 |
根据转录本的保守情况对两个亚基因组同源基因进行分类:
存在保守转录本的同源基因
不存在保守转录本的同源基因
比较两类基因在二倍体和多倍体中的状态(比较7605组四元同源基因对,FPKM都>1,PacBio数目>1):
type | 存在保守转录本 | 不存在保守转录本 | total |
二倍体 | 5157(67.8%) | 2448(32.2%) | 7605 |
四倍体 | 3018(39.7%) | 4587(60.3%) | 7605 |
多倍化后更多的亚基因组同源基因不存在保守的转录本;多倍化加深了A、D亚组间转录本的差异
A2、D5中保守的基因在多倍化后,变得不保守
At、Dt的比例
A2、D5中不保守的基因在多倍化后,变得保守。
At、Dt的比例
并行分化
二倍体中保守的基因,但在多倍化后At、Dt间发生了分化,分化的情况统计;
两个亚基因组与二倍体都不保守
其中一个亚基因组与二倍体存在保守的转录本,而另一个亚基因组与二倍体不存在保守的转录本
在5157个二倍体中保守的转录本中,其中有2670个在多倍化后变得不保守;在这些多倍化过程中变化的四元同源基因对中
At发生了分化,Dt与二倍体保守的转录本一样 | 1018(38.12%) | 2670 |
类型 | 基因数目 | total |
Dt发生了分化,At与二倍体保守的转录本一样 | 961(36%) | 2670 |
At、Dt发生分化,都与二倍体不保守 | 691(25.88%) | 2670 |
通过卡方检验发现,At、Dt在多倍化过程中发生分化的基因数目上没有显著性差异,
比较这些基因的表达水平和转录本的表达水平;为了进行四组同源基因间基因表达水平的比较,将所有的同源基因按照A2的水平进行标准化
At中所有的基因表达水平乘以3.28,Dt中所有基因的表达水平乘以3.1,D5中所有基因的表达水平乘以1.51
A基因组发生分化的基因相比于D基因有着更低的表达水平;
D基因组发生分化的基因相比于A基因有着更低的表达水平
A、D基因组都发生分化的基因有着最低的表达水平。
多倍化后同源基因间转录本的分化表明它们剪切模式可能发生了改变
在At发生分化的基因中,有多少基因存在特异性AS,鉴定不同同源基因间的AS模式的差异。
类型 | 存在AS基因 | 特异性的AS的基因 | total |
A基因组发生分化 | 648 | 559 | 1018 |
D基因组发生分化 | 606 | 519 | 961 |
At发生分化的基因,特异性的AS事件
在At分化的基因,找到对应的特异性转录本,统计特异性转录本所包含的AS 事件,过滤掉那些与其他基因组保守的事件,最终得到的就是导致A基因组发生分化的AS 事件。亚组间特异的AS事件,找到它在其他基因组的位置,使用k-mer运算,在blast后得到相似的k-mer片段,在相似位置 处的k-mer则认为是对应的序列
对得到的k-mer序列与AS事件序列进行blastn,相似度大于90%,相似长度占AS事件长度达到90%,e-value<1e-5
Dt发生分化的基因,AS模式的改变
趋同进化
二倍体内转录本不保守,而在多倍化后At、Dt亚基因组存在保守的转录本;
A2向D基因组方向趋同
D5向A基因组方向趋同
二倍体中差异的基因,在多倍化后变成了保守的状态;
在2448个差异的二倍体基因中,共有531个基因在多倍化后发生了趋同进化,其中有174个基因发生了D5向A2方向的趋同,有266个基因发生了A2向D5方向的趋同,仍旧有99个基因趋同的方向是不确定的;
多倍化过程中,更多的同源基因向D基因组方向同化
类型 | 基因数目 | total |
向A基因组同化 | 174(32.8%) | 531 |
向D基因组同化 | 266(50.1%) | 531 |
无方向的趋同 | 99(17.1%) | 531 |
At、DT同源基因间AS的分化
两个亚基因组同源基因间的AS是否发生了分化,分析每个基因组同源基因所包含的AS数目,以及AS保守的比例。
以下为21066个四元同源基因,所包含剪切事件的数目和基因数;
这里的AS 事件只使用发生在PacBio转录本上的
同源基因 | 剪切事件数目 | 基因数 |
A2 | 18814 | 6417 |
D5 | 18991 | 6805 |
At | 13981 | 5122 |
Dt | 14083 | 5115 |
使用k-mer获取对应保守的AS事件
同源基因间存在AS的差异
AS差异:存在不保守的AS事件
对这7605个同源基因AS的保守性分析,发现有5032(3166+1866)对基因在AS上存在差异;并且不存在保守转录本的同源基因对中AS差异的比例,显著的高于存在保守转录本的同源基因对
类型 | AS差异 | AS不存在差异 | Total |
存在保守转录本 | 1866 | 1152 | 3018 |
不存在保守转录本 | 3166 | 1421 | 4587 |
在不存在保守转录本的基因中,AS的差异显著的高于存在保守转录本;说明亚基因组间AS的差异是导致两个基因组产生不同转录本的原因之一。这里举个例子,由于AS的分化导致At、Dt转录本的差异
有多少同源基因的分化是由于AS导致的转录本的分化
A2、D5存在保守转录本、At与Dt间不存在保守转录本;并且其中一个基因组是由于特异性的AS导致
接下来主要讨论A、D亚组间productive转录本的差异
productive转录本在多倍化过程中的变化
在CDS的长度是否发生改变:
A2和D5中productive 转录本一样;At和Dt中存在一个一样的productive 转录本(单个受AS调控)
At分化的基因中的productive 转录本,与参考转录本相比是否存在AS
A2和D5中productive 转录本一样;At和Dt中都不存在一样的转录本(两个基因同时受AS调控)
A2和D5中productive 转录本不一样,但是At与Dt分别与对应的祖先一样(多倍化前就发生了分化)
A2和D5中productive 转录本不一样,多倍化后只保留了A基因组或者只保留了D基因组的productive 转录本(单个基因受到AS调控)
A2和D5中productive转录本不一样,At和Dt也都找不到与祖先一样的(同时受到AS调控)
在7605对At、Dt分化的基因中
即使存在保守的转录本,而productive 转录本仍旧可能发生改变
类别 | 数目 |
At、A2、D5 | 754 |
Dt、A2、D5 | 822 |
只有A2、D5相同的production 转录本 | 674 |
A2、D5不一样,继承给了At、Dt | 257 |
A2、D5不一样,At与A2一样,Dt与D5仍旧不一样 | 662 |
A2、D5不一样,Dt与D5一样,At与A2仍旧不一样 | 947 |
A2、D5不一样,At与Dt也都没找到与祖先一样的 | 2132 |
A2、D5、At、Dt都一样 | 1357 |
total | 7605 |
在7605个四元同源基因对中,将两个亚基因组与二倍体祖先基因组相比。
Dt亚组保守而At亚组转录本发生变化数目(822+947=1769)
At亚组保守而Dt亚组转录本发生变化数目(754+662=1416)
At和Dt亚组转录本与祖先相比都发生变化(674+2132=2806)
At和Dt都没有变(1357+257=1614)
多倍化加剧了At、Dt亚组转录本的分化,将四倍体基因与二倍体祖先相比发现2806(36.89%)的亚基因组同源基因productive isoform同时发生了分化,有1769(23.26%)At同源基因的productive isoform发生了分化;而有1416(18.62%)的Dt同源基因productive isoform发生了分化;存在1614(21.22%)的同源基因在多倍化过程中保持一致的productive isoform。
在At与Dt之间仅有2088(27.46%%)的基因存在保守的productive isoform;但是(1357+947+662+257+822+754)63.11%的基因在多倍化过程中没有改变productive isoform。功能冗余的基因组,在同一个基因组后由于其中一个基因组受到的选择压力变小了,从而发生了分化。
总共(1769+1416)个同源基因发生了production的分化;更多的At基因在productive转录本上发生了分化;
比较At发生分化的productive 转录本FPKM与Dt中没有发生分化的productive转录本的FPKM的差异;
在At发生分化的基因中,At的转录本表达水平显著性的低于保守的Dt中的转录本;
在Dt发生分化的基因中,Dt转录本的表达水平显著性的低于保守的At;在At亚基因组中productive isoform发生分化的基因中,这些分化产生的isoform相比于保守的productive显著的发生了截断。
大部分发生分化的productive isoform可能由于AS引入提前终止的密码子,导致表达水平的下调和CDS序列的截断。
韦恩图,统计At与Dt间productive isoform的保守情况。
有多少gene Productive isoform分化的可能是由于AS产生的
将Production isoform发生改变的住转录本与参考转录本进行AS的比较。
At中production isoform发生改变;而Dt中production 转录本是保守的;鉴定到了202个基因322个AS事件
Dt中production isoform发生改变;而At中production转录本是保守的;鉴定到了186个基因283个AS事件
总共鉴定到了388个基因对应605个剪切事件可能,导致production isoform 发生改变;
这605个剪切事件中有多少比例是亚基因组特异性的剪切事件。
举个特例、跑个胶图
At production isoform 发生改变的基因中;
Ghir_A13G024480存在一个IR事件,导致产生一个新的productive转录本;
Ghir_A11G008990存在一个特异的IR事件,而Dt中不存在这个IR事件
A2、D5、At、Dt四个AS模式是否保守:
A2、D5、At(At基因组中保守的剪接模式,亚基因组间AS的分化)
A2、D5、Dt(Dt基因组中保守的剪接模式,亚基因组间AS的分化)
A2、At、Dt(AS的趋同)
D5、At、Dt(AS的趋同)
A2、D5、At、Dt(四个基因组都保守的模式
对于不保守的事件,使用k-mer找到对应的坐标
Last updated