AS调控基因表达
Isoform保守性分析
根据EMBOSS对每个isoform预测得到的最长的那个CDS作为isoform的CDS序列;使用pfamScan去搜索CDS序列中的蛋白质保守结构域
PacBio isoform只分析那些比对到基因区域的isoform;对于比对到基因区域的转录本后续不进行分析了
使用PfamScan预测转录本的蛋白质保守结构域
参考 https://www.jianshu.com/p/9cf40d0d8bf5
https://www.jianshu.com/p/47b8f22f9998
数据库下载地址:
ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/
active_site.dat.gz
Pfam-A.hmm.dat.gz
Pfam-A.hmm.gz
使用Blast对CDS序列进行比对
保守的isoform定义:
blastp结果相似度大于90%
所有预测的蛋白质保守结构域都相同
1.同一个基因组内PacBio转录本与参考转录本保守性分析
通过将PacBio与参考基因组的转录本,在蛋白结构域、CDS相似度上的比较;可以判断这个isoform是否与参考基因存在一样的功能。
isofrom与参考基因转录本具有相同的蛋白保守结构域
isoform比参考基因组转录本多鉴定出蛋白质结构域
isoform比参考基因组转录本少鉴定出蛋白质结构域
isoform和参考基因组都没有预测到保守的蛋白质结构域
有些PacBio转录本没有相似度大于90%的参考转录本
综合blastp相似度的结果和PfanScan预测的结果,可以得出有多少isoform在功能上是没有发生改变的,即使它们的剪切方式存在一定的差异;有多少的isoform的功能发生了改变;并且这种改变有多少比例是由于AS造成的
为了将PacBio转录本与参考转录本进行比较,需要构造所有基因的参考转录本信息
PacBio转录本与参考转录本可能存在相似的功能
存在完全相同的蛋白结构域
两者都没有预测到结构与,CDS序列长度相同
可能存在相同功能的转录本:
cDNA序列长度是否一致,用于分析转录后的剪切会不会影响蛋白结构域
PacBio与参考转录本的蛋白结构域存在差异
结构域数据减少
结构域数目变多
结构域完全发生了变化
PacBio转录本与参考转录本都没有预测到结构域
数据库中包含的信息不够完整
A2中PacBio转录本的注释情况
A2中总共有67113个isoform比对到基因区域
保守结构域的预测情况:
转录本类型 | 存在保守结构域 | 没有预测到 | total |
PacBio | 53594(79.9%) | 13510 | 67104 |
reference | 31838(77.8%) | 9106 | 40944 |
基于保守结构域和cDNA、CDS的数据将PacBio转录本与参考转录本进行比较,将转录本进行分类;
类型 | 数目 | 比例 |
存在相同保守结构域 | 24494 | 36.5% |
结构域发生改变 | 36130 | 53.8% |
都没有预测到保守的结构域 | 6480 | 9.7% |
Total | 67104 |
D5中PacBio转录本的注释情况
D5中总共有51964个比对到基因区域的isoform,并且预测到了CDS序列
转录本类型 | 存在保守结构域 | 没有预测到 | total |
PacBio | 42494(81.8) | 9470 | 51964 |
reference | 64412(83.4) | 12838 | 77250 |
类型 | 数目 | 比例 |
存在相同保守结构域 | 27241 | 52.4% |
结构域发生改变 | 18948 | 36.5% |
都没有预测到保守的结构域 | 5775 | 11.1% |
total | 51964 |
TM1中PacBio转录本的注释情况
TM1中总共有83392个比对到基因区域
转录本类型 | 存在保守结构域 | 没有预测到 | total |
PacBio | 66650(79.9) | 16717 | 83367 |
reference | 95277(82.3) | 20516 | 115793 |
所有PacBio转录本的注释
类型 | 数目 | 比例 |
存在相同保守结构域 | 35521 | 42.6% |
保守结构域发生改变 | 39127 | 46.9% |
都没有预测到保守的结构域 | 8719 | 10.5% |
Total | 83367 |
使用wilcox.test进行成对测验,p-value=0.75
PacBio转录本和参考转录本在蛋白结构域的预测的比例上没有显著性差异。
1.分析存在保守结构域的转录本与参考转录本在cDNA长度上的差异
在cDNA长度上定义一个阀值
在结构域完全保守的PacBio转录本中,将PacBio转录本的cDNA与reference 的cDNA长度进行比较;
基因组 | PacBio长500bp | reference长500bp | 两者没有差异没有达到500bp |
A2 | 21478 | 43807 | |
D5 | 25414 | 39785 | |
TM1 | 33100 | 56777 |
在存在保守结构域转录本和,结构域发生改变的转录本中AS diversity转录本所占据的比例:
CO31_32_result/AS2/NoAS_ORF.txt
两种转录本中,存在AS diversity的比例, 在蛋白结构域发生改变的这类转录本中有更高比例的AS富集,
t-test 测验 p-value=0.006546
基因组 | 保守结构域PacBio,存在AS差异 | 结构域发生改变转录本 |
A2 | 967/24467(4.0%) | 11552/25669(45.0%) |
D5 | 4731/27203(17.4%) | 7204/15260(47.2%) |
TM-1 | 6852/35491(19.3%) | 15267/28159(54.2%) |
2.两种转录本在平均表达水平上是否存在差异:
与参考转录本有相同结构域
与参考转录本结构域上存在差异
首先比较存在保守结构域isofrom与不保守转录本间表达量是否存在差异;
存在保守的结构与要长度上一致
筛选蛋白结构改变与和AS有关的例子
Ghir_A08G003090这个基因与参考转录本相比存在一个RI事件导致,heat shock protein 81-3 热休克蛋白
Ghir_A05G027150,At亚组存在一个外显子跳跃事件,导致FAD结构域的丢失,这可能和棉花从多年生向一年生变化有关;但是这个基因外显子跳跃的转录本表达量非常低
PB.19583.2
存在一个SE事件,使得保守结构域发生改变
通过Pfam预测保守的蛋白结构域发现,平均79%的PacBio转录本中预测到了保守的蛋白结构域;而在参考转录本中有80%的转录本预测到保守的蛋白结构域。与参考转录本相比,PacBio转录本预测到结构域的比例有所下降,可能是由于转录后的剪切改变了一些保守的蛋白结构域;仍旧有一些转录本没有预测到保守的蛋白结构域,或许是由于Pfam中仍旧包含一些没有注释的保守蛋白结构域。
PacBio转录本被预测存在保守结构域的比例
参考转录本中被预测存在保守结构域的比例
0.805 vs 0.811;两种转录本中存在保守结构域的比例没有显著性差异
两种转录本都有一定比例的转录本没有预测到保守结构域,可能和数据库的注释信息不完整
将PacBio转录本预测的结构域与参考转录本进行比较,分类的饼图
将PacBio转录本与参考转录本比较,可以将PacBio转录本进行分成两大类:
与参考转录本存在完全一致的保守结构域,与参考转录本存在差异的结构域;
1.存在保守结构域的转录本中,它的cDNA序列长度与参考转录本的长度存在很大的差异;说明大部分转录本即使经历了不同的splicing仍旧改变保守的蛋白质结构域;AS不仅仅增加基因转录多种蛋白质的能力,调节基因的表达,同时能够在不影响同时这些转录本保守结构域的条件下转录本的亚细胞定位。这些转录本中有将近50%的转录本CDS长度与参考转录本相比没有发生了改变。
2.非保守的转录本可能暗示了新的功能或者丧失了原有的功能。保守转录本与非保守转录本间同时存在很大的表达差异,并且大部分的非保守转录本FPKM<1;同时也有高表达的转录本。
在非保守的转录本中有将近33的转录本是AS isoform,说明转录后调控影响转录本的结构域,改变对应的蛋白质功能
3.调几个例子说明AS改变蛋白保守结构域,加上PFKM的peak图。
Last updated