全长转录本数据的统计
全长转录本数据统计
对于每个棉种的原始下机数据进行统计,统计raw sequencing data中read数和consensus read数
棉种 | raw sequence base | consensus reads count |
Ga_1 | 12083371005 | 320874 |
Ga_2 | 12402699575 | 292447 |
Gr_1 | 9756254646 | 238566 |
Gr_2 | 9939418624 | 248497 |
Gh_1 | 16310848287 | 319380 |
Gh_2 | 15711398953 | 366003 |
Total | 76GB |
原始数据到最终得到的转录本数
这个数据在原始数据的统计表1中有
饱和曲线分析,表明Iso-seq在基因的检测上已经达到了饱和,而对于新转录本的检测仍旧还需要提高测序深度
PacBio转录本与reference转录本长度的比较
PacBio转录本的exon数目与reference exons数目比较
比对转录本进行分类
这里可以用实验去验证一些参考基因组中没有注释的剪切位点的信息;
同时说明PacBio可以检测到一些新的剪切位点的信息
转录本的长度分布,最长的转录本和最短的转录本对应的基因:
基因组
incomplete-splice matches
unAnnotion isoform
None gene region
total
prfect match
TM1
46127
37265
4924
88316
29737
A2
28544
38570
1880
68994
15035
D5
34829
17141
3264
55234
22787
将Annotion进行细分:
与某一个转录本的剪切位点完全相同
与参考转录本的剪接位点部分相同
基因组 | 最短Isoform | 最长Isoform |
A2 | evm.TU.Ga02G1745 302bp | evm.TU.Ga10G0940 12893bp unAnnotion |
D5 | Gorai.007G076700 301bp unAnnotion | Gorai.002G214500 12207bp |
TM1 | Ghir_D13G001640 311bp | Ghir_A07G019100 15431bp unAnnotion |
测得的转录本长度范围在301bp到1543bp,对应的基因注释为
AT3G01490 301bp 蛋白激酶超家族
AT3G02260 15431bp 生长素转运蛋白
基因所转录出的PacBio转录本数
对基因的转录本类型进行分析
只转录出Annotion 转录本的基因
只转录出unAnnotion转录本基因
转录出Annotion与unAnnotion转录本基因
通过PacBio测序,发现许多基因中仍旧可以鉴定到一些没有被注释的剪切信息,
基因组
只转录出Annotion 的
只转录出unAnnotion
转录出Annotion与unAnnotion
total
TM1
14953
7861
9153
31967
A2
6857
6200
7156
20213
D5
9470
2137
6630
18237
平均每个基因被测到FL-read数目,和转录本数
基因组
平均转录出Isoform数
平均测到FL-read数
A2
2.6
20.2
D5
3.3
16.5
TM1
2.8
14.8
比较不同基因组中在单外显子,和多外显子基因上PacBio转录本类型的数目。
基因是否是单外显子还是多外显子,取决于参考基因组中exon数目最多的那个转录本。
多外显子基因转录出更多类型的PacBio转录本,同时单外显子基因平均转录PacBio转录本的数目大于1,说明基因在转录过程中存在丰富的剪接形式。
与此同时两个二倍体物种相比于四倍体物种有着更加多的转录本
分析PloyA位点和剪接位点附近的motif
剪接位点2bp的序列
对于鉴定到的所有外显子坐标进行motif的分析,第一个核苷酸最后一个核苷酸位点附近的2bp序列作为受体位点和供体位点。分析内含子剪接位点的motif
供体5‘ 端GU DNA代码
GT
受体3’端 AG DNA代码
AG
多少内含子是规范的GU-AG
基因组 | 规范供体 | 规范受体 | 规范的内含子 |
TM1 | 0.93 | 0.95 | 0.92 |
A2 | 0.93 | 0.945 | 0.92 |
D5 | 0.92 | 0.934 | 0.909 |
Iso-seq 精确的确定了ployA的位置和内含子的边界
内含子边界的motif序列信息,以及主要的内含子是由哪种motif组成的。
单外显子转录本
多外显子基因,其中多少基因会产生多个转录本结构
分析多外显子转录本的长度分布
分析参考基因组中鉴定到的多个TSS基因在PacBio有多少重叠。
R1
区域外显子上游的内含子35bp序列R2
区域外显子上游和下游的32bp序列R3区域外显子下游的内含子区域40bp序列
PAS(每条转录本的最后的位置)上游的35bp用于搜索ployA信号。
分析基因是否存在多TTS和多ployA基因
分析存在多TTS和多ployA的基因,以及ployA的motif分类。
每个转录本的截取CS(切割位点)上游50bp的序列,使用
SignalSleuth2
,扫描CS位点上游1-40bp的motif序列分析物种中特异性的ployA位点。
多倍化过程中同源基因的ploy或者TSS数目发生变化
ploy信号到时候就将提取上游50bp序列,扫描上游40bp的序列
top 10的motif序列,规范的序列 AATAAA ATTAAA
motif排名 | TM1 | A2 | D5 |
ATTTTT | 9246 | 7270 | 5613 |
TATTTT | 8785 | 6848 | 5348 |
AATTTT | 8606 | 6844 | 5362 |
TTTTAT | 8504 | 6683 | 5305 |
TTATTT | 8372 | 6516 | 5077 |
AATAAA | 8044 | 6512 | 4800 |
AAATTT | 8016 | 6511 | 4893 |
TTTATT | 8014 | 6279 | 4945 |
TTTTTT | 7663 | 6001 | 4735 |
ATATTT | 7643 | 6114 | 4488 |
在TM-1、A2、D5中分别检测到8044、6512、4800个规范的ployadentlation motif AATAA
分析基因包含多个ployA
和多个TSS
位点的信息
在TM1、A2、D5中比较基因转录出转录本的个数:
58%,70%,65%的基因存在多个转录本,这些存在多个转录本的基因中,存在多个ployA或者TTS位点的基因。
内部的剪接位点完全相同,存在只由于ployA或者TSS造成转录本的差异的比例。
基因组 | 单个转录本的基因 | 多个转录本的基因 | 基因数 | 转录本数 |
TM1 | 13361 | 18606 | 31967 | 83392 |
A2 | 6046 | 14167 | 20213 | 67113 |
D5 | 6326 | 11911 | 18237 | 51964 |
多转录本的基因中有多少存在多个ployA和TSS的
大约有94.9%和98.7%的多转录本基因,存在多个TSS和ployA位点
平均每个基因存在TSS和ployA的数目:
A2 2.8个TSS和3.0个ployA
D5 2.4个TSS和2.7个ployA
TM1 2.27个TSS和2.4个ployA
基因组 | 多个TSS | 多个ployA基因数 | 单个TSS | 单个ployA |
A2 | 13447 94.9% | 13994 98.7% | 720 | 173 |
D5 | 11195 93.9% | 11710 98.3% | 716 | 201 |
TM1 | 17448 93.7% | 18289 98.3% | 1158 | 317 |
举一个重要基因,存在多个ployA和TSS的例子,设计RACE进行扩增。
TSS和ployA产生不同的转录本:两个转录本之间剪接位点完全相同,只在ployA或者TSS位点上存在差异的转录本数。由于ployA和TSS的不同造成转录本间差异的比例。
基因组 | 剪接位点都相同但TSS或者ployA位点不同 |
A2 | 19794(29.5%) |
D5 | 15242(29.3%) |
TM1 | 20189(24.2%) |
分析测序深度对于基因转录的影响
测序饱和度分析,统计每个转录本的FL-read数目
统计每个转录本对应的基因数
进行饱和曲线分析
根据测得的FL-read数目进行分析
依次随机10%、20%~100%的FL-read;看会有多少基因和转录本被测到
转录本长度和支持的FL-read 数目热图。
Last updated