01
进一步对可变剪切进行分类
由于只测了叶片一个组织,加上A2基因组注释信息的不完整;现在对于AS的鉴定只保留发生在PacBio isform上的剪切事件,它也是代表了叶片组织中剪切事件的信息
python ~/scripte/Alternative/module/FEST3/ifPacBioAS.py -p ~/work/Alternative/result/Gh_result/CO31_32_result/06_Alignment/all.collapsed.gtf -r ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf -o 1111 -AS end_splice.txt
## D5的时候对参考基因组的注释问文件做了修改
##统计发生在PacBio isform上的AS
awk '$6~/PB/&&$8==6{print $0}$7~/PB/&&$8==7{print $0}' 1111
## 统计每种事件的数目棉种
IR
ES
AltA
AltD
A2
35756
1617
4242
3323
D5
26185
1616
3595
2633
TM1
43581
2455
6333
5176
At
21540
1199
3150
2555
Dt
22041
1256
3183
2621
发生AS的isform数目
基因组
isform数
A2
17538
D5
11812
At
10783
Dt
11171
检测到的转录出的isform数目,不包括预测的新基因
基因组
isform数
A2
68833
D5
53097
TM1
83087
At
40789
Dt
42167
PacBio鉴定到的剪切位点与参考基因组注释的剪切位点进行比较
PacBio鉴定到的isform剪切起始位点与基因边界进行比较
对比对带参考基因组上的isform 进行校正
根据校正的情况,对可变剪切进行校正
发生剪切的isform属于同一个基因,先对gene,进行校正
在看发生剪切的位置是否在校正后的基因内
提取isfrom与基因的坐标
使用校正后的isform与gene的关系
如果isform坐标在gene坐标内,则保留
如果超出,则只保留到那个有交集的exon坐标或者保留那个完全超出的一个exon。

根据校正情况的转录本的表达水平进行校正
首先计算不同转录本的表达量
对注释文件中的isform只提取包含PacBio isform的注释
针对isform与gene的对应关系提取isform的表达量数据
鉴定保守的isform
每条PacBio isform中被FL read支持的read数
CO31_32_result/06_Alignment/../06_Alignment/all.collapsed.rep.fa
至少一条FL read与isform有关,则认为它表达了
亚基因组同源基因间isform数目统计
可以发现在At、Dt两个亚基因组合并到同一个细胞核后,与祖先基因组相比,每个基因产生的isform数目发生了都发生了减少,很大程度上是由于At、Dt亚组间功能冗余只需要某一个亚基因组产生对应的isform即可
两个亚基因组单独存在是isfrom的数目同样存在很大的差异,但是在At、Dt聚合到同一个细胞核后基因转录的isform数目上没有明显的差异。
不同比较
isfrom数目
isform数目
A2 vs D5
55764
43577
At vs Dt
35529
36050
A2 vs At
57144
35182
D5 vs Dt
47685
38060
校正后的结果
不同比较
isfrom数目
isform数目
A2 vs D5
55764
43577
At vs Dt
35529
36050
A2 vs At
57144
35182
D5 vs Dt
47685
38060
对isform数目存在差异的基因进行GO富集分析
鉴定不同基因组中同源基因间保守的isform
FSM(full splice match)
保守的isform
exon数目要相同、长度允许几个碱基的误差;第一个exon和最后一个exon的长度不进行考虑
特异性的isform
随机抽取1000个基因对应的FSM isform对进行blast比对,发现多少比例的保守
> >
At vs Dt : 987/1000
A2 vs At: 997/1000
D5 vs Dt 1000/1000
A2 vs D5 979/1000
同一个基因组内的FSM
计算由同一个基因产生的FSM数,和对应isform的FPKM值
分析存在表达的isform 中nonsense-mediated mRNA decay 的比例与不存在表达的isform的无意义介导的降解
统计不同基因组间shared isform数与特有的FSM isform数
FSM isform
这些isform内部的exon剪切是一样的,但是两端的exon会存在不同的TTS和ployA;就可以分析不同的TTS和ployA对基因转录的影响
不同比较
第一个总isform数
第二个总的isfrom数
第一个基因数
第二个基因数
第1个匹配的FSM数
第二个匹配FSM数
第一个对应的基因数
第二个对应的基因数
At Dt
30498
30484
10492
10492
9296
9291
5549
5549
A2 D5
50106
40833
13596
13596
16486
15476
8714
8714
A2 At
47638
33283
12154
12154
15619
13302
7773
7773
D5 Dt
40980
35224
12705
12705
14918
13594
8058
8058
独有的isform 、包括另外一个基因组中不存在的isfrom的情况
只存在单个isform的基因中保守的频率和多个isform保守的频率;基因转录出isform的数目与FSM的数目
每个基因对应的isform的剪切率
首先根据找到发生AS事件的isform,这些isform是叶片组织中经过AS产生的isform
在不同基因组之间,比较发生AS的isform的保守性,并且比较它们的剪切活性
首先isform是经过AS产生的
对应的AS事件是保守的,则认为isform也是保守的
如果由AS产生的isform不保守,则认为这个isform是棉种中特异的AS产生的isform
结果部分
At Dt 合并取uniq后和祖先进行比较
At和Dt中序列保守中isform的差异,不保守的序列差异
可变剪切与基因家族分析
Last updated
Was this helpful?