01

进一步对可变剪切进行分类

由于只测了叶片一个组织,加上A2基因组注释信息的不完整;现在对于AS的鉴定只保留发生在PacBio isform上的剪切事件,它也是代表了叶片组织中剪切事件的信息

python ~/scripte/Alternative/module/FEST3/ifPacBioAS.py  -p ~/work/Alternative/result/Gh_result/CO31_32_result/06_Alignment/all.collapsed.gtf -r ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf -o 1111 -AS end_splice.txt
## D5的时候对参考基因组的注释问文件做了修改
##统计发生在PacBio isform上的AS
awk '$6~/PB/&&$8==6{print $0}$7~/PB/&&$8==7{print $0}' 1111
## 统计每种事件的数目

棉种

IR

ES

AltA

AltD

A2

35756

1617

4242

3323

D5

26185

1616

3595

2633

TM1

43581

2455

6333

5176

At

21540

1199

3150

2555

Dt

22041

1256

3183

2621

发生AS的isform数目

基因组

isform数

A2

17538

D5

11812

At

10783

Dt

11171

检测到的转录出的isform数目,不包括预测的新基因

基因组

isform数

A2

68833

D5

53097

TM1

83087

At

40789

Dt

42167

PacBio鉴定到的剪切位点与参考基因组注释的剪切位点进行比较

PacBio鉴定到的isform剪切起始位点与基因边界进行比较

对比对带参考基因组上的isform 进行校正

根据校正的情况,对可变剪切进行校正

  • 发生剪切的isform属于同一个基因,先对gene,进行校正

  • 在看发生剪切的位置是否在校正后的基因内

提取isfrom与基因的坐标

  • 使用校正后的isform与gene的关系

  • 如果isform坐标在gene坐标内,则保留

  • 如果超出,则只保留到那个有交集的exon坐标或者保留那个完全超出的一个exon。

isform与基因坐标比较

根据校正情况的转录本的表达水平进行校正

首先计算不同转录本的表达量

对注释文件中的isform只提取包含PacBio isform的注释

针对isform与gene的对应关系提取isform的表达量数据

鉴定保守的isform

每条PacBio isform中被FL read支持的read数

CO31_32_result/06_Alignment/../06_Alignment/all.collapsed.rep.fa

至少一条FL read与isform有关,则认为它表达了

亚基因组同源基因间isform数目统计

可以发现在At、Dt两个亚基因组合并到同一个细胞核后,与祖先基因组相比,每个基因产生的isform数目发生了都发生了减少,很大程度上是由于At、Dt亚组间功能冗余只需要某一个亚基因组产生对应的isform即可

两个亚基因组单独存在是isfrom的数目同样存在很大的差异,但是在At、Dt聚合到同一个细胞核后基因转录的isform数目上没有明显的差异。

不同比较

isfrom数目

isform数目

A2 vs D5

55764

43577

At vs Dt

35529

36050

A2 vs At

57144

35182

D5 vs Dt

47685

38060

校正后的结果

不同比较

isfrom数目

isform数目

A2 vs D5

55764

43577

At vs Dt

35529

36050

A2 vs At

57144

35182

D5 vs Dt

47685

38060

对isform数目存在差异的基因进行GO富集分析

鉴定不同基因组中同源基因间保守的isform

FSM(full splice match)

  • 保守的isform

    exon数目要相同、长度允许几个碱基的误差;第一个exon和最后一个exon的长度不进行考虑

  • 特异性的isform

随机抽取1000个基因对应的FSM isform对进行blast比对,发现多少比例的保守

> >

At vs Dt : 987/1000

A2 vs At: 997/1000

D5 vs Dt 1000/1000

A2 vs D5 979/1000

同一个基因组内的FSM

计算由同一个基因产生的FSM数,和对应isform的FPKM值

分析存在表达的isform 中nonsense-mediated mRNA decay 的比例与不存在表达的isform的无意义介导的降解

统计不同基因组间shared isform数与特有的FSM isform数

  • FSM isform

    这些isform内部的exon剪切是一样的,但是两端的exon会存在不同的TTS和ployA;就可以分析不同的TTS和ployA对基因转录的影响

    不同比较

    第一个总isform数

    第二个总的isfrom数

    第一个基因数

    第二个基因数

    第1个匹配的FSM数

    第二个匹配FSM数

    第一个对应的基因数

    第二个对应的基因数

    At Dt

    30498

    30484

    10492

    10492

    9296

    9291

    5549

    5549

    A2 D5

    50106

    40833

    13596

    13596

    16486

    15476

    8714

    8714

    A2 At

    47638

    33283

    12154

    12154

    15619

    13302

    7773

    7773

    D5 Dt

    40980

    35224

    12705

    12705

    14918

    13594

    8058

    8058

  • 独有的isform 、包括另外一个基因组中不存在的isfrom的情况

  • 只存在单个isform的基因中保守的频率和多个isform保守的频率;基因转录出isform的数目与FSM的数目

每个基因对应的isform的剪切率

  1. 首先根据找到发生AS事件的isform,这些isform是叶片组织中经过AS产生的isform

  2. 在不同基因组之间,比较发生AS的isform的保守性,并且比较它们的剪切活性

    • 首先isform是经过AS产生的

    • 对应的AS事件是保守的,则认为isform也是保守的

    • 如果由AS产生的isform不保守,则认为这个isform是棉种中特异的AS产生的isform

结果部分

Last updated

Was this helpful?