重新下载原始数据进行比对

  • Ga SRR5886156

  • Gr SRR5886149

  • Gh SRR5886147

hisat2比对

  • -novel-splicesite-outfile生成剪切位点文件

  • --max-intronlen指定最大内含子长度

  • --rf建库方式

##构建索引

bsub -J TM1 -n 10 -o %J.hisat2.out -e %J.hisat2.err -R span[hosts=1]  "hisat2 -x ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/hisat2_build/TM1.0 -1 ../Trimmomatic/SRR5886147_Trimm_1P  -2 ../Trimmomatic/SRR5886147_Trimm_2P -p 10 --novel-splicesite-outfile TM1_splicesite.txt  --max-intronlen 10000 --rf  -S TM1_leaf.sam"

## 过滤和去重PCR重复
bsub -J samtools -n 2 -o %J.samtools.out -e %J.samtools.err -R span[hosts=1] "samtools view -q 20 -S TM1_leaf.sam  -@ 2 -b -o TM1_leaf.bam && samtools sort -@ 2 TM1_leaf.bam -O bam -o TM1_sorted.bam &&samtools rmdup TM1_sorted.bam TM1_rmdup.bam"

Stringtie计算gene表达量

stringtie hisat2/TM1_rmdup.bam -G ~/work/Alternative/result/homologo/FEST3/isforms/TM1/geneExpress/isform.gtf  -b ./stringtie/  -p 10

计算PIR、PSI

PIR:IR的比例

PSI:intron被剪切的比例

将RNA-seq比对文件转为bed

BAM文件中read比对说明

M 完全匹配

I 插入

D 缺失

N gap

S 替代

  • -cigar输出每个read的比对情况

  • -split不会连接有gap的read

80M20N30M这种评分则会将这个read输出两个bed坐标

计算所有Intron的PSI

  • 合并所有的intron

  • 计算每个intron的PIR值

AS剪切在一定程度上造成了isform的多样性

发生剪切的高频区域,每个转录本所包含AS 事件的数目

比较由AS产生的保守isform发生NMD的比例、和由AS产生的uniq isform发生NMD的比例

造成uniq isform表达水平比conserve isform表达水平低的原因,可能是NMD途径导致uniq isform降解;

先把所有转录本的ORF预测了

  • 需要反转模式预测reverse

根据终止密码子与exon-exon junction的位置判断是否会发生NMD

在处理D5时,有部分基因没有exon注释,搞出了,修改gtf文件然后再跑一次,还有D5参考基因组内没有cDNA序列,需要提取一次

我对读取gtf文件的类做了补充,支持没有exon注释的ISOfrom

  • 修改D5 gtf文件

  • 提取D5 cDNA序列

关于对参考基因组中注释的isform的验证,需要筛选一下

  • 筛选那些每个基因中表达量大于100 fpkm的注释的转录本

  • 使用参考基因组的注释信息去跑一下这些转录本的表达量

we screened a set of 4,868 Arabidopsis genes, for which the annotated longest ORF is fully supported by cDNA evidence

cDNA序列序列5’和3‘已经确定了,感觉不需要反转

对鉴定到的PacBio isform进行NMD分析

  • 距离 最后一个exon-exon的junction大于50bp就认为是潜在的NMD

棉种

PacBio isform

NMD

TM1

89411

35218

A2

72374

26583

D5

55365

19330

N5xSMV.png

比较可能发生NMD的isform与没有NMD的表达水平差异

分析AS与NMD

从剪切文件中提取两个转录本之间只有一种AS的差异,对没有发生AS的那个转录本进行ORF的预测,同时也对发生了AS的isoform预测ORF,选取相同的ST位点,看没有发生AS的转录本是否存在PTC并且PTC与exon-exon junction大于50bp;分析每种剪切类型中存在NMD的转录本

  • 获取两个转录本只存在一种类型AS的差异

  • 选择没有发生AS的转录本预测的ORF作为参考

  • 计算参考转录本所预测的ST和TT

  • 计算发生与参考转录本ST相同的ORF,比较TT是否提前

基因组

IR

ES

AltA

AltD

TM1

15100/18733

758/1274

1960/2825

1529/2216

A2

12887/15287

499/727

1262/1790

1029/1406

D5

10051/12296

675/917

1342/1843

980/1383

不同AS产生的NMD,在表达水平上的差异

N5xJzt.png

Last updated

Was this helpful?