重新下载原始数据进行比对
Ga SRR5886156
Gr SRR5886149
Gh SRR5886147
hisat2比对
-novel-splicesite-outfile生成剪切位点文件--max-intronlen指定最大内含子长度--rf建库方式
##构建索引
bsub -J TM1 -n 10 -o %J.hisat2.out -e %J.hisat2.err -R span[hosts=1] "hisat2 -x ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/hisat2_build/TM1.0 -1 ../Trimmomatic/SRR5886147_Trimm_1P -2 ../Trimmomatic/SRR5886147_Trimm_2P -p 10 --novel-splicesite-outfile TM1_splicesite.txt --max-intronlen 10000 --rf -S TM1_leaf.sam"
## 过滤和去重PCR重复
bsub -J samtools -n 2 -o %J.samtools.out -e %J.samtools.err -R span[hosts=1] "samtools view -q 20 -S TM1_leaf.sam -@ 2 -b -o TM1_leaf.bam && samtools sort -@ 2 TM1_leaf.bam -O bam -o TM1_sorted.bam &&samtools rmdup TM1_sorted.bam TM1_rmdup.bam"Stringtie计算gene表达量
stringtie hisat2/TM1_rmdup.bam -G ~/work/Alternative/result/homologo/FEST3/isforms/TM1/geneExpress/isform.gtf -b ./stringtie/ -p 10计算PIR、PSI
PIR:IR的比例
PSI:intron被剪切的比例
将RNA-seq比对文件转为bed
BAM文件中read比对说明
M 完全匹配
I 插入
D 缺失
N gap
S 替代
-cigar输出每个read的比对情况-split不会连接有gap的read
80M20N30M这种评分则会将这个read输出两个bed坐标
计算所有Intron的PSI
合并所有的intron
计算每个intron的PIR值
AS剪切在一定程度上造成了isform的多样性
发生剪切的高频区域,每个转录本所包含AS 事件的数目
比较由AS产生的保守isform发生NMD的比例、和由AS产生的uniq isform发生NMD的比例
造成uniq isform表达水平比conserve isform表达水平低的原因,可能是NMD途径导致uniq isform降解;
先把所有转录本的ORF预测了
需要反转模式预测
reverse
根据终止密码子与exon-exon junction的位置判断是否会发生NMD
在处理D5时,有部分基因没有exon注释,搞出了,修改gtf文件然后再跑一次,还有D5参考基因组内没有cDNA序列,需要提取一次
我对读取gtf文件的类做了补充,支持没有exon注释的ISOfrom
修改D5 gtf文件
提取D5 cDNA序列
关于对参考基因组中注释的isform的验证,需要筛选一下
筛选那些每个基因中表达量大于100 fpkm的注释的转录本
使用参考基因组的注释信息去跑一下这些转录本的表达量
we screened a set of 4,868 Arabidopsis genes, for which the annotated longest ORF is fully supported by cDNA evidence
cDNA序列序列5’和3‘已经确定了,感觉不需要反转
对鉴定到的PacBio isform进行NMD分析
距离 最后一个exon-exon的junction大于50bp就认为是潜在的NMD
棉种
PacBio isform
NMD
TM1
89411
35218
A2
72374
26583
D5
55365
19330

比较可能发生NMD的isform与没有NMD的表达水平差异
分析AS与NMD
从剪切文件中提取两个转录本之间只有一种AS的差异,对没有发生AS的那个转录本进行ORF的预测,同时也对发生了AS的isoform预测ORF,选取相同的ST位点,看没有发生AS的转录本是否存在PTC并且PTC与exon-exon junction大于50bp;分析每种剪切类型中存在NMD的转录本
获取两个转录本只存在一种类型AS的差异
选择没有发生AS的转录本预测的ORF作为参考
计算参考转录本所预测的ST和TT
计算发生与参考转录本ST相同的ORF,比较TT是否提前
基因组
IR
ES
AltA
AltD
TM1
15100/18733
758/1274
1960/2825
1529/2216
A2
12887/15287
499/727
1262/1790
1029/1406
D5
10051/12296
675/917
1342/1843
980/1383
不同AS产生的NMD,在表达水平上的差异

Last updated
Was this helpful?