06比较不同棉种中isform的差异
比较每个基因isform的差异
首先不管这个基因有没有发生可变剪切,看看每个基因对应的isform种类和数目分别有多少。
文件
unproved.gene.list.txt表示的是没有PacBio序列支持的基因文件
unproved.transcript.list.txt表示这个基因有PacBio序列的支持,但是呢有些转录本没有PacBio的支持。文件
proved.transcript.list.txt对应的转录本有PacBio序列的支持
解读起来还是好麻烦,直接用03_Classify/total.flnc.fasta文件比对到基因组去看看具体是什么情况
cat ./total.flnc.fasta|~/software/gmap-2019-09-12/bin/gmap -D ~/work/Alternative/data/gmap_build/Graimondii_221_v2.0 -d Graimondii_221_v2.0 -f samse -t 10 -n 1 --min-trimmed-coverage=0.85 --min-identity=0.9 --suboptimal-score 0.8 >align.sam统计参考基因组中注释isform的数目
awk '$3~/mRNA/{print $0}' gene.Grai.JGI_end.gff3 |awk -F ";" '{a[$2]+=1}END{for(i in a){print i"\t"a[i]}}'|sed 's/Parent=//g'|less看一下参考基因组中注释只有一个isform的基因,有多少发生了AS
## D5
awk '$3~/mRNA/{print $0}' /public/home/zpliu/genome_data/genome_Grai.JGI/gene.Grai.JGI_end.gff3 |awk -F ";" '{a[$2]+=1}END{for(i in a){print i"\t"a[i]}}'|sed 's/Parent=//g'|awk '$2==1{print $0}'|cut -f1|cat - spliceGeneId.txt |sed 's/\.v2\.1//g'|sort|uniq -d |wc -l将基因组的isform与PacBio测的isform进行合并
文件07_annotation/merge.gtf中包含每个基因能比对到的PacBio isform。与考基因组的注释文件合并了
文件中如果是原本参考基因组的注释,就说明基因的这个转录本在叶片中没有表达,从而没有被PacBio检测到,或者就是这个基因没有表达。
可以使用这个merge.gtf文件当做参考进行AS的鉴定,效果不理想
比较同一组亚基因组同源基因仅仅在叶片中表达的isform数量的差异
使用亚基因组同源基因去获取,07annotion/merge.gtf文件中被PacBio检测到的转录本
在讨论isform的数目上忽略掉lncRNA的因素,感觉数目不是很多
把同源基因的转录本信息合并一下
有的基因在merge转录本之后,被注释为lncRNA了把这些基因对去除
统计了一下各个基因中lncRNA的数目,以及亚基因组同源基因中lncRNA的数目
lncRNACount
At
Dt
A2
D5
亚基因组
两个共2754
1934
1216
同源基因间
102
97
148
106
也可以比较一下,亚基因组同源基因是不是都为lncRNA,可以在discussion里提一下
不同转录本间表达量的计算
使用stringtie计算不同转录本间表达量的差异 -b参数。使用merge.gtf文件作为基因组参考文件
这个文件里面有一些不知道是比对到哪个基因的lncRNA和novel gene,就不要了
仅在叶片中isfrom数目数目的差异
对数据进行分组
A2=D5 vs At=Dt
A2=D5 vs At!=Dt
A2!=D5 vs At=Dt
A2 >D5 vs At>Dt || A2<D5 At<Dt
A2 >D5 vs AtDt
使用log2的方法比较不同同源基因间,isform数目上的差异
构造画图数据
!!!不理想,换种方式画

比较同源基因转录本的表达差异
Last updated
Was this helpful?