06比较不同棉种中isform的差异

比较每个基因isform的差异

首先不管这个基因有没有发生可变剪切,看看每个基因对应的isform种类和数目分别有多少。

  1. 文件unproved.gene.list.txt表示的是没有PacBio序列支持的基因

  2. 文件unproved.transcript.list.txt表示这个基因有PacBio序列的支持,但是呢有些转录本没有PacBio的支持。

  3. 文件 proved.transcript.list.txt对应的转录本有PacBio序列的支持

解读起来还是好麻烦,直接用03_Classify/total.flnc.fasta文件比对到基因组去看看具体是什么情况

cat ./total.flnc.fasta|~/software/gmap-2019-09-12/bin/gmap -D ~/work/Alternative/data/gmap_build/Graimondii_221_v2.0 -d Graimondii_221_v2.0 -f samse -t 10 -n 1 --min-trimmed-coverage=0.85 --min-identity=0.9  --suboptimal-score 0.8 >align.sam

统计参考基因组中注释isform的数目

awk '$3~/mRNA/{print $0}' gene.Grai.JGI_end.gff3 |awk -F ";" '{a[$2]+=1}END{for(i in a){print i"\t"a[i]}}'|sed 's/Parent=//g'|less

看一下参考基因组中注释只有一个isform的基因,有多少发生了AS

## D5
awk '$3~/mRNA/{print $0}' /public/home/zpliu/genome_data/genome_Grai.JGI/gene.Grai.JGI_end.gff3 |awk -F ";" '{a[$2]+=1}END{for(i in a){print i"\t"a[i]}}'|sed 's/Parent=//g'|awk '$2==1{print $0}'|cut -f1|cat - spliceGeneId.txt |sed 's/\.v2\.1//g'|sort|uniq -d |wc -l

将基因组的isform与PacBio测的isform进行合并

文件07_annotation/merge.gtf中包含每个基因能比对到的PacBio isform。与考基因组的注释文件合并了

文件中如果是原本参考基因组的注释,就说明基因的这个转录本在叶片中没有表达,从而没有被PacBio检测到,或者就是这个基因没有表达。

可以使用这个merge.gtf文件当做参考进行AS的鉴定,效果不理想

比较同一组亚基因组同源基因仅仅在叶片中表达的isform数量的差异

使用亚基因组同源基因去获取,07annotion/merge.gtf文件中被PacBio检测到的转录本

在讨论isform的数目上忽略掉lncRNA的因素,感觉数目不是很多

把同源基因的转录本信息合并一下

有的基因在merge转录本之后,被注释为lncRNA了把这些基因对去除

统计了一下各个基因中lncRNA的数目,以及亚基因组同源基因中lncRNA的数目

lncRNACount

At

Dt

A2

D5

亚基因组

两个共2754

1934

1216

同源基因间

102

97

148

106

也可以比较一下,亚基因组同源基因是不是都为lncRNA,可以在discussion里提一下

不同转录本间表达量的计算

使用stringtie计算不同转录本间表达量的差异 -b参数。使用merge.gtf文件作为基因组参考文件

这个文件里面有一些不知道是比对到哪个基因的lncRNA和novel gene,就不要了

仅在叶片中isfrom数目数目的差异

对数据进行分组

  1. A2=D5 vs At=Dt

  2. A2=D5 vs At!=Dt

  3. A2!=D5 vs At=Dt

  4. A2 >D5 vs At>Dt || A2<D5 At<Dt

  5. A2 >D5 vs AtDt

使用log2的方法比较不同同源基因间,isform数目上的差异

构造画图数据

!!!不理想,换种方式画

isform分类模式

比较同源基因转录本的表达差异

Last updated

Was this helpful?