20200320
第二个结果
cluster前后read数目
category
A2
D5
TM-1
cluster后read数
209256
157049
245865
cluster后isform数
72393
55381
89411
isform的比对情况
PacBio isform长度与对应的转录本的长度
在06_Alignment/all.collapsed.rep.fa
中有PacBio isform长度信息
awk -F "=" '$1~/^>/{print $NF"\tPacBio\tA2"}' all.collapsed.rep.fa >A2_PacBio_length.txt
统计基因组注释文件中isform的长度信息
awk 'NR==1&&$1~/^>/{print $0}NR>=2&&$1~/^>/{print "\n"$0}$1~/^[^>]/{printf $0}' Ghirsutum_gene_transcripts.fasta|awk '$1~/^[^>]/{print length($0)"\treference\tTM-1"}'
统计平均长度信息
awk '{a+=$1}END{print a/NR}' A2_PacBio_length.txt
基因组
PacBio
reference
A2
2351
1181
D5
2390
1852
TM-1
2488
2074
PacBio isform对应exon数目与reference exon数目
PacBio中exon数目
awk '$3~/exon/{print $0}' all.collapsed.gff|awk -F "\t" '{a[$9]+=1}END{for(i in a){print a[i]"\tPacBio\tD5"}}'
reference中transcripts的exon数目
awk '$3~/exon/{split($9,a,";");b[a[2]]+=1;}END{for(i in b){print b[i]"\treference\tTM1"}}' Ghirsutum_gene_model.gff3
isforms比对到参考基因组上
基因组
总isforms
比对到基因区的isform
比对到的基因数
对应转录本数
A2
72393
69179
20907
20907
D5
55381
53058
18904
24368
TM1
89411
83281
32003
39098
Last updated
Was this helpful?