20200320

第二个结果

cluster前后read数目

category

A2

D5

TM-1

cluster后read数

209256

157049

245865

cluster后isform数

72393

55381

89411

isform的比对情况

PacBio isform长度与对应的转录本的长度

06_Alignment/all.collapsed.rep.fa中有PacBio isform长度信息

awk -F "=" '$1~/^>/{print $NF"\tPacBio\tA2"}' all.collapsed.rep.fa >A2_PacBio_length.txt

统计基因组注释文件中isform的长度信息

awk 'NR==1&&$1~/^>/{print $0}NR>=2&&$1~/^>/{print "\n"$0}$1~/^[^>]/{printf $0}' Ghirsutum_gene_transcripts.fasta|awk '$1~/^[^>]/{print length($0)"\treference\tTM-1"}'

统计平均长度信息

awk '{a+=$1}END{print a/NR}' A2_PacBio_length.txt

基因组

PacBio

reference

A2

2351

1181

D5

2390

1852

TM-1

2488

2074

PacBio isform对应exon数目与reference exon数目

PacBio中exon数目

awk '$3~/exon/{print $0}' all.collapsed.gff|awk -F "\t" '{a[$9]+=1}END{for(i in a){print a[i]"\tPacBio\tD5"}}'

reference中transcripts的exon数目

awk '$3~/exon/{split($9,a,";");b[a[2]]+=1;}END{for(i in b){print b[i]"\treference\tTM1"}}' Ghirsutum_gene_model.gff3

isforms比对到参考基因组上

基因组

总isforms

比对到基因区的isform

比对到的基因数

对应转录本数

A2

72393

69179

20907

20907

D5

55381

53058

18904

24368

TM1

89411

83281

32003

39098

Last updated