02测序read数目统计
对全长转录本的数据进行检测和量化

Classify对ROI进行分类和统计
#TM1 中FL 和nFL read数目
46193 >m54136_180730_021327
312042 >m54139_180605_030229
308136 >m54139_180607_052119
#D5
225071 >m54136_180615_222948
24827 >m54136_180730_021327
210012 >m54139_180609_044201
#A2
281078 >m54136_180615_020020
230398 >m54139_180604_080709
80434 >m54139_180620_084942
1.CCS read 数目统计
棉种
ROI
碱基数
TM1
685,383
-
A2
613,321
-
D5
487063
-
2.Classify后read数目统计
棉种
FLNC&nFL
嵌合序列
TM1
666,371
18,914
A2
591,910
20,713
D5
459,910
26,652
3.polished后的consensus isoform数目
棉种
consensus
hg reads
lq reads
TM1
245,865
45882(18.67%)
199,983
A2
209256
42656(20.38%)
166600
D5
157049
31593(20.11%)
125456
4.将consensus isoforms去冗余collapse得到transcript
棉种
transcript数目
Scaffold
TM1
89,411
883,16
A2
72,393
689,94
D5
55,381
552,34
统计每个PacBio转录本,受支持的Full-length read数目
##脚本
/public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result//03_Classify/stattic_PacBio_readCount.py
比较RNA-seq和Iso-seq间的重复性
cor(data$V2,data$V3, method = 'spearman')
脚本流程
#1.ccs
ccs --noPolish --minLength=300 --minPasses=1 --maxDropFraction=0.8 --min-rq=0.8 --minSnr=4 -j 10 --report-file CCS.log ../../../raw_data/Gh-1/rawdata/R1801371_QJ_BC1_subreads.bam R1801371_QJ_BC1_ccs.bam
dataset create --type ConsensusReadSet R1801371_QJ_BC1_ccs.xml R1801371_QJ_BC1_ccs.bam
2.classify
pbtranscript classify ../01CSS/R1801371_QJ_BC1_ccs.xml isoseq_draft.fasta --flnc=isoseq_flnc.fasta --nfl=isoseq_nfl.fasta --cpus 10
##输出文件
+ isoseq_draft.classify_summary.txt read分类情况
+ isoseq_draft.fasta flnc和nfl read序列文件
+ isoseq_flnc.fasta 全长非嵌合序列
+ isoseq_nfl.fasta 非全程的序列
4.聚类和polished
Classify后的全长序列
polished的输出文件
pbtranscript cluster ../02classify/isoseq_flnc.fasta polished_clustered.fasta --quiver --nfl_fa=../02classify/isoseq_nfl.fasta --bas_fofn ../01CSS/R1801371_QJ_BC1_ccs.bam
Last updated
Was this helpful?