01全长转录组数据处理

测序数据如下图

  • 每个棉种含有两个重复的数据,之所以有3个文件,是因为有一个重复的数据量没有测够;之后进行了补测

2019-10-10

合并两次测序的bam文件

后来发现还得使用ccs方法将两个bam文件指定为一个数据集

2019-10-11

因为在进行数据打磨时报错了

Missing .pbi file

2019-10-13

使用iso-seq中dataset程序处理,重复二的数据

使用ccs处理

之前数据的分析,师姐已经完成了;接下来主要是针对数据进行个性化的分析了;其实我还挺想自己把流程走一遍的,可惜公司不会把分析流程的protocol发给我们

2019-10-14

将之前的结果解压,到当前文件夹

unrar x result.rar

参考我之前写的软件使用说明

tps://zpliu.gitbook.io/booknote/ke-bian-jian-qie/ruan-jian-shi-yong/01-san-dai-ce-xu-isoseq#2-shi-yong-ccs-dui-yuan-shi-shu-ju-jin-hang-guo-lv

统计测序序列情况

1.二倍体亚洲棉

数据来源:第03三步分析流程里文件Classify_stat.xls

CO_31

序列类型

数目

比例

consensus reads质控后经过ccs处理

320874

100%

non-full-length reads

34265

10.68%

full-length reads(包括chimeric reads)

286277

89.22%

filtered short reads长度小于300bp

332

0.1%

chimeric reads

9710

3.03%

CO_32

序列类型

数目

比例

consensus reads质控后经过ccs处理

292447

100%

non-full-length reads

34265

10.68%

full-length reads(包括chimeric reads)

228041

77.98%

filtered short reads长度小于300bp

366

0.13%

chimeric reads

11003

3.77%

  1. 四倍体陆地棉

    Col31&C0l32

    序列类型

    数目

    比例

    consensus reads质控后经过ccs处理

    685383

    100%

    non-full-length reads

    103674

    15.13%

    full-length reads(包括chimeric reads)

    581611

    84.86%

    filtered short reads长度小于300bp

    98

    0.01%

    chimeric reads

    18914

    2.76%

  2. 二倍体雷蒙德氏棉

    Col31&C0l32

    序列类型

    数目

    比例

    consensus reads质控后经过ccs处理

    487063

    100%

    non-full-length reads

    87450

    17.95%

    full-length reads(包括chimeric reads)

    399112

    81.94%

    filtered short reads长度小于300bp

    501

    0.1%

    chimeric reads

    26652

    5.47%

比较测序数据与参考基因组数据中isform的长度与对应exon的数目

  • 在测序数据中06_Alignment/all.collapsed.gff文件中有每条isform的信息

    1.统计每条isform的长度信息,只包含外显子的长度

    2.统计每条isform的外显子数目

  • 参考基因组gff文件中有每个mRNA的注释信息

    多了一个sed的处理主要是isform的第九列多了·一些信息ID=evm.model.Ga01G0001.exon2,把exon那部分去除后获得isform编号

  • 准备绘图的数据

    得到每个基因组中isform的外显子数目分布情况

2019-10-16

  • 绘制isform长度比较信息,和外显子数目的比较信息

2019-10-17

第7个文件夹annotation中包含了,与参考基因组注释文件进行合并后的注释信息

利用地6步分析中得到的非冗余的isform序列,与基因组进行比较

棉种

非冗余的isform

比对到注释基因的isform

没有比对到基因区域

对应基因数

对应的转录本数

原参考注释基因数目

TM1

89,411

83,281

6,130

32,003

39,098

70199

A2

7,2393

69,179

3,214

20,907

参考基因组没有预测不同转录本

40960

D5

55,381

53,058

2,323

18,904

24,368

37505

第8个和第9个、10个文件的数据暂时用不到

分析第11个关于可变剪切的文件

分析不同棉种中可变剪切的类型,及发生可变剪切的基因数目

grep ExonS splice.as.xls|wc -l 统计外显子跳跃事件的数目

grep ExonS splice.as.xls|awk '{print $2}' |sort|uniq |wc -l 统计对应的基因数目

剪切事件数目/对应的基因数目

棉种

gene 总数目

事件总数目

TM-1

23137

121567

A2

11733

60921

D5

14483

81392

棉种

ES(ExonS)

IR(IntronR)

AltD

AltA

AltP

Other

TM1

5824/3519

70132/18813

13147/7329

15631/8522

8182/4201

8650/3621

A2

2536/1564

38121/9515

4746/2736

6129/3278

4764/2318

4624/1975

D5

5502/3005

42372/11062

8104/4713

11799/6094

5980/3046

7634/2810

看看比例TM-1

事件类型

事件比例与数目

基因数目与比例

IR

70132~57%

18813~81%

AD

13147~10.8%

7329~31.6%

AA

15631~12.8%

8522~36.8%

ES

5824~4.8%

3519~15.2%

AP

8182~6.7%

4201~18.1%

Other

8650~7.1%

3621~15.6%

看看比例A2

事件类型

事件比例与数目

基因数目与比例

IR

38121~62.5%

9515~81%

AD

4746~7.8%

2736~23.3%

AA

6129~10%

3278~27.9%

ES

2536~4.1%

1564~13.3%

AP

4764~7.8%

2318~19.7%

Other

4624~7.6%

1975~16.8%

看看比例D5

事件类型

事件比例与数目

基因数目与比例

IR

42372~52%

11062~76%

AD

8104~9.9%

4713~32.5%

AA

11799~14.5%

6094~42%

ES

5502~6.7%

3005~20.7%

AP

5980~7.3%

3046~21%

Other

7634~9.4%

2810~19.4%

D5的剪切事件相对与A2来说有点偏高,可能是由于A2的参考基因组本身就没有对多个转录本进行预测;为了验证这个猜想,就只看PBc得到的转录本之间的剪切事件

棉种

ES(ExonS)

IR(IntronR)

AltD

AltA

AltP

Other

TM1

1225/916

18218/5901

2532/1641

3088/1926

2797/1532

2609/1264

A2

1253/840

17865/5347

2201/1444

2945/1803

2358/1312

2571/1068

D5

504/368

9578/3160

1112/770

1438/901

1379/858

1466/735

2019-10-18

在第7个文件夹中matchAnnot_result.txt文件中包含比对到参考基因组上的isform和对应的参考基因编号

分析全长转录组的数据与原始数据相比在isform数目上的差异

2019-11-2

  • 根据参考基因组的注释文件,产生剪切位点的bed文件

    假定剪切复合体是以外显子识别的模式进行剪切的,并且不关心外显子在正负链上的关系

  • 生成各种类型的剪切

  • 将甲基化的数据构造成bed文件

  • 统计每个区域中含有甲基化的位点的数目

  • 提取对应区域的CG类型的数目,进行甲基化水平的标准化

  • 画两幅内含子和外显子连接的图,intron5-exon5 vs exon3-intron3

  • ggplot2绘制图形

2019-11-08

​ 重新分析可变剪切的数据,使用gmap进行比对,过滤指标覆盖度85%,相似度90%

2019-11-14

考虑每个isform直接的比较

棉种

ES(ExonS)

IR(IntronR)

AltD

AltA

AltP

Other

TM1

17702/3440

254763/18239

37147/7111

48642/8180

13878/3441

8005/2046

A2

5074/1390

94222/9164

12407/2762

17002/3382

11798/2650

4310/1213

D5

18554/2949

148092/10583

19095/3523

31982/4988

5508/1406

5199/1279

只考虑基因坐标

棉种

ES(ExonS)

IR(IntronR)

AltD

AltA

AltP

Other

TM1

4139/3440

53689/18239

10223/7111

11951/8180

5088/3441

2823/2046

A2

1656/1390

27223/9164

3839/2762

5021/3382

4428/2650

1757/1213

D5

3863/2949

31532/10583

4903/3523

7343/4988

1892/1406

1758/1279

A2_8 vs D5_6

棉种

gene 数目

事件数目

TM1

21405

87934

A2

10861

42044

D5

12684

51616

棉种

ES(ExonS)

IR(IntronR)

AltD

AltA

AltP

Other

TM1

4139/3440

53689/18239

10223/7111

11951/8180

5088/3441

2823/2046

A2

2276/1560

28078/9203

4135/2810

5199/3376

1823/1296

1435/949

D5

4280/2958

31756/10581

4900/3427

7055/4731

1819/1303

1805/1209

2019-11-16

比较Alt exon与constituents exon的甲基化水平

提取可变剪切文件中所有isform的exon坐标

先提取PacBio对应的isform编号,以及对应的mRNA对应的编号

提取Alter exon的坐标

2019-11-20

之间比较Constitutive Exon和Alternative Exon之间甲基化水平的差异

Alternative Exon需要把对应的链的信息给补充完整

直接根据基因区编号来补充把

感觉失败了

constitutive exon与alteractivate exon比较

把四个坐标中甲基化位点为0的exon去除试试

同样没有发现想要的效果,比如Alter 的剪切位点中exon和intron之间的甲基化程度相差不大,而Constitutive 剪切位点附近的甲基化程度相差很大

剪切位点intron与exon甲基化程度比较

不把intron与exon拆开看了,就分析5'|3’剪切位点附近甲基化程度和CG含量

佛了,想要差异大一些又没差异

剪切位点附近甲基化程度的差异

参考

bedtools使用 https://www.jianshu.com/p/6c3b87301491

ggplot2 https://blog.csdn.net/Bone_ACE/article/details/47427453# 标签修改

Last updated

Was this helpful?