第三个结果

统计各个棉种中剪切数据

awk '$3~/IntronR/{a+=1}$3~/ExonS/{b+=1}$3~/AltA/{c+=1}$3~/AltD/{d+=1}$3~/AltP/{e+=1}$3~/Other/{f+=1}END{print a,b,c,d,e,f}' OFS="\t"  end_third

TM-1去除了scaffold

棉种

IR

ExonS

AltA

AltD

AltP

Other

Total

A2

28078

2276

5199

4135

1823

1435

42946

D5

31756

4280

7055

4900

1819

1805

51615

At

26763

2328

6063

5188

2599

1448

Dt

27412

2431

6227

5371

2658

1625

TM-1

54175

4759

12290

10559

5257

3073

90113

对应的基因数

for i in IntronR ExonS AltA AltD AltP Other
do
awk '$3=="'"$i"'"{print $2}' end_third|sort |uniq|wc -l
done

棉种

IR

ExonS

AltA

AltD

AltP

Other

total

A2

9203

1560

3376

2810

1296

949

D5

10581

2958

4731

3427

1303

1209

At

8901

1679

4000

3480

1701

989

Dt

9143

1723

4092

3557

1712

1044

TM-1

18044

3402

8092

7037

3413

2033

统计每个isform发生IR的次数

提取各个棉种中同源基因的剪切事件

从文件夹中static.txt文件中提取

提取独有的基因对应的剪切事件

进行Blast保守性分析

提取左右两端300bp序列

合并两端序列 脚本位置 ~/script/Alternative/merge.py

进行All-vs-All blast

提取保守的IR

  • 匹配长度大于200bp

  • 相似度大于90%

  • 覆盖度超过85%

使用intron比对到gene上

1.提取对应的同源基因序列

2.提取对应的IR序列

3.将intron序列比对到基因区域,进行筛选

  • 相似度90以上

  • 覆盖度90以上

  • 首先是同源基因

这里发现有些IR的intron不能够比对到对应的同源基因上,不知道是不是筛选指标太严格了

  • 把指标松一些,比对上的片段占intron的0.8即可。

  • 分为比对上的intron

    • 对应同源基因有IR

    • 对应同源基因没有IR

其中点表示,对应同源基因序列类似,但是附近没有IR事件

不是点则代表保守的intronR

  • 没有比对上的intron

    感觉应该也不会保守,就不管了;直接统计出来

整套流程

Last updated

Was this helpful?