第三个结果
统计各个棉种中剪切数据
awk '$3~/IntronR/{a+=1}$3~/ExonS/{b+=1}$3~/AltA/{c+=1}$3~/AltD/{d+=1}$3~/AltP/{e+=1}$3~/Other/{f+=1}END{print a,b,c,d,e,f}' OFS="\t" end_thirdTM-1去除了scaffold
棉种
IR
ExonS
AltA
AltD
AltP
Other
Total
A2
28078
2276
5199
4135
1823
1435
42946
D5
31756
4280
7055
4900
1819
1805
51615
At
26763
2328
6063
5188
2599
1448
Dt
27412
2431
6227
5371
2658
1625
TM-1
54175
4759
12290
10559
5257
3073
90113
对应的基因数
for i in IntronR ExonS AltA AltD AltP Other
do
awk '$3=="'"$i"'"{print $2}' end_third|sort |uniq|wc -l
done棉种
IR
ExonS
AltA
AltD
AltP
Other
total
A2
9203
1560
3376
2810
1296
949
D5
10581
2958
4731
3427
1303
1209
At
8901
1679
4000
3480
1701
989
Dt
9143
1723
4092
3557
1712
1044
TM-1
18044
3402
8092
7037
3413
2033
统计每个isform发生IR的次数
提取各个棉种中同源基因的剪切事件
从文件夹中static.txt文件中提取
提取独有的基因对应的剪切事件
进行Blast保守性分析
提取左右两端300bp序列
合并两端序列 脚本位置 ~/script/Alternative/merge.py
进行All-vs-All blast
提取保守的IR
匹配长度大于200bp
相似度大于90%
覆盖度超过85%
使用intron比对到gene上
1.提取对应的同源基因序列
2.提取对应的IR序列
3.将intron序列比对到基因区域,进行筛选
相似度90以上
覆盖度90以上
首先是同源基因
这里发现有些IR的intron不能够比对到对应的同源基因上,不知道是不是筛选指标太严格了
把指标松一些,比对上的片段占intron的0.8即可。
分为比对上的intron
对应同源基因有IR
对应同源基因没有IR
其中点表示,对应同源基因序列类似,但是附近没有IR事件
不是点则代表保守的intronR
没有比对上的intron
感觉应该也不会保守,就不管了;直接统计出来
整套流程
Last updated
Was this helpful?