分析同源基因间可变剪切的差异
筛选各个棉种中发生可变剪切的同源基因
比较剪切位点处甲基化水平
使用单个碱基甲基化程度百分比的程度来衡量甲基化水平
# 使用之前的脚本,把不是0的之间换成1就可以了
对标准化的文件做处理 exon_5scale_single_base.txt
awk '$2==0{print $0}$2!=0{print $1"\t"1}' exon_5scale_single_base.txt
# 再计算每个位点的甲基化概率
for i in 1
do
awk '$2==0{print $0}$2!=0{print $1"\t"1}' exon_5scale_single_base.txt|sed 's/_/\t/g'|awk '{print $(NF-1)"\t"$NF}'|awk '{a[$1]+=$2}END{for(i in a)print "ConExon\t""5_exon\t"i"\t"a[i]/87456}' >exon_5_end
awk '$2==0{print $0}$2!=0{print $1"\t"1}' exon_3scale_single_base.txt |sed 's/_/\t/g'|awk '{print $(NF-1)"\t"$NF}'|awk '{a[$1]+=$2}END{for(i in a)print "ConExon\t""3_exon\t"i"\t"a[i]/87456}' >exon_3_end
awk '$2==0{print $0}$2!=0{print $1"\t"1}' intron_3scale_single_base.txt |sed 's/_/\t/g'|awk '{print $(NF-1)"\t"$NF}'|awk '{a[$1]+=$2}END{for(i in a)print "ConExon\t""3_intron\t"i"\t"a[i]/87456}' >intron_3_end
awk '$2==0{print $0}$2!=0{print $1"\t"1}' intron_5scale_single_base.txt |sed 's/_/\t/g'|awk '{print $(NF-1)"\t"$NF}'|awk '{a[$1]+=$2}END{for(i in a)print "ConExon\t""5_intron\t"i"\t"a[i]/87456}' >intron_5_end
done
## 更新坐标轴
awk '{print $1"\t"$2"\t"$3+200"\t"$4}' exon_5_end |sort -k1 -n|cat - intron_5_end |sort -k3,3 -n >intron_exon_5.txt
## 将3'内含子延长75 然后合并
awk '{print $1"\t"$2"\t"$3+75"\t"$4}' intron_3_end |cat - exon_3_end |sort -k3 -n >intron_exon_3.txtA2_8 vs D5_6
棉种
gene 数目
事件数目
TM1
21405
87934
A2
10861
42044
D5
12684
51616
棉种
ES(ExonS)
IR(IntronR)
AltD
AltA
AltP
Other
TM1
4139/3440
53689/18239
10223/7111
11951/8180
5088/3441
2823/2046
A2
2276/1560
28078/9203
4135/2810
5199/3376
1823/1296
1435/949
D5
4280/2958
31756/10581
4900/3427
7055/4731
1819/1303
1805/1209
事件还得重新统计一次
统计有多少同源基因同时发生了可变剪切
分析基因区域甲基化的程度与发生可变剪切的位置之间的关系
将每个基因的长度标准化成100段或者200段,再比较每个区域甲基化和剪切程度
分析同源基因之间isform数目的关系
获取每个基因的isform数目
所有isform长度的分布信息,计算的是cDNA的长度,把转录本的长度信息也追加到文件中
比较同源基因发生剪切的片段的长度
使用bedtool提取对应位置的基因序列
Last updated
Was this helpful?