AS多倍化过程中的变化
AS在亚基因组间的偏好性
bias conserve AS
A2与D5中存现保守AS事件,并且该保守的事件,只在At或者Dt中才存在
pair conserve AS
At与Dt中存在保守的剪切事件,并且该保守的剪切事件只要存在一个祖先基因组与它保守
## bias conserve AS
python ~/scripte/Alternative/module/BiasASconseve.py -CA1 A2_At_conserve_end -CA2 D5_Dt_conserve_end -PCA1 A2_D5_conserve_end -PCA2 At_Dt_conserve_end -o Bais_conserve_IR.out
## pair conserve AS
python ~/scripte/Alternative/module/PairAS.py -CA1 A2_At_conserve_end -CA2 D5_Dt_conserve_end -PCA1 At_Dt_conserve_end -o Pair_conserve_IR.out
事件
bias conserve 事件数目
pair conserve
IR
1968
3720
ES
95
209
AltA
196
530
AltD
126
354
看表达量的变化
提取bias的基因对应的表达量
awk '$3~/Ghir_A/{print $3}' Bais_conserve_IR.out |cut -f1 -d "-"|head
提取Pair 基因对应的表达量
awk '{print $1,$2}' Pair_conserve_IR.out|head
## 根据文件名,提取bed信息
awk -F "-" '$5=="+"{print $2,$3,$4,$5,$0}$5==""{print $2,$3,$4,"-",$0}' OFS="\t" >Bais_conserve.bed
296873 307084
四倍体中At、Dt可变剪切的差异
At、Dt中,保守程度,与表达量的变化,目录At_Dt
python ~/scripte/Alternative/module/At_Dt_conservePrecentage.py -homolog ~/work/Alternative/result/homologo/homologGene/At_vs_Dt_collinerity.txt -isform ./IR_count -AS ./../blastdb/IR/At_Dt_conserve_end -o
#基因 事件数,保守的事件数,保守率
#Ghir_A01G000190 0 Ghir_D01G000200 3 0 0
#Ghir_D01G000200 3 Ghir_A01G000190 0 0 0
#Ghir_A01G000420 0 Ghir_D01G000420 1 0 0
awk 'NR%2==0{print $3,$4,$1,$2,$5,$6}NR%2!=0{print $0}' OFS="\t" 1|uniq >conserve_precentage_IR.txt
同源基因都存在剪切事件,完全保守
同源基因都存在剪切事件,部分保守
同源基因都存在剪切事件,不保守
只有一个同源基因存在剪切事件,不保守
提取对应的表达量数据
python ~/scripte/Alternative/module/At_Dt_FPKM.py -homolog ~/work/Alternative/result/homologo/homologGene/At_vs_Dt_collinerity.txt -FPKM ~/work/RNA-seq/hisat2_out/leaf/leaf_BAM/Gh/gene_fpkm.txt -AS ./conserve_precentage_IR.txt -o 1
## 最后得到8列数据
A基因编号 事件数目 B基因编号 事件数目 保守事件数 保守率 A基因表达量 B基因表达量
比较同源基因间AS保守程度与基因表达水平的差异
表达差异使用log2去算
awk -v fild1=7 -v fild2=8 -f ~/github/zpliuCode/script/log2.awk 1 |head
##得到差异表达基因
cat 1|awk -v fild1=7 -v fild2=8 -f ~/github/zpliuCode/script/log2.awk |awk 'sqrt($9*$9)>=1{print $0}'
## 统计不同范围保守度的差异表达基因数
cat IR_FPKM|awk -v fild1=7 -v fild2=8 -f ~/github/zpliuCode/script/log2.awk |awk 'sqrt($9*$9)>=1{print $0}'|awk '$6>=0&&$6<0.2{print $0"\t"0.1}$6>=0.2&&$6<0.4{print $0"\t"0.3}$6>=0.4&&$6<0.6{print $0"\t"0.5}$6>=0.6&&$6<0.8{print $0"\t"0.7}$6>=0.8&&$6<=1{print $0"\t"0.9}'
## 看事件是否存在nonsen-mediate decay
在差异表达的基因中,有多少是偏向于At、多少偏向于Dt的,做GO富集分析
基因的差异表达与AS的保守程度
AS存在差异,与nosense-mediate decay扯上关系
AS保守度
差异表达基因数目
比例
0-0.2
2086
0.697
0.2-0.4
184
0.061
0.4-0.6
266
0.089
0.6-0.8
320
0.107
0.8-1
138
0.046
#画图,AS保守率与基因表达之间的关系
AS_FPKM.R 画图脚本
进行GO富集分析
At中上调的基因 1196对
Dt中上调的基因 1798对
## 分析GO结果画气泡图
awk -F "\t" 'NR>1&&$9<=0.05{print $1,$2,$3,$4/$6,$4,$6,$9}' OFS="\t" DtUp.txt >DtUp.plot
##手动筛选
## GO气泡图
Last updated
Was this helpful?