第8个结果

四倍体内亚基因组间的比较

  • At、Dt中共有的AS

  • At、Dt中特有的AS

##目录 allopolyploid
python ASBias.py  -homolog ~/work/Alternative/result/homologo/homologGene/At_vs_Dt_collinerity.txt -AS1 ~/work/Alternative/result/Gh_result/CO31_32_result/11_AS/At_splice.txt  -AS2 ~/work/Alternative/result/Gh_result/CO31_32_result/11_AS/Dt_splice.txt  -C ../blast/IR/At_Dt_conserve_end  -o 11 -T IntronR

同源基因间AS保守程度计算

python ./conservePrecentage.py -homolog ~/work/Alternative/result/homologo/homologGene/At_vs_Dt_collinerity.txt  -isform ../ASCount/IR/At_Dt_IR  -AS ../blast/IR/At_Dt_conserve_end  -o 1111
##转换格式
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111

不是类型的比例

  • 完全保守的基因对

  • 部分保守的基因对

  • 完全不保守的基因对

    • 同源基因间都存在剪切事件

    • 只有单个基因存在剪切事件

## 完全保守
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111 |awk '$2==1{print $0}'|wc -l
## 部分保守
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111 |awk '$2>0&&$2<1{print $0}'|wc -l
## 完全不保守
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111 |awk '$2==0{print $0}'|wc -l
## 完全不保守,并且都存在AS
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111 |awk '$2==0{print $0}'|awk '$3!=0&&$6!=0{print $0}'|wc -l
## 完全不保守,只有一个基因组存在AS

同源基因间IR事件

数目

比例

完全保守

74

部分保守

1748

完全不保守

6796

6796/8618

同源基因都存在AS

1089

只有A存在

2789

只有D存在

2918

二倍体不同亚基因组间的比较

python ../ASBias.py  -homolog ~/work/Alternative/result/homologo/homologGene/A2_vs_D5_collinearity.txt  -AS1 ~/work/Alternative/result/Ga_result/CO11_12_result/11_AS/end_splice.txt  -AS2 ~/work/Alternative/result/Gr_result/CO41_42_result/11_AS/end_splice.txt  -C ../../blast/IR/A2_D5_conserve_end  -o 11 -T IntronR

A2 D5间比较

数目

比例

完全保守

105

部分保守

2198

完全不保守

7567

7567/9870

两个都存在AS

1306

只有A中存在AS

3923

只有D中存在AS

2338

寻找一些证据,支持同源基因间AS的差异

  • 只在一个同源基因中存在剪切事件,而另外一个不存在

目录 ASMissing
#找到对应同源基因中没有发生AS的坐标
python extractIntronbed.py -fasta ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_genome_HAU_v1.0.fasta -r ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghifrsutum_gene_model.gtf -p ~/work/Alternative/result/Gh_result/CO31_32_result/07_annotation/merge.gtf -o ./11 -f 22
## 得到参考基因组与PacBio合并后的所有intron坐标,去除scaffold上的基因
sort -k1,1 -k2,3n 11 |uniq|sed '/Scaffold/d' >all_intron.bed
##得到所有intron两端的FESTs
makeblastdb  -in all_intron_FEST.fa  -dbtype nucl -out ./DB/all_intron
##得到只在一个同源基因中存在的剪切事件
awk 'NR%2!=0{printf $0"\t"}NR%2==0{print $0}' 1111 |awk '$2==0{print $0}'|awk '$3!=0&&$6==0{print $0}'|cut -f1 |xargs  -I {} grep {} -A 1 ../TM1/1  >../ASMissing/TM/At.fa
## 进行blast
blastn -query At.fa  -db DB/all_intron -evalue 1e-5 -num_threads 10 -outfmt '6  qseqid sseqid qstart qend sstart send nident pident qcovs evalue bitscore' -out At.blast
## 分解同源基因和比对的情况得到对应同源基因的坐标
python ~/scripte/Alternative/module/homologBlast.py  -homolog ~/work/Alternative/result/homologo/homologGene/At_vs_Dt_collinerity.txt -Blast  At.blast -o 2222
cat 2222|awk '$1~/^Ghir_A/&&$2~/^Ghir_D/{print $0}$1~/^Ghir_D/&&$2~/^Ghir_A/{print $2,$1,$3}' OFS="\t"|sort |uniq |awk '{print $2,$3,$1}' OFS="\t"|sort  -k3 -k2,2nr|uniq -f2|awk '{print $3"\t"$2"\t"$1}'|sort -k3 -k2,2nr|uniq -f2  >333

统计找到对应坐标的比例

同源基因对应位置上的差异

  • intron长度的差异

## 比较长度是否存在差异
awk -F "-" '$NF=="+"{print $4-$3+1"\t"$(NF-1)-$(NF-2)+1}$NF!="+"{print $4-$3+1"\t"$(NF-2)-$(NF-3)+1}' At.end
  • 表观上的差异

## 计算两个重复的平均甲基化程度
paste constitutive_CpG_rep*|awk '{print ($4+$8)/2"\tconstiutiveIR"}'  >constitutive_CpG.txt

Last updated