重新开始鉴定AS.md

之前是分别使用对应的三代测序数据比对到各自的参考基因组,现在考虑用三代的测序数据分别比对对各自的亚基因组上。

## 将四倍体基因组分层At和DT进行比对,由于Scaffold没法区分A、D就不要了
grep Ghir_A -A1 Ghirsutum_genome_HAU_v1.0_another.fasta > At.fasta
grep Ghir_D -A1 Ghirsutum_genome_HAU_v1.0_another.fasta > Dt.fasta
## gmap 构建索引
/public/home/zpliu/software/gmap-2019-09-12/bin/gmap_build  -D /public/home/zpliu/work/Alternative/data/gmap_build -d Ghirsutum_Dt  /public/home/zpliu/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Dt.fasta &
## gmap进行比对
cat ./all.collapsed.rep.fa|~/software/gmap-2019-09-12/bin/gmap -D ~/work/Alternative/data/gmap_build/Ghirsutum_At/   -d  Ghirsutum_At   -f 3 -t 10 -n 1 --min-trimmed-coverage=0.85 --min-identity=0.85 -p 1 -e   >A2_At.gtf
## alternative_splice.py进行鉴定
/usr/bin/python ~/software/pipeline-for-isoseq/other/alternative_splice.py -i ./D5_Dt.gff -g ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model_motify_Dt.gtf  -f ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Dt.fasta  -as -ats T -os -t exon -o ./alter_ten -op

通过比较发现,如果真的是很保守的事件的话,他们的长度也是很保守的。对于那些长度摆动的先不管,用gmap来比对然后确定在对于同源基因上的位置。

## 将保守的IR事件,提取在对于基因组上的坐标


##不保守的事件在其他基因组的坐标使用gmap来获取

对于AltA、AltD进行同样的操作

## 从剪切文件中获取对应的AltA、AltD事件坐标和长度
awk '$3=="AltA"{print $0}' end_third|paste AltA_stand  -|awk '{print $2"\t"$5"\t"$6"\t"$1"\t"$3"\t-\t-\t-\t"$6-$5+1}' >AltA_static.txt 
awk '$3=="AltD"{print $0}' end_third|paste AltD_stand  -|awk '{print $2"\t"$5"\t"$6"\t"$1"\t"$3"\t-\t-\t-\t"$6-$5+1}' >AltD_static.txt

对各种剪切事件在进化上进行分类

比较保守事件与非保守事件的长度差异

事件类型

保守类型

非保守类型

AltD

365

536

AltA

343

517

ExonS

116

1847

IR

264

341

比较序列是否存在差异

之前基因文件的版本用错了,然后提出来的序列有些问题,然后今天用新的版本的跑了一下才是一样的;还好我之前跑甲基化数据的时候用对了基因组。

对可变剪切进行分类还是使用剪切位点上下游各300bp组成的序列进行blast

提取剪切位点上下游各300bp的序列,叫做splice anchor sequence tags

进行blast比对

提取只在某两个基因组上保守的剪切事件

在三个基因组上保守的剪切事件

只在某一个基因组中出现的剪切事件

将对于的剪切事件做成bed文件

查看基因对的数目

事件类型

基因对的数目

事件数目

四个都保守的

843

1390

At = A2

1515

2629

Dt =D5

1459

2189

At=Dt

1044

1528

A2=D5

1060

1511

只在At不存在

608

845

只在Dt不存在

653

945

只在A2不存在

837

1199

只在D5不存在

574

830

只有At有

4346

9387

只有Dt有

4429

9780

只有A2有

4541

10234

只有D5有

55007

12117

统计保守的IR长度信息

在统计长度的时候发现 Gorai.006G213800这个基因内含子长度都6000多了,对应的At与A2的内含子长度只有588多但是仍旧都可以发生IR

219 12 30

师兄说不能只根据 evalue 来筛选保守的片段,得看相似度和覆盖度

把筛选的命令重新写一遍

Last updated

Was this helpful?