iso-seq测序2.0版本

与参考基因组的注释信息进行比较

https://github.com/TomSkelly/MatchAnnotarrow-up-right

# python2
python ~/software/MatchAnnot/matchAnnot.py  --gtf ~/work/Alternative/data/Gr_genome/Graimondii_221_v2.1.gene.gtf --format alt ./test.sam  >test/annote.out

将sam文件转换为gff文件

使用 https://github.com/Magdoll/cDNA_Cupcake/wiki#whatarrow-up-right Cupcake包中的一个脚本

# 加入环境变量
export PATH=$PATH:~/software/cDNA_Cupcake/sequence/
# 必须切换cDNA_Cupcake目录才能运行
cd ~/software/cDNA_Cupcake/
sam_to_gff3.py -h
sam_to_gff3.py -s "标识符" ~/work/Alternative/result/Gr_result/CO41_42_result/06_Alignment/test.sam 
# gff3转gtf
~/scripte/gff2gtf_cufflinks  test.gff3  -T -o test.gtf

过滤比对文件

无论我怎么修改GMAP的参数,都不能够把这种比对情况给消除,试了一下 minimap 也是一样的效果https://github.com/lh3/minimap2#map-long-splicearrow-up-right ,只能自己写脚本过滤一遍了

GMAP错误比对

提取可变剪切文件中每个isform的bed文件

按基因的坐标来提取可变剪切的数目

流程图

使用脚本鉴定可变剪切

修改gtf文件

  • 基因组的参考文件**要经过一定的修改

  • as 对每种可变剪切进行编码

  • ats 是否输出可变剪切的统计文件 可以指定

  • op 是否输出图片

  • os 输出剪切位点序列

  • -t 指定识别模式

  • -c 如果外显子相似度达到阈值,则过滤掉转录本

  • -ave 如果边缘差异在【0,3】内,则过滤这个剪切事件

  • -ca, --canonical consider only introns with canonical splice sites

可变剪切的类型

  • AltP events refer to introns overlapping with each other but with both 5'- and 3'-ends differing.

  • AltD same 3'-end but a different 5'-end, this event was classified as

  • IntronR was completely covered by an exon, the event was classified as

  • ExonS exon was completely covered by an intron, the event was classified as

软件的思想:

  • 首先读取参考基因组的注释文件,将外显子比较相似的isform合并成一个转录本

  • 读取GMAP比对得到的gff文件,与上一步得到的文件进行合并,最后得到每个基因中含有的转录本

  • 对每个基因进行扫描,进行两两比较,然后坚定可变剪切的位点

  • 将基因发生可变剪切的位点提取出来,排序得到 splice code

  • ^ 表示可变供体

  • -表示受体

  • 0表示不存在剪切位点

根据可变剪切编码提取对应的剪切事件

1.提取可变剪切的编码

如果基因组注释的转录本不准确的话,会影响AS事件的鉴定,所以使用07/merge.gtf文件取鉴定可变剪切事件

新基因不分析

Last updated