可变剪切的鉴定
可变剪切的鉴定
为了方便在不同的基因组之间进行比较,AS的鉴定还是选择那些比较PacBio转录本之间的AS;从11_AS/end_splice.txt`文件中提取两个转录本都是PB注释的AS。将冗余的内含子保留信息合并一下
公司在鉴定AS的时候,把PB和参考基因组的转录本进行了合并;用参考基因组中原有的注释代替了PacBio的注释;而A2中只有一个转录本的注释。所以当我去取两个都是PB的转录本的时候,A2的就会比较多。
重新鉴定AS,使用gmap将PacBio比对到参考基因组输出格式设置为cDNA格式的gff文件
在使用AS的脚本去鉴定AS
test.gff 文件为Gmap的输出结果
PacBio.gff为PacBio转录本的注释信息
as 统计剪切位点处的编码
ats 输出AS鉴定的统计信息
os 输出剪切处的fasta序列
op 输出SVG图片信息
使用AS脚本鉴定AS
只鉴定PacBio转录本之间的IR,首先需要将../07_annotation/TM-1_merge_C.gtf
文件中只提取PacBio的注释信息
统计各个棉种中的数量信息,在没去冗余之前
基因组 | IR | ES | AltA | AltD | AltP | Other |
TM1 | 36172 | 2503 | 8033 | 6422 | 5876 | 4041 |
D5 | 22540 | 1323 | 4669 | 3617 | 3648 | 2465 |
A2 | 32179 | 2386 | 7186 | 5646 | 5553 | 3995 |
去完冗余转录本后,AS的统计
基因组 | IR | ES | AltA | AltD | AltP | Other |
TM1 | 33225 | 2208 | 6144 | 4848 | 3796 | 2549 |
D5 | 20680 | 1171 | 3497 | 2628 | 2343 | 1513 |
A2 | 29488 | 2120 | 5411 | 4256 | 3570 | 2448 |
使用rmats-turbo
鉴定AS
rmats-turbo
鉴定AS安装软件
一行命令搞定
错误
bash: gsl-config: command not found
主要是由于
./build_rmats
这个脚本运行过程中会source ~/.bashrc
进入base环境就找不到脚本解决办法把
conda_envs/rmats/bin
添加到环境变量里
装R包nloptr
遇到一堆问题,最后还是用conda解决的
conda install -c r r-nloptr
使用
--statoff
分析单个样本中的AS,不会进行多样吧间的比较
--b1
指定比对·后的BAM文件所在位置 与--s1
效果一样,只不过--s1
需要调用STAR进行一次比对--od
输出文件夹 outpu Dir--tmp
临时文件所在目录-t
指定RNA-seq为单端或者双端测序--libType
建库方式--cstat
对两个样本进行比较时的阈值--nthread
程序运行的线程数
输出文件
[AS_Event].MAT.JC.txt 跨越junction的read
[AS_Event].MAT.JCEC.txt 包括跨域junction的read和没有cross exon boundary的read
fromGTF.[AS_Event].txt
从GTF和RNA数据中鉴定到的ASfromGTF.novelJunction.[AS_Event].txt
再使用RNA的数据后才鉴定到的AS
每种AS类型中又有不同的列,最主要的差别就是指示事件的坐标,以及上下游外显子的坐标
具体的说明参考: https://github.com/Xinglab/rmats-turbo#output;
需要注意下面两个指标,在标准化的时候是以这两个为准,而不是真实事件的长度
https://groups.google.com/forum/#!topic/rmats-user-group/d7rzUBKXF1U
SkipFormLen
这个只read支持跨域的实际长度,会和事件真实的坐标有差距lncFormLen
read cross整个坐标的长度
统计可变剪切数目
SE 外显子跳跃
内含子保留
可变的5‘
可变的3’
多个外显子互斥
这里的统计不包括scaffold
基因组 | RI | SE | A5SS | A3SS | MXE |
TM1 | 9735 | 4605 | 1839 | 2996 | 57 |
At | 4793 | 2353 | 909 | 1488 | 27 |
Dt | 4942 | 2252 | 930 | 1508 | 30 |
A2 | 7874 | 3707 | 1427 | 2391 | 56 |
D5 | 6262 | 2809 | 1172 | 1845 | 48 |
统计对应的基因数目
基因组 | RI | SE | A5SS | A3SS | MXE |
TM1 | 5562 | 3524 | 1506 | 2290 | 53 |
At | 2736 | 1806 | 739 | 1141 | 25 |
Dt | 2826 | 1718 | 767 | 1149 | 28 |
A2 | 4194 | 2638 | 1114 | 1767 | 50 |
D5 | 3559 | 2128 | 943 | 1376 | 41 |
使用阀值对AS进行一遍筛选
high confidence AS event,筛选指标RI >=0.1 ES<=0.9
这里的统计不包括scaffold
基因组 | RI | SE | A5SS | A3SS | MXE |
TM1 | 6953 | 2135 | 1448 | 2489 | 54 |
At | 3452 | 1094 | 732 | 1225 | 26 |
Dt | 3501 | 1041 | 716 | 1264 | 28 |
A2 | 4891 | 1444 | 1149 | 1986 | 54 |
D5 | 4215 | 1076 | 916 | 1565 | 47 |
统计对应的基因数目
基因组 | RI | SE | A5SS | A3SS | MXE |
TM1 | 4175 | 1702 | 1198 | 1953 | 50 |
At | 2068 | 875 | 607 | 964 | 24 |
Dt | 2107 | 827 | 591 | 989 | 28 |
A2 | 2814 | 1086 | 909 | 1500 | 48 |
D5 | 2504 | 850 | 752 | 1191 | 40 |
参考
Last updated