intron 分布

有研究表明,IR事件往往导致终止密码子的提前;并且在stree调节下使得IR效率变高从而产生大量正常功能的蛋白质。并且调控IR事件的蛋白质偏向性的结合到GAAGAARNA基序上,这个片段好像和|DNA水平上蛋白的乙酰化有点关系。

  1. 提取发生IntronR事件的isform编号和对应的位置

    awk '$3~/IntronR/{print $0}' end_third |awk '$8~/0\,/{print $1,$2,$3,$4,$5,$6}$8~/\,0/{print $1,$2,$3,$4,$5,$7}' OFS="\t"
  2. 统计发生IntronR事件在基因区域的分布情况,师兄说这个正常的植株的IR分布可能没有想要的趋势,先从单个基因入手看看

    要考虑到正负链的情况,靠近pre-mRNA5‘端的为第一个intron,而靠近3’端的为最后一个intron,只有一个intron被认为是middle intron,就考虑每个基因所有转录本的intron分布

    使用相关性的图来表示,每个位置intron的数目

    参考 https://www.jianshu.com/p/92780c97d0ae

    相关性的图

    使用自己写的脚本AS_isform_analysis.py对内含子在intronR事件中的分布发现,发生intronR的内含子在转录本中的分布是随机的没有什么偏好性,或许后面单个基因的研究会有偏向性。

自己写脚本对IntronR和ExonS的位置和长度信息进行统计

## 部分剪切事件有错误存在intronR_err.log文件里
python ~/scripte/Alternative/AS_isform_analysis.py A2/isform.gff  A2/end_third  A2/Intronstatic2.txt  A2/ExonSstatic.txt >A2/intronR_err.log
python ~/scripte/Alternative/AS_isform_analysis.py D5/isform.gff  D5/end_third  D5/Intronstatic2.txt  D5/ExonSstatic.txt >D5/intronR_err.log
python ~/scripte/Alternative/AS_isform_analysis.py TM-1/isform.gff  TM-1/end_third  TM-1/Intronstatic2.txt  TM-1/ExonSstatic.txt >TM-1/intronR_err.log

统计发生intronR和ExonS的长度分布情况

提取Constitutive intron

Bedtools默认基因组坐标是从0开始的,而基因序列是从1开始的,所以所有的位置都得加1

使用mRNA的整个区域减去exon区域

bedtools模式

提取Constitutive exon

先使用脚本将每个isform的intron区域给提出来,之后再使用Bedtools减去这个intron区域就ok

统计Constitutive Exon与intron的长度与位置信息

比较不同类型exon与intron的甲基化水平差异

将CG碱基数目进行标准化,然后计算 CG methylation ratio ,如果那段序列没有CG碱基,则不用它

画图数据

2019-12-21

甲基化水平的计算换了一种方式

由于测序深度的原因,一些甲基化的CG碱基可能没有被测到但是在计算的时候分母就会被认为的放大了。

使用bedtools intersect 对甲基化文件和intron文件取交集,之前跑的多重检验就认为只有p-value达到了1e-5就可以了

绘制ggplot数据

用bin去扫描intron区域与上下游各200bp

CpG甲基化差异

对CHG和CHH甲基化类型作同样的操作

CHG甲基化的差异
CHH

参考

Last updated

Was this helpful?