从RNA-seq研究可变剪切

:bullettrain_front: 可变剪切是作为一种增加蛋白组合基因组多样性的机制,在真核生物中广泛存在;在动植物中发现基因的不同剪切方式直接影响了蛋白质的结构和功能,因此鉴定出基因的不同剪切事件更有利于全面的研究基因的功能

可变剪切的产生的假说

  • 通过选择性的增加蛋白质产物来增加蛋白质功能的多样性

  • 作为一种调控机制,调节有功能和无功能转录本的比率,从而控制基因产物的水平

  • 产生空间结构相似的蛋白质参与竞争,从催化剂向抑制剂转变;从而实现功能的多样性

  • 可变剪切的转录本是没有明确的功能的,只是拼接机制中的一种随机噪音

1.概念

将内含子与外显子之间的边界称作为剪切位点,按照它们在内含子两端的位置又分为了供体位点5'剪切位点、受体位点3'剪切位点

1.1 可变剪切的类型

  • 可变供体位点 alternative donor site

  • 可变受体位点 alternative site

  • 内含子保留 intron retention

  • 外显子互斥 mutually exclusive exon

1.1.1 可变供体剪切

例如这里含有D1、D2、D3、A1四个剪切位点,通过改变5'端剪切位点从而影响了上游外显子的长度;这个称为可变供体的剪切方式

1.1.2 可变受体剪切

通过改变3'端的剪切位点,影响下游外显子的长度

1.1.3 内含子保留

完整的内含子有时候被当成外显子中的一段被保留,这样外显子的长度就会发生变化

1.1.4 外显子缺失

2. 数据处理

主要涉及到一些参数和依据的记录

2.1 Tophat

  • 内含子的搜索范围,根据物种的不同设置不同的长度 果蝇 内含子大部分在10kb以下,设置为15kb

  • 比对到的种子区域最多允许一个错配

  • 剪切位点上下游8bp 不允许错配

  • 比对到基因组的位置唯一

在这种条件下,进行两轮比对得到剪切位点,与已知的剪切位点进行比较,发现共有或者新的剪切位点;

统计每个剪切位点中比对到的read数目 虽然只有1条或者2条支持这个剪切位点,但是通过增加测序深度可以进一步确定这个剪切事件的存在,这样说明1条1read的支持也可能是可靠的

3.与其他方法的比较

  • 基于EST方法

    EST是一组CDNA序列,经过克隆后平均长度在300~500bp ;同时EST的数量反应的是生物体某个基因的表达情况

    :warning:由于预测可变剪切依赖于EST序列的质量;但是EST通常不包含完整的转录本信息;这也使得这种方法具有一定的局限性

    cDNA文库没有经过均一化处理,不能够很好的比较不同基因之间的表达丰度

  • 基于芯片技术

Last updated