Measuring and interpreting transposable element expression

转座子作为一种插入突变,增加了基因组的可塑性,影响物种的进化与驯化,同时对个体的生理或者疾病产生影响。对转座子表达的测定不仅能帮助我们了解到转座子活跃的时间和位置,同时理解TE的表达是如何改变基因的表达、染色质的可及性及细胞信号途径。通过RNA-seq的全基因组转录组分析来看,大多数计算工具会把TE驱动的表达进行丢弃或者误判。随着对于鉴定转座子表达的技术不断改进,发现TE在嵌合基因、普通转录本、TE驱动的转录本中均具有活性。本文将围绕转录子的表达进行讨论,主要包括转座子的比对、插入以及序列高度重复,不同转录子转录图谱的差异。

本文将主要围绕以下几点进行综述

  1. TE的自身特性阻碍对TE表达的研究

  2. 对于TE表达测定和验证的实验技术

  3. 对于新算法和长片段测序技术在TE研究应用中的展望。

背景

转座子是一种可移动的基因元件,占据真核生物基因组的大部分;在线虫中占据12%而在玉米中达到85%之多。

基因组的大小很大程度上反应了转座子的复制情况

转座子是导致插入突变产生的主要原因,是基因组进化的主要动力。它们对宿主适应性、疾病的影响已经广泛被报道。

转座子类型的区分主要在它们的复制方式上的差异,其中最主要的区别就是逆转录转座子和DNA转座子。

逆转录转座子:

  1. TE进行转录

  2. RNA模板可以进行翻译形成逆转录蛋白和形成一份新的D'NA拷贝,从而插入到宿组基因组中。

DNA转座子:

  1. 转录对于DNA转座子同样很重要

  2. 转录出转座酶用于切割和对转座子的重新整合

因此转录活性都是两种转座子的移动的前提。

转座子与进化

许多转座子是一种分子化石,是几百万年前转座子浪潮的遗留产物。例如一些古老的转座子中,积累了一些截断或者使其失去活性的突变,导致其在现在的基因组中不能够移动了;但是仍旧可以进行转录。可能会对宿主基因组产生潜在的影响。例如有些转座子通过自身的转录表达,从而影响TE的复制和插入,从而调节基因的表达和染色质的可及性。

在大多数例子中,长转座子的表达通常是由内部的启动子所驱动;并且这个启动子随着转座子一起移动,从而确保其在所插入的位置能够表达,不依赖于其他启动子。然而由于转座子同时还能够携带多种顺式调节元件,例如启动子、剪接受体和供体位点,多聚腺苷酸化位点等;当被片段化后插入到基因区域是它的表达与基因的表达通常交织在一起。因此这种自主的TE单元经常与其多插入的基因出现共转录的现象。

总的来说,TE在基因组内是重复且分散的分布着,并且许多转座子与基因发生重叠,从而使得转座子可以通过TE自带的启动子或者基因的启动子,启动TE的转录,形成复杂的转座子转录起始。这种特效也阻碍了通过基因的表达来分析TE的表达,例如传统的(RT-qPCRs,RNA-seq等)。然而随着,多组学的研究、测序技术的发展以及算法的改进,进一步能够准确的量化TE的表达。

TEs的一些特征

​ 1.TE序列是高度重复且在基因组分布广泛的,当整合到一个基因组时,它新产生的TE与其原来的TE具有相同的来源、祖先和拷贝。但是两个TE之间的序列还是会有所差异,由于缺乏正向选择,TE之间会由于随机突变或者其他形式的改变而发生变化。

因此可以通过比较同一个TE family中突变的多少。判断它在进化中的时间。分为young and old family;但是这个在不同物种间是相对的。例如在人类中L1转座子是一个young的转座子家族,而在灵长类动物中L1大约3~200百万年前完成扩张。

在不同物种中,同一个转座子家族活跃的转座子数目,以及转座子内活跃的祖先转座子数目是存在差异的

​ 在人类中只有年轻的转座子类型Alu、L1和SVA(逆转录转座子),仍旧保持活跃;然而Alu和SVA是非编码转座子,依赖于L1编码出逆转录酶;并且在人类基因组成千上万的L1转座子中,只有80-100个L1具有转录活性。哺乳动物中大多数逆转座子在转座子浪潮中进行扩张,然而对应的祖先转座子后来被沉默和发生突变。

​ 在其他物种中,许多转座子家族似乎都同时保持活跃。但是在果蝇中当转座家族的拷贝数没有人类中多,可能是其形成的时间较短同时基因组正经历快速扩张的过程。

​ 总的来说,old转座子,累积了很多突变,在进货过程中发生了分化而变得独一无二;而young的转座子具有很多个拷贝。

​ 2.转座子在不同物种中是具有多态性;转座子的活跃会在有限的群体或者物种中的同一个位点形成转座子的差异,导致转座子的出现或者缺失;甚至只会在单个个体中出现。例如在人类中约20%的可遗传的结构变异是由新转座子的插入导致的,仅仅L1转座子在两个个体间就存着285个位点的不同。这种多态性在植物、动物群体都是相当多的。

​ 在拟南芥中,TE是比较活跃的,几百个TE家族存着几千中插入的多态性。并且如果TE在群体里面多态性比较低,也可以认为他们可能是种群内最近形成的插入事件。TE的移动受到环境、遗传因素以及选择亚的作用,并且具有有害的作用跟疾病的发生有关。

​ 3.转座子的转录本是具有多样性的。转座子的转录本被当做逆转录过程中的模板。因此逆转座子转录也是逆转座过程的起点。TE合成的RNA也被称作为全长的基因组转录本。在LTRs或者ERVs(内源逆转录病毒)内部包含启动子,通过招募RNA聚合酶II,起始TE的转录,或者位于LINEs转座子上游的5‘UTR区域。转座子可以在识别到位于LTR 3’区域的多聚腺苷酸信号后,终止TE的转录;但有时候终止也会发生在下游的侧翼序列上。因此转座子延伸的长度将取决于转座子中多聚腺苷酸位点的长度。

3‘端可变的TE转录,会导致转座子侧翼的序列随着转座一同被插入到新的位置,TE 5‘端侧翼出现的启动子也会产生导致这种现象,称之为5'|3' 的transduction

3.1短的TE转录本: 与全长的逆转录RNA相比,短的TE转录本可以通过提前的多聚腺苷酸化或者剪接产生。例如人类中L1转座子,可以通过剪接产生具有核酸内切酶和逆转录酶活性的ORF2p蛋白。

3.2TE内部包含完整的启动子:转座子自主转座的能力依赖于其包含有完整的启动子,然而逆转座子的5'端由于DNA修复机制的存在,经常发生截断。也有可能在逆转录的过程中对5'UTR的剪切而使得,转座子启动子的丧失;染色体的同源重组导致转座子启动子和编码区的分离。

3.3TE嵌合到基因中: 基因和TE的整合使得逆转座子的转录图谱更加复杂,导致在成熟的mRNA中包含TE的片段或者完整的TE序列。单个LTRs和L1启动子通常会驱动lncRNA的合成,同时与剪接事件结合导致嵌合转录本的产生。因此当检测到TE表达发生明显改变的时候,也有可能是TE所插入的基因表达量的变化。在人类中99%的L1-RNA是通过与基因共转录产生的,其所产生的RNA可能和lncRNA、enhancer-RNA产生有关。

3.4双链TE RNA: 可能会抑制基因的表达、沉默转座子的扩增。

4.测量转座子的表达

​ 对于TE的生物学的研究,通常包括TE中具有动员能力的部分是否已经表达,是否会导致新的插入的产生,是否对基因的功能有影响,以及是否会合成一些生物物质例如dsRNA、smallRNA或者TE蛋白。

4.1常规测定TE表达量的方法

​ 虽然测序技术快速发展,但是常规额分子生物途径能够提供全基因组测序所不能得到的信息。

使用RT-qPCR是常见的用于检测TE转录水平的方法,但仍旧还具有一定的局限性。

  • 提取的RNA中就包含mRNA、TE自主转录和被动转录的混合物。

  • 对TE设计引物比较困难

  • 扩增的片段序列信息是未知的,因为TE的多个拷贝之间可能存在突变和截断

报告基因的插入可以用于检测单个TE的表达

4.2检测TE蛋白质

转座子内部的突变,会导致TE不能翻译出正常功能的蛋白,从而限制了TE的移动。经常通过western bloting或者免疫荧光技术,来评估TE的蛋白质表达水平。但是存在潜在的交叉反应,由于TE在同一个家族内部是高度同源的。

全基因组水平分析TE的表达

由于很难针对TE设计短的特异性的探针,因此很难利用基因芯片来检测TE的表达水平。虽然有二代高通量测序技术的存在,但是还是不能够以基因表达的方式分析转录子的表达。在使用全基因组水平的计算工具时,要根据TE的多态性考虑到read比对的重复性情况,比对的位点是否是特异性的。

  • 能够区分自转录还是共转录

  • 发现和量化嵌合转录本

  • 分析由TE驱动的dsRNA、sRNA的表达水平

5.1比对

TE都是重复序列,同时在进化过程中TE家族成员之间高度相似,导致short read会比对到基因组的多个区域中。

简单的方法就是只保留uniq 比对的reads,然后对TE家族中的read汇总;

但这也只能估计一下old TE的表达水平;它会大大的消除一下young TE的信号;因此这种方法也只能检测到TE的存在而不能够衡量它的表达水平。

最好的解决办法就是增加测序read的长度。

例如使用双端测序read,当时使用100bp的单端测序时大约能比对到88%的TE区域,2x100这个比例会更高一些。

Last updated