Co-expression networks reveal the tissue-specific regulation of transcription and splicing

大多数共表达网络都是在单个组织中测量基因表达水平的相关性;文章中建立了一个新的网络通过对不同转录本丰度的衡量,来捕获转录后调控;以及组织间特异性的调控。

  • 449个个体的50份组织的RNA-seq数据

基于这些数据将基因总的表达、转录本表达的相对丰度放到同一个网络中,用于捕获转录调控和剪切调控。

在网络中存在一些hubs,这些基因富集在splicing调控和RNA binding。使用贝叶斯方法,得到组织特异性的网络。

1.构建TWN网络

在文中,作者使用基因的总表达水平、每个转录本的相对比值作为node;探讨转录调控和splicing调控对基因表达的影响;因为转录调控既会影响基因的总表达量也会影响每个isoform的表达水平,splicing影响转录本的ratio;将这两种调控区分开来了。而在标准的isoform 网络是仅仅以转录本的表达量来推断splicing调控。

在这个网络中转录因子只与它所靶向的TE(total express)相连;而SF(splice factor)则只会与目标 isoform 相连。

  1. 首先将TE和IR进行标准化

  2. 基于图论的lasso估计每条边的权重

  3. 使用稀疏的高斯马尔科夫随机场估计任意两个节点间的关系

对应16个tissues(存在至少200份样本),建立了16个TWNs;

根据基因的表达水平、isoform的多样性,对所有节点进行了筛选;得到了6000个TE节点、9000个IR节点;在进行lasso前使用HCP去除混杂效应;得到edges后,去除一些没有生物学意义的edges

根据连接节点的不同将edges分类:

  1. TE-TE

  2. TE-IR

  3. IR-IR

根据阀值edges>10将节点分为Hubs 节点:

  1. TE-TE

  2. IR-TE

  3. TE-IR

  4. IR-IR

构建一个这样的共表达网络需要估计大量的未知参数;因此就需要使用其他的数据集进行验证网络的可靠性,因此作者比较了两个数据集所鉴定到的edges是否存在重叠。使用ARACNE的方法同样可以重复edges;表明这个网络的鲁棒性。

2.TWN中hubs节点的生物学功能

Hubs节点对应的基因可能存在重要的生物学功能,从四种Hubs节点类型推算其对应的功能。

  1. TE-IR hub node可能反应调节AS的基因

找一些top hubs 节点;为了避免基因不同转录本数目对于edges的影响;使用uniq gene对来代表节点的中心度。对每个组织中的top Hubs进行GO富集分析

在不同组织间的regulatory relationship是shared;通过分析多个组织间共有的TE-IR hubs发现这些基因GO的富集程度更加显著

3.基因共表达以及isoform ratio反应生物学功能

有相似功能的基因或者参与到同一个途径,它们的表达模式存在相关性。而基因间不同转录本表达丰度的相关性,还没有被研究;这种剪切调控在功能相关的基因间是否同样具有联系。

最开始的研究,关注与特点组织、特定时期;基因剪切调控的相关性。

在这里,作者分别评估了所有16个组织中这种关联。

例如在两个不同的基因中,存在大量的IR-IR edges;发现它们参与到相同的代谢途径。

两个基因间存在很多edges时,表明它们参与到同样的代谢途径中;基于这个就可以用来使用TWN来预测基因的功能。

4.组织特异性的TWNs

在分别对每个组织中的TWNs进行评估后,使用Kendall's 方法分析两个组织间TWN的相似度。通过鉴定发现一些组织特异性的hubs对应的基因,就已经被报道是组织中特异性的。

得到组织特异性的hubs,组织中前100个hubs,并且没有出现在其他组织中的前500 hubs中。不同类型的hubs,特异性的比例有些存在差异。

在69.87%的组织特异性edges中,对应的nodes在组织间差异表达;而仍旧有些特异性边界的node,在组织间没有差异表达;说明组织间特异性的边界不仅仅是由于基因表达水平的差异导致的。

5.通过组织间特异性的TWN鉴定组织间特异的共表达

每个组织中的TWN中不仅仅包含了组织间特异的也有组织间共享的基因共调控关系;如果不进行区分的话,反应的就是一个组织中完整的基因调控网络。因此为了找出组织间特异的共调控关系,这里构建了组织特异的调控网络,将50个组织全都加入网络中。将基因的表达水平分为了组织间特异的和组织间共享的,使用贝叶斯双聚类模型构建这样一个网络,这里的网络节点用的是基因的总表达量。

同时将这些tissues分为了10大类;在group内组织间存在接近的表达模式;因此可以用组织特异性的edges来区分相似的组织和不同的组织。

6.对TSNs的功能分析

使用GO terms评估 TSN的生物学功能,通过分析发现26个TSNs中有21个TSNs显著的富集了组织特异性的GO term。接下来对组织特异性的TSN所对应的hubs分为3个等级。small 、large 这些hubs都没有富集到一些组装特异性的TFs,可能是由TF因子会影响下游很多基因,因子在多个组织中都被捕获,或者广泛的转录因子信号会被当做混杂效应而消除掉。

7.整合TWNs与遗传变异

在TWNs和TSNs中只用到了基因表达量的数据,而对于其中基因型的数据没有使用。在这此,作者整合网络鉴定到的edges和eQTL关联分析的结果,提高检测造成基因表达量变化的反式遗传效应的能力。

将每个基因的cis-eQTL与它的neighbor的表达数据进行关联;说明相连基因间存在因果关系。

通过QTL分析,对TE-IR hub中的TE基因找到61个反式QTL,86个cis-QTL位点。

图6A,其中TMEM160这个Top TE-IR hub

对于TWNs和TSNs,作者通过提取前500个TE-IR hubs 对应基因(这个基因是作为SF去调控其他基因的剪切的,因此它所鉴定的SNP就是其所调控基因的trans-sQTLs)的20kb范围的SNP作为基因型数据,与其对应的neighbor isoform ratios(位于不同的染色体)进行关联分析;鉴定到58个 反式sQTLs。

Last updated