PEER方法

为什么要做这个?

  • 表达数据来源的不一致,可能会引入一些混淆因素(例如环境、批次、样本等其他位置因素)

  • 将现有的调控网络整合进来,从单个基因座来理解调控

最终得到一些隐藏的但是会影响基因表达的factor

1. 得到一些无法测量的,但是会影响基因表达的因素

在鉴定e-QTL时,批次效应会影响e-QTL的鉴定,但是这个批次效应影响的程度是未知的(没有被测量),因此在鉴定e-QTL是就会缺失一部分信息。

如何测量这些影响基因表达的因素?:

  1. 对数据集中每个样品,仅仅估计一小部分的变异,并且假设这些变异有着广泛的影响,并且对每个基因的表达都有一个效应值;把这小部分变异当做批次效应对待,减少假阳性

2.通过基因表达量,学习细胞的特征

eQTL的研究能够鉴定到许多调控热点,这些调控热点以tran的方式与多个基因关联;还有一些变异影响基因的表达的同时,还受到被影响基因的影响例如cis调控。

PEER主要就是能够找到一些影响基因表达的cis factor,并且认为这些variable不再是影响所有基因的表达。

一个变异对其他基因的影响看似为0,除非有它所对应的转录因子target到gene上,才会考虑对基因表达有影响;因此在运行PEER前,就要告诉程序那些因素可以影响哪些对应的基因。这些因素可以是转录因子的信息,或者是调控网络途径等等。这些已知的因素同时可以作为一种表型,来解释一些反式效应。

3.PEER的用法

  1. 基于标准化和预处理后的表达谱,推断一些隐藏的影响基因表达的因素

  2. 通过先验知识,可以将一些因素限制在某些基因集合内

PEER得到的三个数据就可以直接被用作表型,进行e-QTL关联分析;

RNA-seq数据,作者推荐使用方差比较小的数据集(重复性好)

GTEX文献中方法

  1. 针对不同组织,使用PEER获得一些影响基因表达的factors,根据组织样本量的大小,分为了4个等级,在不同等级下选择不同数目的PEER factors。找到的这些factor,与已有的协变量(影响结果的因素)存在相关性。

参考

  1. Using probabilistic estimation of expression residuals (PEER) to obtain increased power and interpretability of gene expression analyses

Last updated