通过比较和关联两个性状具有差异的群体,获得全基因组范围的SNP;居于连锁不平衡和找到的SNP就可以找到与性状相关的区间;接下来就是在这些区间中找到与性状有直接关系的因果变异
单单的从基因的改变到性状发生改变,中间缺失了重要的一环;基因的改变是如何影响性状:
它指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域
用于鉴定基因型和基因表达之间的关联;从而定位到一个因果变异或者调控区域,与基因的表达之间存在相关性。(将每个SNP与基因的mRNA进行线性回归,在这步之前最主要的就是数据质量过滤,去除掉混杂效应);
回归分析时要对p-value进行多重校验。
使用eQTL数据可以将SNP分为两类:
cis-SNP (基因本身的差异导致mRNA水平变化)
tra-SNP (基因组的其他区域影响该基因的mRNA水平)
存在的问题:
eQTL分析了单个SNP和单个基因表达的相关性,而对于这些关联背后的具体机制仍旧需要探索;找到的eQTL可以作为看出。找出感兴趣基因的DNA调控序列;这个调控序列也有可能并不是之间导致基因表达变化;有两种情况
eQTL只对单个SNP与基因的表达进行回归分析;而忽略掉其他的SNP信息
整合eQTL和GWAS的数据,鉴定那些通过基因表达水平来调控性状的基因。
通过对较小的一组参考样本(eQTL群体),分析基因表达和cis-SNP的相关性;进而在更大的样本中根据SNP的数据来推断基因表达水平。推断得到的所有基因的表达水平作为基因型从而与表型进行关联分析;确定影响性状的显著基因(这里的基因是通过其表达水平来影响性状的)
对于每个基因,TWAS基于eQTL对群体中每个个体的表达量;来推断这个基因在群体的总表达量
接下来使用每个基因推断的表达量作为基因型,与表型进行关联。
通过GWAS我们可以在全基因组范围内找到影响性状的遗传变异;而对于这些遗传变异是如何影响个体表型的机制仍旧是未知的。其中最主要的一个现象就是,遗传变异通过影响基因表达来改变性状。
在基因组上哪些SNP会影响基因的表达,这就延伸出了eQTL,通过将SNP与基因表达水平进行关联;找到影响基因表达的SNP;或者说基因的表达就可以通过SNP的特征来描述
那么围绕基因通过表达来影响性状这一假说;通过测量两个群体中基因的表达数据和表型数据;就能很方便的找到影响性状的基因。但是这受限与测序成本和取样的复杂性,往往由于群体规模不够大,关联的效果不够好。
就发展出了TWAS方法,通过eQTL对基因表达和SNP进行训练,从而在一个更大的GWAS群体中利用其中的SNP信息impute出每个个体的表达量信息;之后将基因表达量与性状直接关联;得到控制性状的基因
作者在文中不仅仅通过推断基因的整体表达来进行传统的TWAS,同时基于sQTLs拓展了了TWAS;这里基于的是exon junction在群体的总水平。作者在体外对鉴定到的显著sQTL进行验证,证明了3个剪切基因对性状的重要性。
不同组织间,在基因500kb范围内鉴定到的所有SNP累计效应在不同组织间的相关性