翻译综述

  1. Opportunities and challenges for transcriptomewide association studies

  2. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture

  3. Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield

Deconstructing the sources of genotype-phenotype associations in humans

Abstract

最近几十年以来,将人类基因组中的变异与表型变异进行关联已经取得了巨大的成就。在人类中,大多数性状受到整个基因组上大量的遗传变异的影响。为了阐明它们之间的关联,并且以可靠的方式去使用这些数据,尤其是可以用来做表型推断。因此必须要进一步的理解基因型和表型之间的关联。作者总结了一些在人类中的研究进展,尤其是将遗传效应解构为直接、间接遗传效应和由于群体结构产生的混淆效应。作者对关于下一步如何进行数据的收集和方法的开发进行了讨论,以及通过分析近亲的基因型和表型数据,从中能够获得到什么。

Background

在不久之前,遗传学的分析是通过使用家系中表型数据,而没有使用遗传数据。在基因组上可靠的和能够测量的标记的发现,使得能够通过连锁分析来鉴定致病基因,而不需要提前知道其中的潜在机制。通过这种方法,1986年鉴定到X连锁吞噬障碍慢性肉芽肿病的基因,紧接着像一些孟德尔类型的疾病,囊性纤维化、亨廷顿舞蹈病和乳腺癌基因也都被鉴定出来。这种方法也被应用到鉴定复杂疾病上,例如2型糖尿病;但不能够得到可靠的结果。

技术的第二次革命,是通过高通量测序技术来测量SNP阵列,能够同时测量数十万计的SNP,从而发展了全基因组关联学习的技术。GWAS在没有家系数据的情况下,对每个SNP和表型之间建立关联。GWAS成功的一个案例就是,通过分析96个病例与50个对照数据,发现了一个与年龄相关的黄斑变性病的基因CFH。通过进一步的增加样本的大小,有的甚至超过2百万,发现了数千种能够影响人类性状的遗传变异。因此GWAS有望于鉴定新的药物靶标,或者是其他的应用。

在GWAS的分析中,能否鉴定出影响性状的SNP,取决于SNP能够解释性状的比例,它随着效应的大小和异质性的平方成比例的增加。对于一些比较常见的变异,异质性都很高,起初GWAS的成功,主要是因为大量变异的等位基因都超过5%。即使没有直接分析常见的变异,它也可能会与附近的SNP高度相关,因为他们之间缺少祖先重组事件。这种相关也被称作为局部连锁不平衡。如果变异之间不是局部的连锁不平衡,也就是物理距离上不相邻,也会导致非随机性的交配。GWAS通过使用局部LD,来确定致病基因在基因组上的大致位置,而不是直接鉴定致病基因。精细定位被用来鉴定致病基因,并且需要功能上的分析与实验验证。

通过GWAS分析,发现的大多数影响疾病的变异,由低到中等的效应。在整个外显子组水平或者全基因组水平应用GWAS,以及在基因分型的SNP阵列中,对序列水平的变异进行统计推断,能够发现一些具有大效应的稀有变异。虽然在全基因组水平上,能够解释性状变异的显著性位点有所增加,但是对于大多数复杂性状,解释变异的程度只占到了被估计遗传力的一小部分。这其中的差距也被称之为缺失的遗传力

对于大多数复杂性状来说,鉴定出所有的致病变异,阐明它们的致病机理仍旧是一个长远的目标。然而GWAS的数据能够被用来预测表型,尤其是一些受到多基因控制的疾病。对于单个个体来说,结合多个基因的评分和估计的遗传效应,能够得到一个预测的性状指标。PGS(多基因效应评分)得到了许多应用,例如鉴定出有患心脏病风险的个体。尽管PGS的方法存在一定的价值,但仍旧要考虑鲁棒性的问题(即使在粗鲁的条件下仍旧稳定)和可解释性。

众所周知的是,在GWAS分析中关联会存在偏差,由于种群分层,与祖先或者环境效应存在关联。通过调整血统,同时进行重复实验,确保大多数GWAS的结果是真的阳性结果。但这并不意味着偏差就会被消除,或者基因型和表型之间的关联就能够得到恰当的表征。在这里我们的目的是列举出一些导致基因型和表型关联的因素,和其中的困难以及提出一些可能的解决办法。

通过GWAS捕获的效应

遗传变异和表型之间的关联,能够被解构对性状有直接影响的遗传效应和对性状有非直接遗传效应的变异和产生混淆效应的变异。例如受教育程度就是一种具有直接效应的变异,而父母的行为和习惯则是一种非直接效应。同样一种变异可能由于父母的行为和习惯变成对健康有间接的效应。直接效应就涵盖许多致病途径,例如一些复杂的直接效应。例如CHRNA5 与吸烟量有关,能够影响患肺癌的风险。除此之外,直接效应还包括处于局部LD区域的其他变异所带来的影响。值得注意的是,经典的GWAS没有使用家系数据,只能够估计直接效应与间接效应之和,而不是分别估计对应的效应。

在加性模型条件下结合所有变异的效应,将遗传成分定义为所有因果变异的线性组合,其中的权重与真实的效应成正比。遗传组分中的直接效应和间接效应是不一样的,但它们可能会高度相关,这取决于感兴趣的表型与间接效应介导的表型之间的相关性。例如受教育程度这个性状中,直接效应和间接效应就存在很高的相关性,而体重指数中的直接效应和间接效应直接的相关性就比较弱。直接效应和间接效应的大小,以及两者的相关性最终决定了综合遗传成分。由于基于经典的GWAS方法的PGS,使用的是结合效应,有时候它比仅仅只使用直接效应表现更加好。

遗传效应由于多效性,会导致性状之间的关联。在多效性的两个性状的模型中,综合效应就包括三种:两个性状各自的综合效应,和它们之间的相关性。使用GWAS的数据能够对多对性状之间的相关性进行估计。将直接效应与间接效应分开的模型中,就包括10个参数,来自两个性状各自的直接效应与间接效应,和它们相互之间的相关效应。使用标准的GWAS时不能够完整的解析模型,因此大家现在对于哪个直接效应或者间接效应导致不同的多效应仍旧是不清楚的。

混淆效应

在某种程度上,遗传变异与表型的相关程度受到其他的致病因素的影响,从而使得捕获的不是真正的与表型相关的因果的SNP。这种混淆的类型的出现是由于种群内部存在非随机的交配而产生的群体结构导致的。GWAS中就包括至少3种不同来源的混淆效应。

  1. 环境带来的混淆:等位基因频率和环境效应在不同的地里位置或者亚群中以相关的方式改变。

  2. 遗传混淆:在不同亚群中等位基因频率不相同,并且与其他具有因果效应的等位基因的频率存在相关性。

  3. 分类交配带来的混淆:当一个性状是分类交配的,一个变异在一个性状上具有致病效应,同时与其他具有因果效应的变异关联,这个变异与性状关联时,就捕获它自己的因果效应加上一部分其他变异的效应。

这些混淆效应在概念上是不同的,但是通常它们常常交织在一起。

调整GWAS中的混淆效应

主成分分析通常被用来去除一些由于群体结构所带来的的混淆效应。理想条件下,用于调整的主要成分与环境带来的混淆效应成分高度相关,而与直接遗传效应成分不相关。如果直接效应成分与混淆效应成分相关,主成分调整的方法会将一些直接遗传效应当做混淆效应移除掉。

从本质上讲,分类交配带来的混淆效应组分与直接、间接组分之和是高度相关的。例如像身高、受教育程度,这种受到分类交配的性状,就会导致其中的一些变异与直接或间接效应存在非局部的LD,而被PC捕获。因此理论上,主成分分析的方法,会去除大多数直接效应组分。但事实上,这种事情并没有发生。即使在一个非常大的样本中,从PCs中推断出的大多数仍旧可能是噪音,而不是强的信号。从UKB样本中也强调了这一观点。从一个包含272,519个个体的样本中,PC计算的结果超过前八个信号最强的组成分,并且主要是由于采样的噪音和染色体内部带来的局部LD。这个噪音会掩盖掉一些导致GWAS中产生混淆的细微群体结构的信号,即使是在PC调整之后。

拟合线性混合模型LMMS是PC调整的另一个选择。这个方法将一组SNP进行回归,并且每个SNP的效应被建模为随机效应。在动物育种过程中,LMMS一直诶用来进行性状的预测。在人类的研究中,LMMS在将一组SNPs建模为随机效应的时候,通常将焦点SNP所带来的的效应作为固定效应。原始的LMM方法计算量与样本大小的三次方成正比,因此可替代的计算方法已经被开发出来用于处理GWAS中大的样本数据集。

LMMs吸引人的地方在于,它能够改善种群分层和样本之间的相关性。LMMs通常与PCA结合起来使用,通过对几乎所有可测量的SNPs进行建模,捕获真实的遗传效应和种群分层效应,来解析更加复杂的分层模式。除此之外,在样本之间存在相关性的条件下,与线性回归相比LMM的方法改进SNP效应的估计,改进由于抽样带来的误差。LMMs同样可以减少由于分类交配所带来的偏差的SNP效应。但是,现在LMM和GWAS方法不能够移除由于间接遗传效应所带来的影响。

使用家族中的基因型数据

在父母的基因型给定后,后代的基因型在减数分裂遗传物质的随机分离的过程中被确定。这种随机分离是与双亲的间接遗传效应、其他的混淆效应不相关的。因此父母的基因型能够无偏差的估计直接遗传效应。同样的兄弟姐妹之间的遗传差异是由于父母减数分裂过程中孟德尔随机分离的结果。因此兄弟姐妹间的遗传差异没有混杂父母的间接遗传效应、种群的分层和分类交配。因此,在兄弟姐妹中估计直接遗传效应时,通过减去各自的间接效应,来对直接效应进行无偏差的估计,当然仅当这种间接遗传效应为零的时候,估计的直接效应才是无偏差的。在动物的育种中,对间接遗传效应已经有了很长时间的研究。在人类中,大多数研究间接遗传效应的时候,使用来自GWAS中的PGS,这种方法没有将直接效应与间接效应区分开来。然而,当直接效应与间接效应没有完全相关的时候,这种方法不能够展现全貌。理想情况下,GWAS应该使用兄弟和父母的基因型数据作为对照,同时结合间接遗传效应的方法。然而这种方法仍然具有局限性,因子在大样本中父母、兄弟的基因型数据各不相同。除此之外,群体中大约只有一半的遗传变异是在家庭内部的,因此要想获得与标准GWAS相同的效果就需要更大的家族样本数据。

遗传力

传统的遗传力的估计是通过比较同卵双胞胎和异卵双胞胎之间的相关性。除了识别特定的因果基因座之外,还可以使用GWAS的数据来估计表型的变异,这种变异能够被SNP所解释,也被称作为SNP遗传力。对SNP遗传力的估计表明,通过基因型阵列收集的一些常见的SNP相比于GWAS能够解释更多的表型变异。然而,SNP遗传力的估计值往往远低于双胞胎研究中估计的遗传值,这也是遗传力缺失中的一部分问题。有时候通过典型的基因分型阵列来推断一些不是出于高度LD区域的标记,能够解释一些差异,但不能够完全的解释。其中的一个可能就是剩下的大部分缺失的遗传力是由少部分稀有的变异所解释。

一种广泛使用的方法GREML,通过测定表型之间相似度与基因组上遗传相似度之间的关联程度。这种方法通过结合先验等位基因的直接和间接效应,来对估计的总的变异进行解释。但是对于间接遗传效应或种群分层对SNP遗传力的贡献程度是未知的。家族内或者家族间的分类交配而产生的遗传力也是没有偏向性的。

同样需要注意的是,在经典的遗传力的定义中仅仅只涉及到了直接遗传效应;而总的变异是要受到直接效应和间接效应共同解释的。然而这也是一个有趣的参数,因为它定义了先验等位基因的遗传上边界。

最近一些方法学的发展

随着GWAS研究爆炸性的增长,许多方法被开发出来用于更好的使用和理解结果。值得注意的是,LD评分回归被开发用于在GWAS统计测验中区分由于种群分层带来的混淆效应和因果效应。假如在多个基因的结构中对单个SNP进行LD评分时,往往值会增加由于与因果变异之间相关性的增加。然而由于种群分层的存在,所有SNP的平均检验量被提高,造成这种差异的原因是由于亚群中等位基因之间存在相关性,性状的平均值存在差异。通过估计由于种群结构产生的混淆效应导致统计平均提高的水平,LDSC估计的方法能够用来调整GWAS的统计测验。LDSC方法同样可以被用来估计SNP在不同性状之间的相关性,从不同功能和类型的变异中划分SNP贡献的遗传力,进一步促进多元分析。

在LDSC分析中一个关键的假设就是不同亚群中等位基因频率的差异与LD score是独立的。然而可能由于背景选择的存在,会导致两者存在关联。因此LDSC测量种群分层导致的偏差的方法,结果的可信程度仍旧是一个问题。

孟德尔随机交配

在流行病学的研究中,孟德尔随机交配的方法通过利用遗传数据来提高对因果变异的推断。如果一个遗传变异影响性状A,性状A又影响性状B,会认为这个遗传变异能够影响性状B。因此可以通过影响性状A的变异来确定性状A与性状B的关联,也反应了性状A对性状B的因果影响;因为遗传变异仅仅只通过对性状A的影响来影响B与其他混淆因子不相关。

MR通常依赖于,从GWAS中估计得到的SNP效应;但是这个效应往往会由于种群分层、近亲中间接效应和分类交配带来一定的偏差。通过使用家庭内的数据,MR方法被提出来解决这个问题,表明以前MR估计的身高、BMI和EA受教育可能是虚假的。

MR分析的另一个挑战就是广泛的多态性,如果一个SNP通过一个性状影响性状B而不是通过性状A;这种方法就不能有效的推断性状A对性状B的因果效应。虽然已经有方法被开发出用来解决这个问题,其有效性可能取决于有关混淆效应的先验知识。

基因与环境相互作用

在不同个体中,当遗传变异在不同环境条件下对性状的影响不同时,可能是由于基因与环境之间互作的发生。基因与环境互作的概念与基因、环境之间相关的概念是不一样的,例如基因与环境互作可能是由于亲戚们带来的间接效应。在人类中,除了药用基因组学外很少能够复制出基因与环境之间的互作。

在GWAS研究中检测基因与环境之间的互作只有很少的成效,是由于效应的大小比较小和多重测试的负担。增加效果的另外一种方式就是通过寻找环境因子和PGS之间的互作。这种方式很有效果,当影响性状的遗传变异与环境因子以相同的方式发生互作。但是不能够具体到哪个遗传变异与环境因子发了互作。LMMs的方法能够应用在检测那些由于基因组上的变异与环境发生互作而产生的表型变异的组分,但仍旧不能够确定是哪一个特定的遗传变异。能够与环境相互作用而影响性状变异的遗传变异,能够减少变异交互的潜在空间。然而方法的挑战仍旧存在,遗传变异和环境交互对表型变异的影响仍旧受到测量的规模、种群分层。进一步的来说,基因与环境之间互作的效应可能很难被估计,由于这个交互可能是由于不可测量的环境因子与可测量的环境因子相关联。

可移植的表型预测

基于PGS对表型进行预测的准确性,依赖于性状的遗传力和GWAS的效果。对PGS性状预测的精度可能会降低,因为GWAS不会鉴定因果位点,而是出于局部LD区域的一系列的因果位点;而群体组成的历史将会影响LD,在当前群体中出现的LD可能在另外一个群体不会出现。最近的研究表明GWAS祖先群体不同的情况下,大多数性状的R2值都有所增加。除了等位基因频率、LD的差异 其他因素同样会导致PGS预测准确性的下降,例如在不同群体中环境变异的差异、不同的选择标准、不同群体中表型测量的差异。 由于基因与基因的互作、基因与环境的互作,变异所带来的效应大小可能会有差异。因此,解构GWAS中的自然信号来鉴定到底是哪种效应提供了更加广泛的预测能力。

展望

对于许多复杂性状,GWAS研究已经改变了遗传研究的局面和我们对于遗传结构的认识。之前没有单个可靠的已经复制的关联,现在具有成千上万种具有强烈关联的变异。值得注意的是,GWAS不需要家庭数据,因此也有利于收集大量的样本。然而在最近的研究中,由于家庭数据的独特属性又被带回了研究前沿。另一方面,一些有着比较强效应的比较罕见变异也仅仅出现在家系中。最重要的是,更加深入和微妙的问题就是,家庭三代的数据需要用来区分直接效应、间接效应和混淆效应。从统计学上讲,自然的扩展也就是研究单元从个体拓展到家庭中。值得注意的是,随着样本量的增加、种群更大比例的采样;将会不可避免的采集到一些近亲数据。

剩下的挑战就是研究偏倚性的问题,当研究的样本与人群系统不同时就会出现这种偏倚的情况。在这方面特别重要的就是考虑到基因与环境之间的互动,这种互动不仅仅是空间上的互动还有随着时间的流动。这些考虑因素适用于影响选择压力的健康特征,与教育相关的特征和生育特征。出于这些考虑,采样的过程中需要对来自不同祖先、不同环境条件下进行采样并且尽可能的收集多代数据。

参考

Last updated