06

A transcriptome-wide association study of highgrade serous epithelial ovarian cancer identifies new susceptibility genes and splice variants

基于转录组关联分析鉴定卵巢癌中致病基因和剪切变异

GWAS

通过比较和关联两个性状具有差异的群体,获得全基因组范围的SNP;居于连锁不平衡和找到的SNP就可以找到与性状相关的区间;接下来就是在这些区间中找到与性状有直接关系的因果变异

eQTL

单单的从基因的改变到性状发生改变,中间缺失了重要的一环;基因的改变是如何影响性状:

  1. 基因的改变影响mRNA水平

  2. 基因的改变影响蛋白质结构

它指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域

用于鉴定基因型和基因表达之间的关联;从而定位到一个因果变异或者调控区域,与基因的表达之间存在相关性。(将每个SNP与基因的mRNA进行线性回归,在这步之前最主要的就是数据质量过滤,去除掉混杂效应);

回归分析时要对p-value进行多重校验。

使用eQTL数据可以将SNP分为两类:

  1. cis-SNP (基因本身的差异导致mRNA水平变化)

  2. tra-SNP (基因组的其他区域影响该基因的mRNA水平)

存在的问题:

eQTL分析了单个SNP和单个基因表达的相关性,而对于这些关联背后的具体机制仍旧需要探索;找到的eQTL可以作为看出。找出感兴趣基因的DNA调控序列;这个调控序列也有可能并不是之间导致基因表达变化;有两种情况

  1. 鉴定的SNP与致病SNP在同一个LD区间

  2. eQTL只对单个SNP与基因的表达进行回归分析;而忽略掉其他的SNP信息

TWAS(transcriptome-wide association studies )

整合eQTL和GWAS的数据,鉴定那些通过基因表达水平来调控性状的基因。

通过对较小的一组参考样本(eQTL群体),分析基因表达和cis-SNP的相关性;进而在更大的样本中根据SNP的数据来推断基因表达水平。推断得到的所有基因的表达水平作为基因型从而与表型进行关联分析;确定影响性状的显著基因(这里的基因是通过其表达水平来影响性状的)

  1. 对于每个基因,TWAS基于eQTL对群体中每个个体的表达量;来推断这个基因在群体的总表达量

  2. 接下来使用每个基因推断的表达量作为基因型,与表型进行关联。

  3. 通过定位到的靶基因,后续进行实验验证

通过GWAS我们可以在全基因组范围内找到影响性状的遗传变异;而对于这些遗传变异是如何影响个体表型的机制仍旧是未知的。其中最主要的一个现象就是,遗传变异通过影响基因表达来改变性状。

在基因组上哪些SNP会影响基因的表达,这就延伸出了eQTL,通过将SNP与基因表达水平进行关联;找到影响基因表达的SNP;或者说基因的表达就可以通过SNP的特征来描述

那么围绕基因通过表达来影响性状这一假说;通过测量两个群体中基因的表达数据和表型数据;就能很方便的找到影响性状的基因。但是这受限与测序成本和取样的复杂性,往往由于群体规模不够大,关联的效果不够好。

就发展出了TWAS方法,通过eQTL对基因表达和SNP进行训练,从而在一个更大的GWAS群体中利用其中的SNP信息impute出每个个体的表达量信息;之后将基因表达量与性状直接关联;得到控制性状的基因

背景

作者在文中不仅仅通过推断基因的整体表达来进行传统的TWAS,同时基于sQTLs拓展了了TWAS;这里基于的是exon junction在群体的总水平。作者在体外对鉴定到的显著sQTL进行验证,证明了3个剪切基因对性状的重要性。

1.肿瘤发生后调控基因表达的遗传机制

数据来源:

  1. 115份正常卵巢细胞

  2. 70份正常输软管上皮细胞

  3. 394份肿瘤细胞

两个正常细胞都可能是肿瘤细胞的前身。

分别对基因表达和剪切进行SNP的遗传力量化、

、以及不同组织间的遗传相关性。

顺式遗传力

基因500KB附近的SNP所解释的表型方差

顺式遗传相关性

不同组织间,在基因500kb范围内鉴定到的所有SNP累计效应在不同组织间的相关性

首先在所有组织中表达量遗传力和剪切遗传力都很高,0.026和0.021;FTSECs正常细胞与肿瘤细胞有着更高的顺式遗传相关。

两个正常细胞间的遗传力和顺式遗传相关性很高;而与癌症细胞相比降低了;说明癌细胞中控制基因表达的遗传发生了改变。

2.跨队列验证TWAS模型

根据不同组织、是否癌症、剪切作为一个panel;对每个panel训练一个model,避免由于不同组织而引入的混淆效应。

根据cis-遗传力小于0.01则用于TWAS的模型预测,

3.使用TWAS鉴定致病基因

预测得到32个位点,对应18个uniq基因;74个splicing 位点对应17个基因。

4.TWAS鉴定到的新gene

参考

Last updated