🎨
booknote
  • Zpliu'Booknote
  • ggplot2
    • 不继承原有数据
    • Untitled Folder 1
      • 直方图绘制
    • 02基于Github笔记实现
    • 回归分析
    • 饼图
    • Theme函数
    • 直方图
    • 分面
    • pheatmap
    • 折线图
    • 桑基图
    • GO富集分析图
    • jupyter内使用R
    • 维恩图
    • 自定义图例
    • ggridges 山峦图
    • GO气泡图
    • 散点图
    • 从数据框中计算频率
    • 箱型图
  • 前端操作
    • 实例练习
      • 动态搜索网页
        • 后端
          • Node 服务框架
          • primer数据表的增删改查
          • 前端post请求
          • login 验证
          • Vue模板
            • Vue-router前端渲染
            • main.vue
          • 基于cookie登录验证
          • 使用mysql包进行数据库的交互
          • 数据库表
            • 学生信息表
            • 用户登录表
            • mysql 事务
            • 教师表
            • 引物表
          • mysql服务
          • html模板页面
            • 错误模板页
          • 08文件上传与下载
        • 解决webpack打包后文件过大问题
        • 前端
          • vue
            • 基于element-ui框架
            • 06 个人主页
            • 08上传组件el-upload
            • element-ui
            • Vue 构建前端框架
            • login登录界面
            • 07表格多选
            • show-data页面
          • vue-cookie
          • vue-router
            • 路由组件传参
        • Appach代理服务转发node
      • pie-progress
        • 01
      • 登录界面
      • Untitled
    • JavaScript
      • fasta文件校验
      • codewar中的练习题
      • 6kyu
      • chapter03
        • 数据类型
      • tweenjs
    • css
      • CSS布局
      • 02定位
    • 前端使用ajax进行异步请求
    • gitbook
    • html
      • 03表格
      • Vue星空
    • Log for study
  • 可变剪切
    • 第六次分析
      • 设计引物
      • 多倍化过程中的变化3
      • 不同棉种间AS的差异
      • At与Dt中不存在保守转录本的基因
      • AS调控基因表达
      • 多倍化过程中变化2
      • 可变剪切统计
      • 可变剪切的进化分析
      • 保守AS模式的鉴定
      • 提纲
      • 可变剪切的翻译分析
      • 多倍化过程中isoform的变化
      • 表观遗传在AS中的作用
      • 全长转录本数据的统计
      • 表观遗传在AS中的作用2
    • 03表观遗传与可变剪切
    • 数据处理流程
      • 计算同源基因间AS的保守程度
      • 重新开始鉴定AS.md
      • 统计IR保守性比例
      • 基因分类
      • 20200111可变剪切数目统计
      • 完全保守的基因对
      • 20200315
      • 20200214
      • 第三个结果
      • 20191230对AS类型进行定义
      • AS保守程度的统计
      • 20200219合并IR
      • 20200320
      • IR事件保守的长度
      • 分析同源基因中发生IR事件的频率
      • 保守的IR的长度统计
      • 筛选基因用于GO富集分析
      • 2020102把没有发生剪切事件的位置找出来
      • 对剪切事件进行分类
      • 06比较不同棉种中isform的差异
      • 甲基化数据处理
      • 寻找motif
      • 根据IR的保守程度对基因进行GO富集分析
      • 分析同源基因间可变剪切的差异
      • 基于前面已经分好的类进行统计
      • 寻找同源基因对应的位点
      • 对同源基因的剪切事件进行分类.md
      • 分析染色体上各种特征
      • HIN1下游调控基因的分析
      • intron 分布
      • 20200102GO富集分析
      • 01全长转录组数据处理
      • 甲基化重复间的处理
    • 文献理解
      • 10核小体定位决定外显子识别
      • 22
      • 09梨树中两个亚基因组经历unbiased 进化
      • 11RNA介导的局部染色质修饰对可变剪切的调控
      • 19讨论染色质开放程度与IR的关系
      • 03植物中的表观遗传
      • 06甲基化在拟南芥开花过程中的研究
      • 20可变剪切的进化
      • 14干旱积累对HIN1蛋白剪切效率的影响
      • 18内含子保留事件中不断变化的范式和调控方式
      • 04从RNA-seq研究可变剪切
      • 16多种RNA-seq策略揭示棉花中高精度的转录态势
      • 07ChIp-seq测序原理 chromatin immunoprecipitation
      • 05甲基化测序数据比对原理
      • 13使用iso-seq分析高粱转录本数据
      • 15POWERDRESS与HDA9相互作用促进去乙酰化
      • 12通过转录与染色质结构的耦合调控可变剪切
      • 英语句子
      • paper list
      • 01多组学数据揭示表观遗传
      • 02A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulat
      • 17可变剪切与表观遗传导致白血病
      • 21smallRNA与DNA甲基化
    • 文章提纲
    • AS多倍化过程中的变化
    • 软件使用
      • 01三代测序Iso-seq
      • Bedtools
      • iso-seq测序2.0版本
      • 02Chip-seq操作流程
      • EMBOSS
      • 05鉴定duplicate gene
      • 07kobas本地进行注释
      • MEME本地化
      • DNA甲基化分析流程
      • stringtie
    • 第7个结果
    • 原始数据处理
      • 01三代测序数据原理
      • 02测序read数目统计
    • 第8个结果
    • 第五次分析
      • isoform水平分析
      • rmats2sashimiplot
      • 可变剪切的鉴定
      • 使用单个样本的数据进行AS分析
    • 表观遗传
    • 保守AS的鉴定
    • 第四次分析了
      • 甲基化计算
      • AS统计
      • 分析IR在各个基因组的保守性
    • 第三次对AS进行统计
      • 鉴定DRMs区域
      • 04
      • 重新下载原始数据进行比对
      • 02
      • 01
    • 第三个结果
    • 原始read的分类
    • 表观数据分析
    • 从RNA-seq研究可变剪切
  • 文献
    • 表观遗传
      • 植物中甲基化机制以及靶向操纵工具
    • 陈增建老师
      • 文章
    • 可变剪切
      • Post-transcriptional splicing of nascent RNA contributes to widespread intron retention in plants
      • Variant phasing and haplotypic expression from long-read sequencing in maize
      • 02
      • 01
      • 可变剪接的研究进展及展望
      • 06
      • Co-expression networks reveal the tissue-specific regulation of transcription and splicing
    • panGenome
      • 番茄中广泛的结构变异对基因表达和性状改良中的作用
    • TWAS
      • TWAS解读
    • 数量遗传older
      • Reinventing quantitative genetics for plant breeding: something old, something new, something borrow
    • Untitled 1
    • 多倍化
      • Measuring and interpreting transposable element expression
      • Homoeolog expression bias and expression level dominance (ELD) in four tissues of natural allotetrap
    • 转录调控
      • 指导植物RNA聚合酶II转录的‘GPS’
      • 02综述
    • 3D基因组
      • Methods for mapping 3D chromosome architecture
      • 由粘连蛋白介导的人类基因组中染色体loop图谱
      • 经典Hi-C文献
      • 小麦染色质被组装成基因组疆域和转录工厂
      • Lamina-associated domains: peripheral matters and internal affairs
      • Three-dimensional chromatin landscapes in T cell acute lymphoblastic leukemia
      • Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer
      • Evolutionary dynamics of 3D genome architecture following polyploidization in cotton
      • On the existence and functionality of topologically associating domains
    • Untitled
    • GWAS
      • Population Genomic Analysis and De Novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary
  • CRISP Case9
    • sgRNA设计
    • 01编辑效率检测
    • Hi-TOM
    • 02检查单株覆盖度
  • python
    • matplotlib
      • 图片的基本设置
      • 韦恩图
      • 折线图
      • 堆积直方图
      • 散点图
      • imshow绘制热图
    • 爬虫
      • 根据关键字获取对应的基因
      • TE
    • 多进程
    • 基于模块化编程
    • pybedtools
      • 01API
    • 高级特性
      • 列表操作
      • pickle
    • SOS
      • Script of scripts (SOS)
    • python 解析命令行参数
    • 简单实现python多进程
    • gffutils
      • gffutils
    • 多线程读取文件
    • rpy2
      • 在jupyter中调用R代码
    • pandas
      • 取数据
    • pysam
      • 01API接口
  • cottonWeb
    • 初始化项目
    • views
      • login
      • 404页面
      • register页面
    • 后端
      • Hi-C
      • 错误代码合集
      • SequenceServer搭建网页服务
      • 手把手教你搭建JBrowse-初始化应用
      • 优化JBrowse
    • Vue中使用Echarts
    • 2配置axios请求
    • 07搜索框实时推荐
    • 动画效果
    • layout布局
    • mysql
      • 基因操作
    • 路由配置
  • Vue
    • vue-route
      • 路由
    • Vue中发起ajax请求
    • 计算属性和侦听器
    • provide inject
    • 列表渲染
    • 自定义指令
    • 事件处理
    • Vue项目
      • 九宫格实现
      • 使用vue-resource进行ajax请求
      • 在项目中使用v-router
      • 新闻页面
      • 项目迁移
      • 使用Mint UI组件库
    • 案例操作
      • 02基于Github笔记实现
      • 实现购物车功能
      • Vue组建化
      • todomvc实现日程安排
    • 页面组件化
    • Vue 实例化操作
    • vue
    • 动画的渲染
    • 模板语法
    • class & style
    • 13 动画和过渡效果
    • 02guide
    • 深入了解组件化
    • 表单输入绑定
    • 条件渲染v-if
    • vue-chartjs
      • 起步
  • 并行计算
    • 实验室考试
    • 计算圆周率PI
    • 04.forthClass
    • 使用python3中的threading模块进行简单的并行计算
    • test
      • lastTest
      • 111
    • 第三节课作业
    • 05 test
    • 04test
    • 05homework
    • 04homework
    • OpenMP
    • 集群结构
    • CPU核、多线程、多进程
    • 05Class
    • 06class
    • 07class
    • 08class
  • WebPack
    • 打包css文件
    • 基于Webpack进行Vue开发
    • 处理url 图片
    • webpack 打包Vue
    • 基于webpack的路由操作
    • webpack
  • VueCLI
    • 03组件批量注册
    • 04拖拽插件
    • 05axios跨域问题
    • 07时间轴
    • Blast+ 网页实现
    • VueCLI 安装
    • axios请求
  • Script
    • 转录因子结合位点预测
    • BinomTest
  • mysql
    • 常见函数
      • 常见函数
      • 函数
    • 查询
      • 排序查询
      • 联合查询
      • 基本查询语句
    • 字段约束条件
    • SQLyog
    • 修改
      • 修改
    • powerdesigner数据库模型设计
    • 插入
      • 插入数据
    • 事务
      • 事务
    • 添加新用户
    • 视图
      • 视图
  • 文本编辑器
    • vscode 连接数据库
    • Vue模板补齐
    • visual Studio Code
  • source_code
    • Untitled
    • 并行计算
      • 04test
    • 公众号
      • RNA-seq
    • Untitled 1
  • GWAS
    • QQ-plot
  • RNA-seq
    • 01AnalysisFlow
    • 02脚本批量提交
    • 差异表达基因
    • 文献
      • 01SPL1赋予植物热忍受能力
    • 02 建库方式
  • Linux
    • LSF
    • 02诺和致源下载数据
    • 配置阿里yum源
    • linux三剑客
    • 云梯
    • 取文件相同列
    • root基本命令
    • 服务器网站数据搬迁
    • shell脚本激活Conda环境
    • 使用vscode与服务端R交互
    • 如何使用Conda
    • vim常见使用方法
    • oh-my-zsh
    • bash中的字典与数组
  • SNP分子标记
    • vcf文件处理
  • 生信软件
    • samtools
    • bedtools
    • annovar注释SNP
    • HiC-Pro安装
    • Untitled
    • bwa使用
  • Hi-C
    • 软件
      • HiCPlotter安装
      • pre程序
    • 20200102计算共线性区间保守的boundary
    • 20200108保守的TAD
    • PanGenome
      • PanGenome与各个元件进行注释
      • Pan-Genome数据比对
      • 鉴定两个基因组之间重排
  • node
    • mysql
      • 使用Promise封装
      • 基本的SQL语句
      • mysql的增删改查
      • 在node中使用mysql
    • session与cookie保留用户登录状态
    • MongoDB
      • MongoDB中的SQL语句
      • MongoDB 数据库
      • mongoose中一些常用的查询语句
      • :pig_nose: node中使用MongoDB的实例
      • MongoDB关联查询
      • 设计数据模型
    • 保持数据库处于连接状态
    • npm
    • node中路由设计
    • express中中间件的概念
    • art-template模块的用法
    • curd增删改查的使用
    • Promise 异步编程
    • 关于express框架的学习
    • express-session
    • 配置log4js
  • Cell-Ranger
    • count输出文件夹
      • ANALYSIS
      • feature_bc_matrix文件夹
      • Analysis 结果
      • BARcoded BAM
    • CellRanger aggr
    • 10X genomics测序中用到的术语
    • single sample Analysis
    • Cell Ranger count使用手册
  • HOX3
    • 03共表达分析
    • 01RNA-seq
    • 02基因差异表达分析
  • vue-admin
    • 项目目录结构
  • R
    • dplyr
      • dpylr
      • 过滤数据框
  • 系统遗传学
    • 翻译综述
    • 从脊椎动物的视角解析衰老的遗传机制
    • 01
  • eQTL
    • PEER
      • PEER方法
      • 软件使用
    • 群体结构
      • bcftools
  • sQTL
    • HISAT2比对
    • 02数据处理
  • 资源
    • hexo服务搭建
    • 转录因子数据库
    • 前端资源
    • 01 优雅的PPT设计
    • 文章书写规范
  • SVG
    • 01起步
  • 王悦瑾
    • Bash练习题
    • Bash脚本
    • 9_28起步
  • ES6
    • 模板字符串
    • promise源码解析
    • 01
  • scRNAseq
    • 干细胞不对称分裂
      • Root stem cell niche organizer specification by molecular convergence of PLETHORA and SCARECROW tran
    • 茉莉酸代谢
    • 老年痴呆
  • 多倍体进化
    • 棉花进化
    • 棉属A基因组的起源与进化
  • Vuex
    • 解构前端登录请求
    • VueX
  • ElementUI
    • 源码学习
      • 01drawer
    • Element UI:rocket:
  • reference周记
    • 第一期
    • test
  • 苏柃
    • Bash练习
Powered by GitBook
On this page
  • Deconstructing the sources of genotype-phenotype associations in humans
  • Abstract
  • Background
  • 通过GWAS捕获的效应
  • 混淆效应
  • 调整GWAS中的混淆效应
  • 使用家族中的基因型数据
  • 遗传力
  • 最近一些方法学的发展
  • 孟德尔随机交配
  • 基因与环境相互作用
  • 可移植的表型预测
  • 展望
  • 参考

Was this helpful?

  1. 系统遗传学

翻译综述

  1. Opportunities and challenges for transcriptomewide association studies

  2. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture

  3. Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield

Deconstructing the sources of genotype-phenotype associations in humans

Abstract

最近几十年以来,将人类基因组中的变异与表型变异进行关联已经取得了巨大的成就。在人类中,大多数性状受到整个基因组上大量的遗传变异的影响。为了阐明它们之间的关联,并且以可靠的方式去使用这些数据,尤其是可以用来做表型推断。因此必须要进一步的理解基因型和表型之间的关联。作者总结了一些在人类中的研究进展,尤其是将遗传效应解构为直接、间接遗传效应和由于群体结构产生的混淆效应。作者对关于下一步如何进行数据的收集和方法的开发进行了讨论,以及通过分析近亲的基因型和表型数据,从中能够获得到什么。

Background

在不久之前,遗传学的分析是通过使用家系中表型数据,而没有使用遗传数据。在基因组上可靠的和能够测量的标记的发现,使得能够通过连锁分析来鉴定致病基因,而不需要提前知道其中的潜在机制。通过这种方法,1986年鉴定到X连锁吞噬障碍慢性肉芽肿病的基因,紧接着像一些孟德尔类型的疾病,囊性纤维化、亨廷顿舞蹈病和乳腺癌基因也都被鉴定出来。这种方法也被应用到鉴定复杂疾病上,例如2型糖尿病;但不能够得到可靠的结果。

技术的第二次革命,是通过高通量测序技术来测量SNP阵列,能够同时测量数十万计的SNP,从而发展了全基因组关联学习的技术。GWAS在没有家系数据的情况下,对每个SNP和表型之间建立关联。GWAS成功的一个案例就是,通过分析96个病例与50个对照数据,发现了一个与年龄相关的黄斑变性病的基因CFH。通过进一步的增加样本的大小,有的甚至超过2百万,发现了数千种能够影响人类性状的遗传变异。因此GWAS有望于鉴定新的药物靶标,或者是其他的应用。

在GWAS的分析中,能否鉴定出影响性状的SNP,取决于SNP能够解释性状的比例,它随着效应的大小和异质性的平方成比例的增加。对于一些比较常见的变异,异质性都很高,起初GWAS的成功,主要是因为大量变异的等位基因都超过5%。即使没有直接分析常见的变异,它也可能会与附近的SNP高度相关,因为他们之间缺少祖先重组事件。这种相关也被称作为局部连锁不平衡。如果变异之间不是局部的连锁不平衡,也就是物理距离上不相邻,也会导致非随机性的交配。GWAS通过使用局部LD,来确定致病基因在基因组上的大致位置,而不是直接鉴定致病基因。精细定位被用来鉴定致病基因,并且需要功能上的分析与实验验证。

通过GWAS分析,发现的大多数影响疾病的变异,由低到中等的效应。在整个外显子组水平或者全基因组水平应用GWAS,以及在基因分型的SNP阵列中,对序列水平的变异进行统计推断,能够发现一些具有大效应的稀有变异。虽然在全基因组水平上,能够解释性状变异的显著性位点有所增加,但是对于大多数复杂性状,解释变异的程度只占到了被估计遗传力的一小部分。这其中的差距也被称之为缺失的遗传力。

对于大多数复杂性状来说,鉴定出所有的致病变异,阐明它们的致病机理仍旧是一个长远的目标。然而GWAS的数据能够被用来预测表型,尤其是一些受到多基因控制的疾病。对于单个个体来说,结合多个基因的评分和估计的遗传效应,能够得到一个预测的性状指标。PGS(多基因效应评分)得到了许多应用,例如鉴定出有患心脏病风险的个体。尽管PGS的方法存在一定的价值,但仍旧要考虑鲁棒性的问题(即使在粗鲁的条件下仍旧稳定)和可解释性。

众所周知的是,在GWAS分析中关联会存在偏差,由于种群分层,与祖先或者环境效应存在关联。通过调整血统,同时进行重复实验,确保大多数GWAS的结果是真的阳性结果。但这并不意味着偏差就会被消除,或者基因型和表型之间的关联就能够得到恰当的表征。在这里我们的目的是列举出一些导致基因型和表型关联的因素,和其中的困难以及提出一些可能的解决办法。

通过GWAS捕获的效应

遗传变异和表型之间的关联,能够被解构对性状有直接影响的遗传效应和对性状有非直接遗传效应的变异和产生混淆效应的变异。例如受教育程度就是一种具有直接效应的变异,而父母的行为和习惯则是一种非直接效应。同样一种变异可能由于父母的行为和习惯变成对健康有间接的效应。直接效应就涵盖许多致病途径,例如一些复杂的直接效应。例如CHRNA5 与吸烟量有关,能够影响患肺癌的风险。除此之外,直接效应还包括处于局部LD区域的其他变异所带来的影响。值得注意的是,经典的GWAS没有使用家系数据,只能够估计直接效应与间接效应之和,而不是分别估计对应的效应。

在加性模型条件下结合所有变异的效应,将遗传成分定义为所有因果变异的线性组合,其中的权重与真实的效应成正比。遗传组分中的直接效应和间接效应是不一样的,但它们可能会高度相关,这取决于感兴趣的表型与间接效应介导的表型之间的相关性。例如受教育程度这个性状中,直接效应和间接效应就存在很高的相关性,而体重指数中的直接效应和间接效应直接的相关性就比较弱。直接效应和间接效应的大小,以及两者的相关性最终决定了综合遗传成分。由于基于经典的GWAS方法的PGS,使用的是结合效应,有时候它比仅仅只使用直接效应表现更加好。

遗传效应由于多效性,会导致性状之间的关联。在多效性的两个性状的模型中,综合效应就包括三种:两个性状各自的综合效应,和它们之间的相关性。使用GWAS的数据能够对多对性状之间的相关性进行估计。将直接效应与间接效应分开的模型中,就包括10个参数,来自两个性状各自的直接效应与间接效应,和它们相互之间的相关效应。使用标准的GWAS时不能够完整的解析模型,因此大家现在对于哪个直接效应或者间接效应导致不同的多效应仍旧是不清楚的。

混淆效应

在某种程度上,遗传变异与表型的相关程度受到其他的致病因素的影响,从而使得捕获的不是真正的与表型相关的因果的SNP。这种混淆的类型的出现是由于种群内部存在非随机的交配而产生的群体结构导致的。GWAS中就包括至少3种不同来源的混淆效应。

  1. 环境带来的混淆:等位基因频率和环境效应在不同的地里位置或者亚群中以相关的方式改变。

  2. 遗传混淆:在不同亚群中等位基因频率不相同,并且与其他具有因果效应的等位基因的频率存在相关性。

  3. 分类交配带来的混淆:当一个性状是分类交配的,一个变异在一个性状上具有致病效应,同时与其他具有因果效应的变异关联,这个变异与性状关联时,就捕获它自己的因果效应加上一部分其他变异的效应。

这些混淆效应在概念上是不同的,但是通常它们常常交织在一起。

调整GWAS中的混淆效应

主成分分析通常被用来去除一些由于群体结构所带来的的混淆效应。理想条件下,用于调整的主要成分与环境带来的混淆效应成分高度相关,而与直接遗传效应成分不相关。如果直接效应成分与混淆效应成分相关,主成分调整的方法会将一些直接遗传效应当做混淆效应移除掉。

从本质上讲,分类交配带来的混淆效应组分与直接、间接组分之和是高度相关的。例如像身高、受教育程度,这种受到分类交配的性状,就会导致其中的一些变异与直接或间接效应存在非局部的LD,而被PC捕获。因此理论上,主成分分析的方法,会去除大多数直接效应组分。但事实上,这种事情并没有发生。即使在一个非常大的样本中,从PCs中推断出的大多数仍旧可能是噪音,而不是强的信号。从UKB样本中也强调了这一观点。从一个包含272,519个个体的样本中,PC计算的结果超过前八个信号最强的组成分,并且主要是由于采样的噪音和染色体内部带来的局部LD。这个噪音会掩盖掉一些导致GWAS中产生混淆的细微群体结构的信号,即使是在PC调整之后。

拟合线性混合模型LMMS是PC调整的另一个选择。这个方法将一组SNP进行回归,并且每个SNP的效应被建模为随机效应。在动物育种过程中,LMMS一直诶用来进行性状的预测。在人类的研究中,LMMS在将一组SNPs建模为随机效应的时候,通常将焦点SNP所带来的的效应作为固定效应。原始的LMM方法计算量与样本大小的三次方成正比,因此可替代的计算方法已经被开发出来用于处理GWAS中大的样本数据集。

LMMs吸引人的地方在于,它能够改善种群分层和样本之间的相关性。LMMs通常与PCA结合起来使用,通过对几乎所有可测量的SNPs进行建模,捕获真实的遗传效应和种群分层效应,来解析更加复杂的分层模式。除此之外,在样本之间存在相关性的条件下,与线性回归相比LMM的方法改进SNP效应的估计,改进由于抽样带来的误差。LMMs同样可以减少由于分类交配所带来的偏差的SNP效应。但是,现在LMM和GWAS方法不能够移除由于间接遗传效应所带来的影响。

使用家族中的基因型数据

在父母的基因型给定后,后代的基因型在减数分裂遗传物质的随机分离的过程中被确定。这种随机分离是与双亲的间接遗传效应、其他的混淆效应不相关的。因此父母的基因型能够无偏差的估计直接遗传效应。同样的兄弟姐妹之间的遗传差异是由于父母减数分裂过程中孟德尔随机分离的结果。因此兄弟姐妹间的遗传差异没有混杂父母的间接遗传效应、种群的分层和分类交配。因此,在兄弟姐妹中估计直接遗传效应时,通过减去各自的间接效应,来对直接效应进行无偏差的估计,当然仅当这种间接遗传效应为零的时候,估计的直接效应才是无偏差的。在动物的育种中,对间接遗传效应已经有了很长时间的研究。在人类中,大多数研究间接遗传效应的时候,使用来自GWAS中的PGS,这种方法没有将直接效应与间接效应区分开来。然而,当直接效应与间接效应没有完全相关的时候,这种方法不能够展现全貌。理想情况下,GWAS应该使用兄弟和父母的基因型数据作为对照,同时结合间接遗传效应的方法。然而这种方法仍然具有局限性,因子在大样本中父母、兄弟的基因型数据各不相同。除此之外,群体中大约只有一半的遗传变异是在家庭内部的,因此要想获得与标准GWAS相同的效果就需要更大的家族样本数据。

遗传力

传统的遗传力的估计是通过比较同卵双胞胎和异卵双胞胎之间的相关性。除了识别特定的因果基因座之外,还可以使用GWAS的数据来估计表型的变异,这种变异能够被SNP所解释,也被称作为SNP遗传力。对SNP遗传力的估计表明,通过基因型阵列收集的一些常见的SNP相比于GWAS能够解释更多的表型变异。然而,SNP遗传力的估计值往往远低于双胞胎研究中估计的遗传值,这也是遗传力缺失中的一部分问题。有时候通过典型的基因分型阵列来推断一些不是出于高度LD区域的标记,能够解释一些差异,但不能够完全的解释。其中的一个可能就是剩下的大部分缺失的遗传力是由少部分稀有的变异所解释。

一种广泛使用的方法GREML,通过测定表型之间相似度与基因组上遗传相似度之间的关联程度。这种方法通过结合先验等位基因的直接和间接效应,来对估计的总的变异进行解释。但是对于间接遗传效应或种群分层对SNP遗传力的贡献程度是未知的。家族内或者家族间的分类交配而产生的遗传力也是没有偏向性的。

同样需要注意的是,在经典的遗传力的定义中仅仅只涉及到了直接遗传效应;而总的变异是要受到直接效应和间接效应共同解释的。然而这也是一个有趣的参数,因为它定义了先验等位基因的遗传上边界。

最近一些方法学的发展

随着GWAS研究爆炸性的增长,许多方法被开发出来用于更好的使用和理解结果。值得注意的是,LD评分回归被开发用于在GWAS统计测验中区分由于种群分层带来的混淆效应和因果效应。假如在多个基因的结构中对单个SNP进行LD评分时,往往值会增加由于与因果变异之间相关性的增加。然而由于种群分层的存在,所有SNP的平均检验量被提高,造成这种差异的原因是由于亚群中等位基因之间存在相关性,性状的平均值存在差异。通过估计由于种群结构产生的混淆效应导致统计平均提高的水平,LDSC估计的方法能够用来调整GWAS的统计测验。LDSC方法同样可以被用来估计SNP在不同性状之间的相关性,从不同功能和类型的变异中划分SNP贡献的遗传力,进一步促进多元分析。

在LDSC分析中一个关键的假设就是不同亚群中等位基因频率的差异与LD score是独立的。然而可能由于背景选择的存在,会导致两者存在关联。因此LDSC测量种群分层导致的偏差的方法,结果的可信程度仍旧是一个问题。

孟德尔随机交配

在流行病学的研究中,孟德尔随机交配的方法通过利用遗传数据来提高对因果变异的推断。如果一个遗传变异影响性状A,性状A又影响性状B,会认为这个遗传变异能够影响性状B。因此可以通过影响性状A的变异来确定性状A与性状B的关联,也反应了性状A对性状B的因果影响;因为遗传变异仅仅只通过对性状A的影响来影响B与其他混淆因子不相关。

MR通常依赖于,从GWAS中估计得到的SNP效应;但是这个效应往往会由于种群分层、近亲中间接效应和分类交配带来一定的偏差。通过使用家庭内的数据,MR方法被提出来解决这个问题,表明以前MR估计的身高、BMI和EA受教育可能是虚假的。

MR分析的另一个挑战就是广泛的多态性,如果一个SNP通过一个性状影响性状B而不是通过性状A;这种方法就不能有效的推断性状A对性状B的因果效应。虽然已经有方法被开发出用来解决这个问题,其有效性可能取决于有关混淆效应的先验知识。

基因与环境相互作用

在不同个体中,当遗传变异在不同环境条件下对性状的影响不同时,可能是由于基因与环境之间互作的发生。基因与环境互作的概念与基因、环境之间相关的概念是不一样的,例如基因与环境互作可能是由于亲戚们带来的间接效应。在人类中,除了药用基因组学外很少能够复制出基因与环境之间的互作。

在GWAS研究中检测基因与环境之间的互作只有很少的成效,是由于效应的大小比较小和多重测试的负担。增加效果的另外一种方式就是通过寻找环境因子和PGS之间的互作。这种方式很有效果,当影响性状的遗传变异与环境因子以相同的方式发生互作。但是不能够具体到哪个遗传变异与环境因子发了互作。LMMs的方法能够应用在检测那些由于基因组上的变异与环境发生互作而产生的表型变异的组分,但仍旧不能够确定是哪一个特定的遗传变异。能够与环境相互作用而影响性状变异的遗传变异,能够减少变异交互的潜在空间。然而方法的挑战仍旧存在,遗传变异和环境交互对表型变异的影响仍旧受到测量的规模、种群分层。进一步的来说,基因与环境之间互作的效应可能很难被估计,由于这个交互可能是由于不可测量的环境因子与可测量的环境因子相关联。

可移植的表型预测

基于PGS对表型进行预测的准确性,依赖于性状的遗传力和GWAS的效果。对PGS性状预测的精度可能会降低,因为GWAS不会鉴定因果位点,而是出于局部LD区域的一系列的因果位点;而群体组成的历史将会影响LD,在当前群体中出现的LD可能在另外一个群体不会出现。最近的研究表明GWAS祖先群体不同的情况下,大多数性状的R2值都有所增加。除了等位基因频率、LD的差异 其他因素同样会导致PGS预测准确性的下降,例如在不同群体中环境变异的差异、不同的选择标准、不同群体中表型测量的差异。 由于基因与基因的互作、基因与环境的互作,变异所带来的效应大小可能会有差异。因此,解构GWAS中的自然信号来鉴定到底是哪种效应提供了更加广泛的预测能力。

展望

对于许多复杂性状,GWAS研究已经改变了遗传研究的局面和我们对于遗传结构的认识。之前没有单个可靠的已经复制的关联,现在具有成千上万种具有强烈关联的变异。值得注意的是,GWAS不需要家庭数据,因此也有利于收集大量的样本。然而在最近的研究中,由于家庭数据的独特属性又被带回了研究前沿。另一方面,一些有着比较强效应的比较罕见变异也仅仅出现在家系中。最重要的是,更加深入和微妙的问题就是,家庭三代的数据需要用来区分直接效应、间接效应和混淆效应。从统计学上讲,自然的扩展也就是研究单元从个体拓展到家庭中。值得注意的是,随着样本量的增加、种群更大比例的采样;将会不可避免的采集到一些近亲数据。

剩下的挑战就是研究偏倚性的问题,当研究的样本与人群系统不同时就会出现这种偏倚的情况。在这方面特别重要的就是考虑到基因与环境之间的互动,这种互动不仅仅是空间上的互动还有随着时间的流动。这些考虑因素适用于影响选择压力的健康特征,与教育相关的特征和生育特征。出于这些考虑,采样的过程中需要对来自不同祖先、不同环境条件下进行采样并且尽可能的收集多代数据。

参考

  1. 群体结构

Previous系统遗传学Next从脊椎动物的视角解析衰老的遗传机制

Last updated 5 years ago

Was this helpful?

https://www.jianshu.com/p/c97c84d50751