Methods for mapping 3D chromosome architecture
摘要:
确定染色体在细胞核中的位置和折叠状态,对于进一步理解染色质三维构象在基因调控中的作用是至关重要的。目前有多种方法可以用于研究染色质的构象,它们有各自的优点和局限性。例如基于成像技术以及ligation的染色质构象捕获技术,DNA-FiSH、Hi-C等,揭示了染色质疆域、细胞核功能性标志(核斑点、核层)和拓扑关联结构域在细胞核中广泛的存在。对于这些技术的改进出现了不依赖于ligation的技术,例如GAM、SPRITE、和CHIA-Drop进一步的揭示了染色质三维构象的复杂性。
前言
在人类细胞核中,46条染色体以不同规模在细胞核中被有效的组织和包装成一个个功能区室compartments。在细胞核中染色体占据不同的位置,也被称之为染色体疆域,进一步可以将染色体疆域细分成染色体区室和TAD。在TAD的内部,染色质进一步形成有CTCF蛋白所介导的染色质loop或者由增强子和启动子连接而成的loop。
染色质的折叠是基因表达调控的一个主要特征,并且在不同发育阶段中动态改变。增强子和目标基因的启动子通过形成染色质loop,实现对基因的转录进行调控。调节元件和目标基因间形成的有功能的loop主要存在于TAD内部。
基因的表达也可能受到其在细胞核中的位置的影响,例如在细胞核层附近就富集一些包含特定生化活性的物质(转录工厂),促进基因的表达
因此打断增强子和基因间的互作、改变细胞核内的区室,将会影响基因的表达导致一些疾病的发生。因此只有通过分析
细胞核中染色质的3D结构,才能进一步的了解线性基因组中导致疾病发生的突变。
由于缺乏技术,这些技术既能够在全基因组水平描绘染色质交互图谱,同时又能检验特定空间之间的信息;阻碍了我们对于染色质三维结构的理解。直到现在基因组三维结构的研究还依赖于两种主要的技术:
DNA荧光原位杂交,成像技术 DNA-FISH
基因染色质构象捕获技术(3C) chromosome conformation capture
DNA-FISH是一种非常普遍的技术,可以对细胞核中基因和染色体的分布进行可视化。这个技术只能在单个细胞水平进行操作,并且通量有限一次只能提供少量的基因组位点信息
3C技术,取决于染色体发生交互的位置,涉及DNA末端的连接;能够在全基因组范围,从几百Kb到几Mb的分辨率下对增强子和启动子间的交互进行鉴定。
而最近,由于成像技术的改进,增加了同时分析基因组的多个位置 ,并且被应用到活细胞中。无需进行连接的情况下对基因组结构进行成像GAM(genome architecture mapping ),splitpool recognition of interactions by tag extension (SPRITE),基于夜滴和条形码技术(ChIA-Drop)。这些技术的应用,使得我们对于染色体间的交互检测达到前所未有的水平。这篇文献主要对三维基因组中用到的一些方法进行了陈述,每种方法的的原理和实验细节都需要非常的熟悉。
基于成像技术检测染色质间的交互
对细胞核结构和特定基因组区域的可是化对于理解细胞核内的染色质折叠是至关重要的。许多光学显微镜和电子显微镜技术,都可以对固定的细胞或者活细胞,基因组中特定的位置进行成像。
在死细胞中最常用的成像技术就是DNA-FISH,可以在DNA结合阵列在活细胞内对DNA的交互进行可视化,其中包括最近使用的基于CRISPR的成像技术。
使用DNA-FISH测量染色质间的交互
DNA-FISH使用荧光标记的寡具核苷酸DNA探针与基因组中感兴趣的基因区域杂交配对。为了保证探针能够进入到细胞核与目标片段杂交,通常需要使用甲醇透化细胞,并且进行加热使得DNA双链解开,接下来通过显微镜观察基因租中富集探针的荧光区域。
DNA-FISH通常是测定两个或者少量感兴趣基因区域的物理交互。染色质间交互通过物理距离来区分,这个距离可以是两个感兴趣基因在基因组上的物理距离,也可以是显微镜的分辨率。当荧光信号在50nm-1um的空间距离上共定位,就可以认为他们发生了交互作用。
DNA-FISH同样可以可视化染色质的区室,基因组区域的位置和细胞核的结构例如核层。因此可以通过在一群细胞中测定基因座间间共定位的平均频率或者相对于核外围空间的距离衡量交互作用。将得到的数据与相同间隔的随机基因座间的交互(对照)进行比较。这个方法取决于探针的特异性,和细胞群体内等位基因间的差异;在FISH过程中细胞核保存完整、显微镜的分辨率以及目标基因组序列的大小。FISH使用的探针是小的DNA片段,可以通过人工合成或者是质粒、细菌染色质产生,在100-500bp的短片段。探针所覆盖的区域可是从30kb甚至达到覆盖整个染色体区域。当探针逐渐变长时由于序列的特异性会使得背景噪音的下降。这在一些标准的3D-FISH中尤其明显,在检测大的TAD和整个染色体时可以很准确,但当区间小于100kb时就非常难检,很难在TAD以下水平对交互进行量化,就比较增强子和启动子间精细的染色质交互。
更高分辨率的染色质交互可以通过cryp-FISH
(冷冻切片)实现,通过对固定的细胞进行冷冻切片保留细胞核内结构,使用荧光和电子显微镜进行可视化。最近一种短的,特异性的核苷酸探针Oligopaints,可以在常规显微镜下达到15kb的分辨率,甚至可以借助于超分辨率显微镜达到5kb的分辨率。Oligopaints并不是由基因组区域克隆合成,而是通过寡核苷酸文库大规模平行合成。合成之后可以使用不同的引物对进行扩增产生不同的FISH探针文库。OligoPaints同样被应用到高通量成像中,产生低分辨率的交互图谱。, molecular beacon FISH 可以通过猝灭未bound的信号减少背景噪音。
活细胞的核结构成像
染色质折叠是一个动态变化的过程,并且整个细胞周期中变化。基于基因组编辑技术使得我们可以靶向特定的基因组位点,从而研究染色质的动态变化。早期在活细胞中研究需要创建细胞系,在这些细胞系中使用DNA探针标记目标基因,这些探针会招募荧光标记蛋白。现在使用CRISPR系统与荧光蛋白融合,在sgRNA的引导下靶向目标基因。然而CRISPR介导的方法对于重复序列的检测不是很好,因为它依赖于sgRNA来引导荧光蛋白到目标基因区域。
基因Ligation检测染色质间的交互
基于引物进行3C(染色质构象捕获)的方法,通过染色质胶联,在邻近位置进行ligation测定染色质的交互频率。
使用甲醛进行胶联固定后,捕获蛋白质或者RNA介导的染色质交互
使用限制性酶对染色质进行片段化
使用DNA酶连接限制性片段
对连接的片段进行纯化得到的就是3C测序文库
使用特定的引物对文库进行PCR反应可以测得两个位点间的ligation频率。因此3C技术需要事先对目标交互有一定的了解,实现的是两个位点间的交互(one versus one)。局限性:
3C文库中包含整个基因组的连接产物,因此可以用于分析全基因组的染色质交互,只是通量不高
2.基于芯片或者环状染色体的4C捕获(chip或者环形染色体)用于捕获目标区域与其他区域的交互作用(one versus all)。
3.基因5c的染色质构象捕获技术(carbon copy同位素拷贝)实现高通量的捕获全基因组范围的(all versus all)交互作用。
4.最后介绍最常使用的Hi-C技术。
4C技术介绍
从3C文库中获取其他信息的最直接且经济的方法就是使用4C技术,例如使用某个感兴趣的基因区域(例如启动子),设计引物扩增与其发生交互的所有位点,扩增后的产物可以用于进行测序,用于在几kb的分辨率下分析与感兴趣基因区域互作的位点。因此4C技术也被广泛的应用在研究基因的顺式调控中,例如在疾病和细胞的发育过程。这个技术非常适合研究短距离的相互作用,但也有被应用在长距离甚至跨越整个染色体的研究中。
5C技术介绍
在5C技术中使用更为复杂的引物对3C文件进行扩增,分辨率可以达到域Mb级别。5C技术主要是通过提高测序深度和通量,提高检测染色体交互的分辨率。但是5C的技术的局限在于需要对限制性片段设计恰当的引物,因此如果某些限制性片段缺乏恰当的引物将得不到它的交互数据。
Capture-C
基于3C文库,还可以富集一个或者多个感兴趣的交互图谱,例如Capture-Hi-C,Capture-C和CAPTURE等。在这些方法中使用与感兴趣基因组区域互补的带生物素标记的寡核苷酸从3C文库中富集感兴趣的连接产物。这种方法可以针对单个目标区域甚至是整个基因组区域。
Hi-C及其衍生技术绘制全基因组交互图谱
Hi-C是绘制全基因组交互的方法,在胶联的限制性酶切片段末端添加生物素标记,然后进行连接。连接完成后使用T4 DNA聚合酶去除未连接的末端生物素标记,而连接的片段仍旧保留生物素标记;使用链霉亲和素对连接片段进行富集构建测序文库。
取决于富集的效率,大约50%-70%的连接片段能够被测到。
Hi-C的衍生技术
TCC(束缚在染色体上的交联)?能检测到更多的远距离交互
GCC(genome 构象捕获),对3C文库中所有的DNA进行测序(土豪方法),有效的控制测序所带来的偏差(生物素富集过程),DNA含量是在同一水平的(归一化),不用考虑基因拷贝数的问题。
仍旧还有许多全基因组范围的3C技术,目前使用最广泛的还是situ Hi-C技术。在最初始的Hi-C技术中使用十二烷基硫酸钠破坏核膜,使得DNA的交联是发生在反应溶液中的,在原位 Hi-C中省去了这一步,允许反应在细胞核中进行,因此这个随机连接将会减少导致噪音信号减少,实现在低测序深度下实现高分辨率的Hi-C图谱;因为它将连接反应限制在细胞核内,没有稀释在溶液中,反应也就更快更溶液的进行。对应的Easy Hi-C是最近改进的Hi-C,它不需要经过生物素的富集,因此需要的数目更少了
单细胞Hi-C
普通的Hi-C从几百万个细胞中产生交互图谱,无法分析细胞间的异质性。单细胞Hi-C克服了这个限制,能够对稀有细胞进行研究甚至能够研究特定细胞周期的染色质结构。
原位连接交联DNA片段
从细胞悬浮液中分离单个细胞核,对每个细胞核构建测序文库
sciHi-C (Single-cell combinatorial indexed )则采用了不同的策略,不是分离单个核而是用barcode对每个核的DNA进行标记。
将细胞固定,裂解并且使用限制酶进行消化
将消化的但细胞核完整的细胞分散到96个孔中,在每个孔中加上barcode
合并所有的细胞核进行原位连接和文库制备
缺点:酶切和连接效率比较低,且不能完整的回收单个孔的物质,导致部分交互的丢失。即使对技术进行进一步改进,仍旧存在2-5%的交互不能测到。
将3C技术与染色质免疫沉淀结合
基于3C方法能够研究特定蛋白质介导的染色质交互,为了研究特定蛋白在染色体上的占有率,就可以使用ChIP在连接前对目标蛋白进行富集,早期的技术例如ChIP-loop和ehanced 4C-ChIP,需要在免疫共沉淀前对染色质进行溶解,但是标准的3C文库中经过SDS处理,无法完全的将染色质溶解,因此会导致一些噪音的产生。另外一种技术是使用ChIA-PET(末端配对标签序列),通过对细胞核进行超声波处理使得免疫沉淀反应高效的进行,但是对于后续的连接反应的影响是不清楚的。
由于ChIA-PET的不足,又开发一个Hi-ChIP技术和PLAC-seq(就近连接辅助染色质沉淀),这两个技术不是在免疫沉淀后再进行DNA片段的连接,而是在免疫沉淀和超声波处理前在细胞核内进行原位连接。
基于3C文库的基因组交互分辨率,Hi-C将全基因组划分成一个个bin,因此bin的大小就代表了分辨率的大小,而bin的划分几乎完全取决于测序深度,200-400百万测序深度大概可以到30kb的分辨率,几亿条read的深度才能达到1kb的高分辨率。
不依赖于连接反应的交互图谱
3C文库连接反应,在一簇交互片段中,连接一些简单的DNA末端片段,产生偏差。之所以会出现这种情况是因为DNA末端有可能只会与其中的一两个发生连接反应,所有在DNA 片段簇中,并不是所有的交互都会发生连接反应,这个连接反应只是发生在一个或者两个片段中,稀释了这个染色质交互组。最近新开发了三种不依赖于连接反应的,全基因组鉴定交互作用的方法:1. GAM 2.SPRITE 3.CHIA-Drop,给三维基因组的研究提供新的见解。
DamID不依赖于连接反应
体内检测目标蛋白与DNA的结合位点DamID技术,例如在大肠杆菌中将RNA聚合酶II的DNA结合蛋白结构域与DNA嘌呤甲基转移酶进行融合,可以特异性的对包含GTAC的DNA序列进行甲基化。当这个融合蛋白在细胞中低量表达时,只有当酶靠近目标DNA片段时,附近的GTAC序列就会被甲基化。当进行Hi-C建库的时候,使用甲基化敏感的酶和接头切割被甲基化的GATC位点,确保只有甲基化的结合位点被扩增和测序。
使用GAM获取全基因组交互图谱
使用超薄的冷冻切片(220nm厚度),以随机的方向对固定的细胞群进行切割,获取切割后的细胞核;然后使用激光显微镜切割从中分离出单个细胞核,避免的细胞的提取和分选。从每个slice中提取DNA,在合并所有的切片之前添加了barcode,当筛选了几百个核切片时,可以通过计算成对的DNA位点同时出现在一次测序中的频率;这个方法理论依据
在3D空间内基因组靠近的区域将会更频繁的出现在同一次细胞核切片中。
为了统计显著性的互作,GAM结合数学模型(SLICE) 对两个位点间的共偏移进行统计推断。SLICE通过对不同基因组距离的位点,对它们的随机交互进行建模;通过筛选切片细胞核中交互频率大于模拟的随机交互,并且在切片细胞核中量化交互频率。
GAM还同时允许检测在全基因组范围内检测三个或者多个位点间的互作。GAM的分辨率取决于细胞核切片的数目,例如400个细胞核切片,每个切片测序深度1百万大概可以达到30kb的分辨率。如果达到上千个细胞核切片的话,可以进一步的提高分辨率。
使用SPRITE和ChIA-Drop获取全基因组交互图谱
这两种方法通过对交联底物进行标签化,与其他方法类似这种方法需要稍微对染色质进行固定同时对染色质进行片段化。
SPRITE将交联的片段分离到96孔板里,加上特异的barcode然后合并进行反应(反复进行多次),之后测序对每个DNA分子的barcode进行拆分,理论上只有发生交联的DNA片段才有相同的barcode组合。
ChIA-Drop方法,通过微流体装置将片段化的染色体形成液滴,每个液滴中包含barcode和进行反应的试剂与SPRITE类似。
不同方法间的比较
目前研究3D基因组结构的方法,区别主要在于染色质的固定和准备上,以及它们在检测多个位点间的交互,对不同分辨率和蛋白质的检测分辨率以及长距离交互的检测上存在差异。
染色质的固定和制备差异
除了在活细胞内研究Hi-C例如(DAM、CRISPR介导的方法),其他的技术都是通过交联将DNA和蛋白质固定。
染色质固定:
使用甲醛化学试剂进行固定是最常用的方法之一,但是溶液的浓度和固定的时间都不相同,在3C中1%的,DNA-FISH用4%,GAM和cryo-FISH使用8%的浓度。并且不同浓度的固定剂对细胞核结构会有影响。
甲醇、丙酮进行固定。
多个染色质位点间的交互
由于3C方法依赖于DNA连接反应,因此对于检测多个位点间的相互作用不好。在小鼠胚胎细胞的研究中发现,仅仅只有17%的交互式两个位点间的交互,而其他的都是多个位点间的交互。说明依赖于DNA连接反应的不能很好的检测多个位点间的互作。而不依赖于DNA连接反应,可以检测到3D空间靠近的DNA片段并且不受互作位点的限制。
基因组交互区域的空间距离
人们认为在交互频率一致的情况下,两个位点间的空间距离会影响DNA连接效率。而像cryo-FISH、SPRITE在不依赖DNA连接的情况下可以方便的检测染色体间的交互。因此3C经过被用在研究染色体内部间的交互,并且在配对的Hi-C数据集中只观察到了染色体内的交互,这说明DNA的连接反应需要在紧密的空间距离上进行。
蛋白质介导的染色质交互
GAM和FISH成像技术都是测定基因组内所有可能的连接,而不管它们是不是蛋白质介导的交互。因此GAM可以通过有效的采样从测所有分辨率以及特异性的交互作用;而FISH只能分析部分染色体间的互作。
不同方法间的一致性
通常从3C方法得到的结果中挑选结果使用DNA-FISH进行验证。许多研究表明3C测的的交互频率与基于FISH得到的空间距离是一致的,尤其是在相距比较远的基因组距离的时候。在假的FISH的结果是正确的前提下,对Hi-C的结果进行验证有助于减少Hi-C的假阳性。基于GAM和SPRITE方法鉴定到一些Hi-C没能鉴定的交互,并且可以被FISH所验证。
不同方法间的局限性
基于DNA连接酶的方法可能受限于连接效率的低,两个DNA末端在DNA片段簇内局部距离以及拓扑所影响。
SPRITE的方法同样需要将寡核苷酸与DN末端进行连接,但是它不受限与DNA片段簇中两个DNA片段间的物理距离。然而DBA-FISH仍旧局限于特定的位点并且主要用于对全基因组结果的验证。
总结
用于研究染色质3维结构的每种技术,都加深了我们在不同层次对染色质结构的理解。
通过FISH成像技术帮助我们了解到,染色体在细胞核内是非随机分布状态,也被称为染色体疆域。通过染色体疆域的研究表明,不同类型细胞中染色体的径向分布具有细胞依赖性。染色体内的交互作用强于染色体间的交互。
染色质中心和区室化
已经有广泛的研究表明,染色体内进一步存在广泛的亚区室化。通过Hi-C的数据发现DNA连接状态分成两类,一类是与转录激活相关,的开放性染色质区域A compartment;一类是转录抑制相关的异染色质区域。
细胞核区室化
细胞核区室化,指的是细胞核内某些区域富含一些特定的蛋白质和RNA形成类似细胞器的无膜结构。与特定的基因组区域有关,并且影响染色体的折叠。其中就包含比如 核仁,核纤层,拼接斑点(基因密集区域)等等,这些结构在显微镜下就被报道了。
TAD和染色质loop
在更小的比例下,染色质自我缔结成染色质结构域也被称之为TAD。TAD通常将共同调节的增强子和启动子,彼此靠近。基于改进的3C技术,重新检查了它们的大小,在人类基因组中TAD的大小在40kb-3Mb大小。在3C技术出现之前就已经通过显微镜发现与转录激活相关的DNA loop。loop的形成通常是在交互位点出形成成对的CTCF蛋白结合位点。
顺式调控元件间的物理接触
增强子和启动子间的物理接触对于基因组转录调控极其重要,通常可以在1kb到及Mb的距离内发生互作。使用Dam-Hic在体内研究特定的增强子和启动子的互作
通过这些研究三维基因组的方法,彻底的改变了我们对于线性基因组调控的见解;并且最近不依赖于ligation的技术使得我们在全基因组、单细胞水平更加进一步的理解了三维基因组的折叠。以及它们如何促进基因组内基因的稳定表达以及细胞响应刺激的动态变化,为疾病的诊断和靶标药物的开放打开新的途径。
Last updated