07ChIp-seq测序原理 chromatin immunoprecipitation
Last updated
Last updated
ChIP-seq tech mainly apply in CTCF binding, Histone modification and binding DNA, other protein (or motif) and binding DNA.
可以应用在,分析与一些转录因子结合的DNA序列,组蛋白修饰的位点,一些特定蛋白结合的motif序列
使用甲醛处理细胞核,将DNA和蛋白质交联结合的状态固定下来;而交联又分为两种
x-ChIp 使用甲醛将蛋白质和DNA交联
N-ChIp 蛋白质和DNA天然的交联在一起,可以通过微球菌核酸酶解除交联状态
使用超声波或者限制性酶将染色体打断成短片段(一般是200~600bp)
使用抗体蛋白质去富集对应的片段
解除蛋白质和DNA的交联状态,获得目标DNA序列
使用PCR或者qPCR检测,是否富集到你想要的DNA序列,之后进行建库测序
偏好性的选择CG富集序列
当第2步获得的reads数目不多时候,IP(immunoprecipitation)效果不好
抗体的质量问题
细胞核的数目,感觉和第二个缺点的原因是一样的
需要使用对照试验,也就是Input文件是没有使用抗体进行IP的;这样与处理相比就能够反应真实的IP富集
由于immunoprecipitation 下来的read经过测序之后,既有正链也有负链,当mapping回基因组时就可以统计得到两条链上的peak情况。越靠近TF结合位点的read,被捕获下来后,由于测序是从3'=>5'
所以离TF越近的位置测到的次数就越多
测序得到的read只是跟随着TF一起沉淀下来的DNA fragment的末端,read的位置并不是真实的TF结合的位置。所以在peak-calling之前,延伸read是必须的。不同TF大小不一样,对read延伸的长度也理应不同。我们知道,测得的read最终其实会近似地平均分配到正负链上,这样,对于一个TF结合热点而言,read在附近正负链上会近似地形成“双峰”。MACS会以某个window size扫描基因组,统计每个window里面read的富集程度,然后抽取(比如1000个)合适的(read富集程度适中,过少,无法建立模型,过大,可能反映的只是某种偏好性)window作样本,建立“双峰模型”
正链 红色
负链 蓝色
一般来说富集倍数5才算显著富集,也就是与对照相比在某个位置相比存在5倍差异
MACS Wiki https://github.com/taoliu/MACS/wiki