sgRNA设计

使用sgRNAcas9软件包进行基于参考基因组的sgRNA 设计:针对每条给定的query 序列首先搜索NGG的PAM结构,找到对应的motif后,在全基因组范围内评估on-targetoff-target值。如果有多条质量比较好的on-targetsgRNA,后面还可以根据基因注释文件筛选那些距离5'端更近的sgRNA。

软件包地址

CRISPRcase9

主要流程

  1. 提取基因的cDNA序列

  2. 使用软件包中sgRNAcas9.pl脚本,进行全基因组范围搜索靶位点

  3. 根据参考基因组的注释文件,对靶向位点进行注释(看是否靶向exon区域)

1.全基因组搜索sgRNA

2.根据参考文件对sgRNA进行注释

2.1提取评分等级为一下的sgRNA ID信息

  • Best

  • repeat_sites_or_bad

  • low_risk

例如repeat等级中0M靶向的位置有2个,我们要看看它靶向的位置是否是同一个基因,进行sgRNA评价

2.2合并所有的sgRNA信息

cat A.Sort_OT_byID/* >all_genen_OT.txt

靶标序列评价

使用自带的脚本ot2gtf_v2.pl\,对得到的sgRNA靶标进行评价,主要是看它是否靶向目标基因的外显子区域,或者存在靶向其他基因exon区域(脱靶情况)

2.3去除脱靶的sgRNA

awk的原理:

  1. 靶标基因与sgRNA的序列信息一致赋权值 0

  2. sgRNA靶向同源基因和自己本身赋权值 0

  3. 靶标序列脱靶赋权值 1

  4. 最后将同一个sgRNA靶标的权值相加,为0则表示没有脱靶;否则脱靶舍弃

得到的没有脱靶的sgRNA编号

没有脱靶sgRNA

3.sgRNA筛选

经过上一步筛选后的sgRNA文件,我们需要根据以下几个指标筛选比较理想的靶标序列

  1. 靶标序列尽量靠近5’端

  2. 同一个基因找两个靶标序列,尽量让这两段序列间隔在100bp左右

自定义python脚本

脚本获取

4.参考

Last updated

Was this helpful?