sgRNA设计
使用sgRNAcas9
软件包进行基于参考基因组的sgRNA 设计:针对每条给定的query 序列首先搜索NGG
的PAM结构,找到对应的motif后,在全基因组范围内评估on-target
和off-target
值。如果有多条质量比较好的on-target
sgRNA,后面还可以根据基因注释文件筛选那些距离5'端更近的sgRNA。
主要流程
提取基因的cDNA序列
使用软件包中
sgRNAcas9.pl
脚本,进行全基因组范围搜索靶位点根据参考基因组的注释文件,对靶向位点进行注释(看是否靶向exon区域)
1.全基因组搜索sgRNA
2.根据参考文件对sgRNA进行注释
2.1提取评分等级为一下的sgRNA ID信息
Best
repeat_sites_or_bad
low_risk
例如repeat等级中0M靶向的位置有2个,我们要看看它靶向的位置是否是同一个基因,进行sgRNA评价
2.2合并所有的sgRNA信息
cat A.Sort_OT_byID/* >all_genen_OT.txt
靶标序列评价
使用自带的脚本ot2gtf_v2.pl\,对得到的sgRNA靶标进行评价,主要是看它是否靶向目标基因的外显子区域,或者存在靶向其他基因exon区域(脱靶情况)
2.3去除脱靶的sgRNA
awk的原理:
靶标基因与sgRNA的序列信息一致赋权值 0
sgRNA靶向同源基因和自己本身赋权值 0
靶标序列脱靶赋权值 1
最后将同一个sgRNA靶标的权值相加,为0则表示没有脱靶;否则脱靶舍弃
得到的没有脱靶的sgRNA编号
3.sgRNA筛选
经过上一步筛选后的sgRNA文件,我们需要根据以下几个指标筛选比较理想的靶标序列
靶标序列尽量靠近5’端
同一个基因找两个靶标序列,尽量让这两段序列间隔在100bp左右
自定义python脚本
4.参考
Last updated