[发明专利]一种基于CRISPR/Cas9的sgRNA的设计方法有效
申请号: | 201610341946.3 | 申请日: | 2016-05-20 |
公开(公告)号: | CN106446600B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 刘琦;啜国晖;陈亚男;闫纪芳 | 申请(专利权)人: | 同济大学 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B20/00 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于CRISPR/Cas9的sgRNA的设计方法,其特征在于,该方法包括下列步骤:获取sgRNA和对应的Cas9的酶切效率的值;建立个性化sgRNA设计模型;运用NDCG算法衡量建立的个性化sgRNA设计模型的质量并更新数据库;设计sgRNA并给出每个sgRNA的评估值。与现有技术相比,本发明具有准确率高、特征完整、应用范围广与分析数据广的特点。 | ||
搜索关键词: | 一种 基于 crispr cas9 sgrna 设计 方法 | ||
【主权项】:
1.一种基于CRISPR/Cas9的sgRNA的设计方法,其特征在于,该方法包括下列步骤:1)获取sgRNA和对应的Cas9的酶切效率的值,具体为:11)从文献中获取sgRNA以及对应的Cas9的酶切效率的值;12)从SRA数据库中获取sgRNA,计算获取对应的Cas9的酶切效率的值;13)按照物种、细胞类型和实验条件将步骤11)和12)中获取到的数据分类成不同的参考基因组,每个参考基因组中都列出一份第一列为sgRNA名称、第二列为sgRNA序列以及第三列为对应的Cas9的酶切效率的表格;2)建立个性化sgRNA设计模型,具体为:21)根据需求从相应的参考基因组中,提取步骤1)中获取的sgRNA的序列信息;22)对步骤21)中提取的sgRNA序列信息按照二进制规则进行二进制编码;23)对步骤21)中获取的sgRNA,判断其Cas9的酶切效率的数据类型,若为数值型则进入步骤24),若为分类型则进入步骤25);分类型数据:针对从文献中收集的分类型数据,规定有效为1,无效为0;数值型数据:针对NGS的数值型数据,首先通过BWA分别把sgRNA的序列和NGS的reads比对到人类参考基因组上,取出包含sgRNA的reads,并判断在切割点是否产生indel以及indel是否是OTF,然后统计每个sgRNA的OTF率,OTF率=包含该sgRNA并且是OTF的reads的总数除以包含该sgRNA的总reads数;24)对步骤22)中编码后的sgRNA序列信息,用Lasso模型进行特征提取,根据标准线性回归建立个性化sgRNA设计模型;25)对步骤22)中编码后的sgRNA序列信息,用二分类逻辑回归中的L1正则化进行特征选择,再根据二分类逻辑回归中的L2正则化建立个性化sgRNA设计模型;3)运用NDCG算法衡量步骤2)中建立的个性化sgRNA设计模型的质量并更新SRA数据库,具体为:31)计算步骤2)中建立的个性化sgRNA设计模型的NDCG值;32)判断现有SRA数据库中是否有对应的个性化sgRNA模型,若否则将其添加进SRA数据库,若是则进入步骤33);33)比较该个性化sgRNA模型与对应的SRA数据库中的sgRNA模型,选择NDCG值大的一个存储在SRA数据库中;4)设计sgRNA并给出每个sgRNA的评估值,具体为:41)根据用户给出的基因组区域,从SRA数据库中选取合适的参考基因组,从中搜索所有符合设计规则的sgRNA,将其作为设计的sgRNA;42)对步骤41)中设计的sgRNA,运用步骤2)中建立的个性化sgRNA模型进行评估。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610341946.3/,转载请声明来源钻瓜专利网。