[发明专利]一种基于特征工程的基因编辑脱靶效应预测方法在审
申请号: | 202310402256.4 | 申请日: | 2023-04-14 |
公开(公告)号: | CN116364173A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 黄一人;江振然 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/00;G16B40/20;G06F18/213;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 上海思真远达专利代理事务所(特殊普通合伙) 31481 | 代理人: | 李梅 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 工程 基因 编辑 脱靶 效应 预测 方法 | ||
本发明公开了一种基于特征工程的基因编辑脱靶效应预测方法,包括以下步骤:S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,所述数据集包括GUIDE‑Seq,HTGTS,BLESS;S2:每个序列样本长度为23个碱基,并以NGG结尾,对数据集标签进行预处理,将包含脱靶位点的样本标记为正样本,标签为1,不包含脱靶位点的样本标记为负样本,标签为0;S3:对样本数据集进行编码并加入特征。解决深度学习模型无法融合多样性特征以及数据集样本不平衡问题,提高CRISPR/Cas9脱靶预测精度和泛化能力,提升模型整体性能。
技术领域
本发明涉及生物信息学领域,尤其涉及一种基于特征工程的基因编辑脱靶效应预测方法。
背景技术
CRISPR/Cas9系统介导的基因组编辑技术是继锌指核酸酶、类转彔激活因子效应物核酸酶后出现的第三代“基因组定点编辑技术”,可对特定位置上的DNA序列迚行编辑与修改,该技术成本低、易操作并在基因敲除敲入、基因表达调控和基因组碱基编辑等领域取得了一系列显著的成就并获得了关注。
然而,该技术目前还存在许多问题亟待解决,脱靶效应便是其中影响较大的一个问题,脱靶效应导致严重的医学风险并阻碍着CRISPR/Cas9系统进一步的临床应用。
因此,脱靶预测对于指导设计良好的sgRNA以及基因组编辑效率和风险有着非常大的评估意义。
然而不同的基于比对的方法允许不同的条件,影响潜在脱靶位点搜索的完整性(例如Bowtie与Cas-OFFinder工具对于PAM类型与碱基错配数量的限制要求不同)。基于评分的方法解决的主要问题为对潜在脱靶位点进行评分(预测脱靶发生的可能性)。
经检索,申请号CN111261223B的中国专利,公开了一种基于深度学习的CRISPR脱靶效应预测方法,其实利用基因组的先验信息同时利用SMOTE方法解决实验数据标签不平衡的问题,并也考虑到采用深度学习方案。
然而,与脱靶预测有关的特征种类比较多,这些计算方法都不能充分利用或者只能利用比较单一的特征进行模型训练,深度学习模型虽然对学习高维抽象特征的模式有很好的能力,但却损失了其他如生物学结构特征,热力学特征以及评分等先验特征信息,使得模型学习性能有比较大的瓶颈。
另一方面,CRISPR/Cas9脱靶数据集普遍存在样本不平衡问题,即正负样本的数量非常悬殊,正样本数量远远小于负样本数量。这对深度学习算法的泛化性能提出了很大的挑战。在不平衡数据集上训练的模型往往很难完全学习到正样本的特征模式,使得模型训练精度很高但在实际预测时往往性能下降很大。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于特征工程的基因编辑脱靶效应预测方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于特征工程的基因编辑脱靶效应预测方法,包括以下步骤:
S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,所述数据集包括GUIDE-Seq,HTGTS,BLESS;
S2:每个序列样本长度为23个碱基,并以NGG结尾,对数据集标签进行预处理,将包含脱靶位点的样本标记为正样本,标签为1,不包含脱靶位点的样本标记为负样本,标签为0;
S3:对样本数据集进行编码并加入特征;
S4:通过LSTM网络模型提取特征,其中,LSTM网络模型包括:卷积特征融合模块、门控循环单元特征融合模块、卷积层和密集层;
S5:将序列特征得到分数与手工特征分数进行结合;
S6:采用SMOTE方法对正样本进行过采样,并结合欠采样选出对应数量的负样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310402256.4/2.html,转载请声明来源钻瓜专利网。