[发明专利]一种基于特征工程的基因编辑脱靶效应预测方法在审
申请号: | 202310402256.4 | 申请日: | 2023-04-14 |
公开(公告)号: | CN116364173A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 黄一人;江振然 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/00;G16B40/20;G06F18/213;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 上海思真远达专利代理事务所(特殊普通合伙) 31481 | 代理人: | 李梅 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 工程 基因 编辑 脱靶 效应 预测 方法 | ||
1.一种基于特征工程的基因编辑脱靶效应预测方法,其特征在于,包括以下步骤:
S1:获取公开数据集:获取包含sgRNA序列与目标DNA序列不匹配的公开实验数据作为可能的脱靶序列,其中,所述数据集包括GUIDE-Seq,HTGTS,BLESS;
S2:每个序列样本长度为23个碱基,并以NGG结尾,对数据集标签进行预处理,将包含脱靶位点的样本标记为正样本,标签为1,不包含脱靶位点的样本标记为负样本,标签为0;
S3:对样本数据集进行编码并加入特征;
S4:通过LSTM网络模型提取特征,其中,LSTM网络模型包括:卷积特征融合模块、门控循环单元特征融合模块、卷积层和密集层;
S5:将序列特征得到分数与手工特征分数进行结合;
S6:采用SMOTE方法对正样本进行过采样,并结合欠采样选出对应数量的负样本;
S7:将处理后得到的数据集样本按照85%:15%的比例划分为训练集与测试集;
S8:使用嵌入式特征选择对样本特征进行选择和过滤;
S9:将训练好的模型使用测试集进行评估,主要评估指标采用Accuracy和AUC值,其中,Accuracy越高表示预测准确率越好,AUC越高表示预测稳定性和分类效果更优。
2.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,步骤S3中,具体包括以下步骤:
将A、T、G、C四个碱基与碱基缺失编码为五个one-hot独热向量(1,0,0,0,0),(0,1,0,0,0),(0,0,1,0,0),(0,0,0,1,0),(0,0,0,0,1),使用或操作获得碱基对编码,同时,增加两个方向通道用于帮助区分碱基对类型;
使用LSTM网络对编码后的特征向量进行特征的学习,并得到一个基于序列特征的脱靶预测分数。
3.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,在步骤S4中,模型输入为上述sgRNA-DNA序列对编码矩阵,编码矩阵的大小为(23,7),其中,23是序列长度,7是核苷酸对的编码位数。
4.根据权利要求3所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,编码后的序列特征处理过程流程为:
编码矩阵输入卷积特征融合模块,其中,卷积特征融合模块由多个卷积模块组成,每个卷积模块包含一个卷积层,一个批正则化层,一个PReLU激活层;
多个卷积核叠加形成卷积层,通过卷积层,模型依次对每个核苷酸对的编码进行卷积操作,获得核苷酸对的抽象类型特征;
将输入与卷积模块的输出进行拼接操作,构建一个具有高低层核苷酸对类型特征的特征图;
随后,卷积特征融合模块提取的特征图将输入到正向GRU特征融合模块与反向GRU特征融合模块,其中,两个融合模块都基于GRU模块构建,每个GRU模块包括一个GRU层,一个批正则化层,一个PReLU激活层,一个丢弃层;
正向GRU特征融合模块,反向GRU特征融合模块,与卷积特征融合模块输出的特征图进行堆叠合并后,用于后续网络层的特征学习;
通过平均池化操作对特征的小变换变得近似不变,提高模型的泛化能力;
最后,提取的特征输入到密集层,预测发生脱靶效应的分数。
5.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,在步骤S5中,具体包括以下步骤:
sgRNA与六个特征共同构成特征向量,并加入生物学特征,同时添加相应的二分类标签0或1,其中,六个特征包括:DNA对的CFD分数、CCTop分数、CRISTA分数、GC含量、错配个数和sgRNA-DNA序列相似性得分。
6.根据权利要求1所述的基于特征工程的基因编辑脱靶效应预测方法,其特征在于,步骤S6还用于对噪音数据进行清洗,其中,在步骤S6中具体使用imblearn包的SMOTEENN方法获得最终的正负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310402256.4/1.html,转载请声明来源钻瓜专利网。