[发明专利]一种基于深度学习的CRISPR脱靶效应预测方法有效

专利信息
申请号: 202010030316.0 申请日: 2020-01-12
公开(公告)号: CN111261223B 公开(公告)日: 2022-05-03
发明(设计)人: 彭绍亮;陈东;舒文杰;李肯立;骆嘉伟;刘云浩;刘凡;刘阳辉;刘浩 申请(专利权)人: 湖南大学
主分类号: G16B15/30 分类号: G16B15/30;G16B30/00;G16B40/00
代理公司: 国防科技大学专利服务中心 43202 代理人: 王文惠
地址: 410012 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 crispr 脱靶 效应 预测 方法
【权利要求书】:

1.一种基于深度学习的CRISPR脱靶效应预测方法,其特征在于,包括如下步骤:

第一步、开始对人类基因组hg19所有的基因过滤:为避免预训练的数据过于庞大造成后续预测精度的降低,需要首先过滤掉与任务无关的数据,并且针对性地找出所有PAM序列为NGG的基因片段,进而对PAM序列为NGG的序列对进行预测;

第二步、对原始语料进行预处理,具体分为如下四个步骤:

1.首先将序列以空格为间隔进行切分;

2.构建序列样本对,随机地将两个序列进行组合,正例样本对为两个序列有上下文关系,负例样本对为两个序列无上下文关系;

3.连接序列对,用[SEP]标签进行分割序列,并在序列对的最开头置[CLS]标签;

4.把原始基因语料中15%的碱基字符进行遮盖:80%的概率使用[MASK]标签来进行替换,10%的概率使用随机采样的一个碱基来进行替换,10%的概率不进行替换;

第三步、对模型进行预训练:根据上一步预处理后的训练语料数据训练BERT序列模型,BERT序列模型包括词嵌入层,多头Attention编码器层,残差网络层,前馈神经网络层;

进一步使用两个步骤去对模型进行训练:第一个步骤是让模型的上下文全向地预测被遮盖的词,模型的任务是正确地预测出这15%的被遮盖的词汇,通过全向预测被遮盖住的词汇,来初步训练模型的参数;然后,用第二个步骤继续训练模型的参数,即让模型来识别这些序列对,哪些是连续的,哪些不连续;

第四步、获取由BERT提取的词向量,由于BERT是一个多层Attention的组合,每个碱基tk在每一层都会有一个特征表示,将一个L层的BERT表达如下:

Rk为第k个碱基所得到的所有特征表示,其中xkAT为该碱基的词嵌入层的输出,hATk,j是第j层的多头Attention层的输出;

最后确定通用表达式如下:

是第k个碱基针对脱靶预测任务task所得到的最终的词向量,E(Rk;Θtask)中Θtask为针对脱靶预测任务的参数,其中包括γtask和γtask是一个固定的常数值,是第j层多头Attention层输出值所要乘的一个可学习的系数值,最终的输出是由最后四层的多头Attention层的输出进行加权融合而得到;

第五步、将获取到的BERT碱基向量和人工特征进行结合得到最终的特征向量,进而得到所有训练样本的向量;由于样本极度不平衡,进一步对样本数较少的一类使用SMOTE方法进行数据增强操作;

第六步、将训练集输入到LightGBM中进行训练,最后得到模型,模型的最后输出为一个概率值,这个值即为判断是否出现脱靶效应的依据。

2.如权利要求1所述的一种基于深度学习的CRISPR脱靶效应预测方法,其特征在于,所述第三步中的词嵌入层在序列的One-hot向量的基础上增加了位置嵌入的信息,对序列长度为n的序列,词嵌入层将id为pos的碱基映射为dmodel维的位置向量,PE(pos,2i)和PE(pos,2i+1)分别为向量中偶数位和奇数位的位置编码值,其中位置向量的计算方式如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010030316.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top