[发明专利]一种基于深度学习的CRISPR脱靶效应预测方法有效
申请号: | 202010030316.0 | 申请日: | 2020-01-12 |
公开(公告)号: | CN111261223B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 彭绍亮;陈东;舒文杰;李肯立;骆嘉伟;刘云浩;刘凡;刘阳辉;刘浩 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/00;G16B40/00 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 crispr 脱靶 效应 预测 方法 | ||
本发明属于生物信息学领域,公开了一种基于深度学习的CRISPR脱靶效应预测方法,通过使用BERT模型对人类基因组进行信息的抽取,有效地利用基因组的先验信息,并对数据进行有效地加强,最后将获取到的特征输入到LightGBM方法中进行训练预测,本发明解决了数据量少和数据不平衡的问题,并实现了对CRISPR脱靶效应的有效预测,具有十分重要的推广应用价值。
技术领域
本发明涉及一种基于深度学习的CRISPR脱靶效应预测方法,属于生物信息学领域。
背景技术
CRISPR/Cas9系统介导的基因编辑技术是继锌指核酸酶、类转录激活因子效应物核酸酶后出现的第三代“基因组定点编辑技术”,可对特定位置上的DNA序列进行编辑与修改。近年来,CRISPR/Cas9技术主要应用于基因敲除、基因敲入、DNA大片段删除、转录调控、基因检测、基因标记。但是,该技术还存在许多科学问题有待研究。比如,CRISPR/Cas9是一种单链酶,其自身具有不稳定性,容易引起突变导致脱靶效应。因此,克服脱靶效应和提高基因组编辑效率成为研究人员亟待解决的问题。然而目前对于CRISPR的脱靶效应预测主要采用生物信息和实验经验等人工方式,效率十分低下。另一方面,目前的自动化方法并不能有效地利用基因组的先验信息,也不能很好的处理当下实验数据标签不平衡的问题。有鉴于此,有必要发明一种方法,该方法既能有效利用基因组的先验信息,也对实验数据进行增强,以解决数据少的问题,进而能有效地对CRISPR/Cas9的脱靶效应进行预测。
发明内容
针对上述问题,本发明提供一种基于深度学习的CRISPR脱靶效应预测方法。
为了实现上述目的,本发明的解决方案是:
一种基于深度学习的CRISPR脱靶效应预测方法,包括如下步骤:
第一步、开始对人类基因组hg19所有的基因过滤:为避免预训练的数据过于庞大造成后续预测精度的降低,需要首先过滤掉与任务无关的数据,并且针对性地找出所有PAM序列为NGG的基因片段,进而对PAM序列为NGG的序列对进行预测;
第二步、对原始语料进行预处理,具体分为如下四个步骤:
1.首先将序列以空格为间隔进行切分;
2.构建序列样本对,随机地将两个序列进行组合,正例样本对为两个序列有上下文关系,负例样本对为两个序列无上下文关系;
3.连接序列对,用[SEP]标签进行分割序列,并在序列对的最开头置[CLS]标签;
4.把原始基因语料中15%的碱基字符进行遮盖:80%的概率使用[MASK]标签来进行替换,10%的概率使用随机采样的一个碱基来进行替换,10%的概率不进行替换;
第三步、对模型进行预训练:根据上一步预处理后的训练语料数据训练BERT(Bidirectional Encoder Representations from Transformers)序列模型,BERT序列模型包括词嵌入层,多头Attention编码器层,残差网络层,前馈神经网络层;
进一步使用两个步骤去对模型进行训练:第一个步骤是让模型的上下文全向地预测被遮盖的词,模型的任务是正确地预测出这15%的被遮盖的词汇,通过全向预测被遮盖住的词汇,来初步训练模型的参数;然后,用第二个步骤继续训练模型的参数,即让模型来识别这些序列对,哪些是连续的,哪些不连续;
第四步、获取由BERT提取的词向量,由于BERT是一个多层Attention的组合,每个碱基tk在每一层都会有一个特征表示,将一个L层的BERT表达如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010030316.0/2.html,转载请声明来源钻瓜专利网。