[发明专利]用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统有效
申请号: | 202010000530.1 | 申请日: | 2020-01-02 |
公开(公告)号: | CN111192631B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 吴杨;杨瑞;赵屹 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B5/00;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 构建 预测 蛋白质 rna 相互作用 结合 模型 方法 系统 | ||
本发明提供了一种构建用于预测蛋白质‑RNA相互作用结合位点模型的方法和系统,与其对应的还包括使用该方法预测蛋白质‑RNA相互作用结合位点的方法和系统。其使用RNA与蛋白质结合位点处及上下游的序列特征以及测定的RNA结构特征来训练深度学习模型,并使用所述模型对蛋白质‑RNA相互作用结合位点进行预测。在所述特征的提取过程中分别使用了基于卷积神经网络构建的基序获取模块和基于循环神经网络构建的上下文语义获取模块。本发明中训练出的模型在判断准确度和计算时间以及应用平台的广泛性方面都相比于现有技术有着显著进步。
技术领域
本发明涉及RNA-蛋白质相互作用预测技术,尤其涉及用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及对应的使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统。
背景技术
目前基于深度学习技术对RNA-蛋白质相互作用预测的方法主要有DeepBind(参见Alipanahi,B et al.,(2015).Nature Biotechnology 33,831–
838.)、Deepnet-rbp(参见Zhang,S et al.,(2016).Nucleic Acids Res 44,e32–
e32)和iDeepE(参见Pan,X et al.,(2018).Bioinformatics 34,3427–3436)等。
现有技术DeepBind方法,该模型结构使用卷积神经网络,基于RNA的序列数据进行训练。由于提出时间较早,模型结构简单,因此建模能力不足,准确率较低。而且仅使用RNA与蛋白质结合的序列信息,未考虑RNA的结构信息。
另一个现有技术Deepnet-rbp方法,该方法整合RNA与蛋白质结合的序列信息,并引入“预测”(非真实实验数据)的RNA三级结构信息,使用深度信念网络进行建模,准确率有了一定的提升,但仍较低。另外预测RNA三级结构信息过程非常耗时,因此模型训练时间也较长。
另一个现有技术iDeepE方法,训练了两个分别基于全局序列和局部序列的卷积神经网络模型,并将这两个模型的预测结果求平均作为最终预测值。虽然其准确率相对有提升,但是大幅提升了训练模型的复杂程度,容易导致过拟合,同时也会大大增加了该模型在计算机上训练的计算时间。
另外,Deepnet-rbp方法使用的RNA结构为预测的体外结构,并非来自实验中的真实体内数据,从而不足以捕捉体内条件下的真实RNA结构信息,因此模型的预测准确度也相应受到影响。
发明内容
因此本发明实施例的目的在于克服上述现有技术的缺陷,提供一种用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统,对蛋白质-RNA相互作用结合位点进行有效预测。
根据本发明的一方面,本发明提供一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法,包括以下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上,基于深度学习方法进行模型训练,得到所述蛋白质-RNA相互作用结合位点的预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010000530.1/2.html,转载请声明来源钻瓜专利网。