[发明专利]用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统有效
申请号: | 202010000530.1 | 申请日: | 2020-01-02 |
公开(公告)号: | CN111192631B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 吴杨;杨瑞;赵屹 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B5/00;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 构建 预测 蛋白质 rna 相互作用 结合 模型 方法 系统 | ||
1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据,其中所述结构数据是RNA结构组学测定实验技术所产生的结构数据,其提供体内真实细胞状态下RNA的二级结构信息;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合,其中所述步骤2包括:
步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;
步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;
步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合,其中所述循环神经网络RNN方法包括用于进行序列上下文语义学习的双向长短时记忆Bi-LSTM层,其中所述步骤3包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;
步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的序列特征映射和结构特征映射;
步骤303,将所述的结合位点及其上下游区域的序列和结构的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的所述Bi-LSTM层计算模型中进行序列上下文语义特征的学习,输出上下文语义特征映射;
步骤304,将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块,输出完整的上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上基于回归训练或分类训练进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。
2.根据权利要求1所述的方法,其中所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS或者icSHAPE结构数据。
3.根据权利要求1所述的方法,其中对所述结合位点及其上下游区域的序列数据进行编码采用如下公式:
其中,表示待编码的序列数据,表示编码后的输出值。
4.根据权利要求1所述的方法,其特征在于,所述回归训练使用均方误差损失进行训练,或所述分类训练使用Softmax激活函数和交叉熵损失进行训练。
5.一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求1至4任一项所述方法。
6.一种计算机可读储存介质,其上储存有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至4任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010000530.1/1.html,转载请声明来源钻瓜专利网。