[发明专利]基于注意力孪生网络的蛋白质结合位点预测方法有效

申请号：	202110041598.9	申请日：	2021-01-13
公开（公告）号：	CN112837747B	公开（公告）日：	2022-07-12
发明（设计）人：	吴贺贺;潘小勇;杨旸;沈红斌	申请（专利权）人：	上海交通大学
主分类号：	G16B20/30	分类号：	G16B20/30
代理公司：	上海交达专利事务所 31201	代理人：	王毓理;王锡麟
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力孪生网络蛋白质结合预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力孪生网络的蛋白质结合位点预测方法，其特征在于，采用具有两个CNN结构的神经网络对输入的进行特征提取，再根据提取到的特征估计绑定概率，得到预测的RNA序列绑定蛋白质的概率；

所述的神经网络，包括两个串联的卷积层、修正线性层、全连接层、全局池化层、H-swish激活层，其中：第一卷积层根据输入RNA序列信息，进行卷积处理，得到卷积之后的结果，第二卷积层根据第一卷积层处理的结果进行卷积处理，得到卷积之后的结果，修正线性层根据第一卷积层的结果，进行修正处理，得到非线性化的结果，H-swish激活层根据第一卷积层的结果经过全连接层、全局池化、全连接层的信息，进行激活处理，得到激活之后的结果，将该结果与第二卷积神经网络层得到的结果进行融合得到最终输出；

所述的神经网络，通过从对RBP数据集中采样构建正、负样本对；经过one-hot编码后按样本对为单位进行训练；

所述的绑定概率是指：其中：度量函数M(.)＝F(|f_θ(x_q)-f_θ(x_j)|)，f_θ(.)为特征向量，|.|为绝对值，F(.)为全连接层，p_q即为预测的RNA序列x_q绑定蛋白质的概率。

2.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的特征提取，得到：测试RNA序列x_j和支持集序列对应的特征f_θ(x_q)和特征{f_θ(x_j),j＝1…m}。

3.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的RBP数据集，即RBP-24和RBP-37，其中将RBP-37的各个RBP按照8:2的比例划分训练集和测试集，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集中以保证同一条RNA全长序列不同时出现在训练集和测试集。

4.根据上述任一权利要求所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，具体包括：

S1、获取基准数据集，将RBP-37的各个RBP按照8:2的比例划分训练集和测试集；

S2、使用C22ORF28训练的结果作为模型的初始化参数代替模型参数随机初始化，在预训练时，输入对采样的数量是在具体任务上训练采样数量的五倍；

S3、训练时，从对指定RBP数据集中采样构建正、负样本对；经过编码后按对为单位输入嵌入网络f_θ中提取得到特征向量{f_θ(x_j),j＝1、2}，根据特征表示之间的差d＝|f_θ(x₁)-f_θ(x₂)|计算得到绑定位点的概率P＝Sigmoid(F(d))，其中：f_θ(.)为特征向量，|.|为差的绝对值，F(.)为全连接层；

S4、测试时，将查询集的测试序列和支持集中所有序列组成样本对，由神经网络分别提取得到特征向量后经分别计算得到绑定位点的概率，最后平均得到的结果作为测试序列绑定倾向的预测分数。

5.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的预训练，使用C22ORF28训练的结果作为模型的初始化参数，代替模型参数随机初始化。

6.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集，以保证同一条RNA全长序列不同时出现在训练集和测试集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110041598.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力孪生网络的蛋白质结合位点预测方法有效

专利文献下载