[发明专利]一种基于多源异质信息聚合的蛋白质功能预测方法在审

申请号：	202310026625.4	申请日：	2023-01-09
公开（公告）号：	CN116092577A	公开（公告）日：	2023-05-09
发明（设计）人：	张树刚;魏志强;马文健	申请（专利权）人：	中国海洋大学
主分类号：	G16B15/20	分类号：	G16B15/20;G06F17/16;G16B40/00;G06N3/0464;G06N3/0455;G06N3/08
代理公司：	济南泉城专利商标事务所 37218	代理人：	张贵宾
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多源异质信息聚合蛋白质功能预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于：包括以下步骤：

(1)构建PPI拓扑特征

首先，从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征，然后，利用STRING数据库提供的“综合分数”来表达一对蛋白质之间的相互作用置信度，最后，根据该相互作用记录构建一个包含若干蛋白质的PPI网络，每个结点表示一个蛋白质；

(2)构建序列相似性网络(SSN)拓扑特征

以步骤(1)中收集的蛋白质为基础，利用BLAST构造具有“相似分数”的SSN网络，与PPI网络中的“综合分数”不同，SSN中一对蛋白质之间的“相似分数”越小，则对应的两个序列越相似；

(3)确定PPI和SSN网络中的节点特征

SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系，而节点特征则表达了两个网络中单个蛋白质节点的生物学信息，将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建PPI和SSN网络中的特征矩阵；

(4)利用GraphMAE框架获取蛋白质潜在特征

PPI网络表示为无向无权图其中A_PPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵，邻接矩阵和征矩阵分别从步骤(1)和(3)中获得；在此基础上，随机抽取若干比例的蛋白质节点进行掩码操作，并将该比例设置为超参数纳入模型种；

经过掩码操作后，PPI网络的掩码特征矩阵中的节点特征定义为：

其中，表示PPI网络的掩码特征矩阵，对于掩码节点集内的节点，采用掩码处理得到节点特征x_[Mask]；对于掩码节点集以外的节点，则仍保留其原节点特征x_i。

然后，将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中；由于GCN在节点级和图像级分类任务中具有独特的优越性，所以应用了双层GCN作为图编码器来生成PPI网络中每个蛋白质节点的潜在表示H：

其中，表示PPI网络的对称归一化邻接矩阵，可由PPI的邻接矩阵D及归一化邻接矩阵A_PPI计算：表示掩码特征矩阵；表示PPI网络中蛋白质节点的数量；W₀及W₁表示可学习参数，GCN_enc(·)表示图卷积神经网络组成的编码器。

为了得到更高质量的蛋白质潜在表示，应用了具有重掩码策略的解码器，在重掩码操作之后，蛋白质节点信息的潜在表示定义为：

其中，h_[DMask]表示经过重掩码处理的蛋白节点特征，h_i表示无需经过重掩码处理的节点特征。

为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征，选择单层GCN作为图解码器来重建原始特征矩阵：

其中，表示PPI网络中蛋白质节点的潜在表示；W表示可学习参数；Z∈R^N×d，表示解码器重建的特征矩阵；

为了优化GraphMAE框架中的众多可学习参数，提高功能预测的性能，将更适用于重掩蛋白特征表示的缩放余弦误差作为损失函数纳入模型：

其中，表示第i个掩码蛋白节点的原始特征，T代表特征转置操作；表示解码器对应的重构特征；γ表示缩放因子。

将特征矩阵X与PPI网络的邻接矩阵A_PPI的邻接矩阵结合，得到蛋白质的潜在表示：

emb_PPI＝GCN_enc(X,A_PPI)

以上为PPI网络中蛋白质潜在表示的计算方法，因为SSN网络和PPI网络共享相同的蛋白质节点，所以二者的蛋白质潜在表示的计算方法相同；

(5)构建基于序列的蛋白质语言模型

将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取，然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与emb_PPI和emb_SSN相同的向量空间：

emb_seq＝LeakyReLU(X·W+b)

其中，W表示可学习参数；b表示是偏置项；emb_seq∈R^N×400，表示SSN或PPI网络中蛋白质节点的投影序列特征，emb_PPI和emb_SSN表示PPI、SSN网络中蛋白质节点的投影序列特征；

(6)运用全连接分类器进行功能预测

将经过上述步骤获得的emb_PPI、emb_SSN以及emb_seq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测：、

y＝Sigmoid(emb·W+b)

emb＝[emb_PPI+X_consensus,emb_SSN+X_consensus,emb_seq+X_consensus]

X_consensus＝avg(emb_SSN,emb_PPI,emb_seq)

其中，W表示分类器中的可学习参数；b表示偏置项；在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征，即X_consensus，将X_consensus添加到

emb_PPI、emb_SSN和emb_seq进行特征增强以提高训练阶段的稳定性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国海洋大学，未经中国海洋大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310026625.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载