[发明专利]一种基于节点向量的蛋白质复合物识别方法有效

申请号：	201810693748.2	申请日：	2018-06-29
公开（公告）号：	CN109033746B	公开（公告）日：	2020-01-14
发明（设计）人：	杨志豪;刘晓霞	申请（专利权）人：	大连理工大学
主分类号：	G16B20/00	分类号：	G16B20/00;G16B40/30
代理公司：	21208 大连星海专利事务所有限公司	代理人：	徐雪莲
地址：	116023 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	蛋白质复合物蛋白质交互作用候选蛋白质节点向量种子节点复合物蛋白质水平关系网络生命活动网络节点数据集向量化构建加权过滤蛋白采集输出疾病网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于节点向量的蛋白质复合物识别方法，其特征在于，该方法包括以下步骤：

S1、采集包含蛋白质交互作用关系的蛋白质对数据集：从已有的蛋白质交互作用关系数据库中采集具有蛋白质交互作用关系的蛋白质对，去除重复以及具有自连接蛋白质交互作用关系的蛋白质对，并将所述蛋白质对以统一格式存储为蛋白质对数据集；

S2、构建蛋白质交互作用关系网络：使用蛋白质对数据集构建蛋白质交互作用关系网络G(V，E，W)，其中，V为节点的集合、E为边的集合、W为边的权重集：将蛋白质对数据集中每个蛋白质对中的蛋白质作为蛋白质交互作用关系网络G(V，E，W)的节点；节点间的边为该蛋白质对的蛋白质交互作用关系；将每条边的初始权重设为1；

S3、网络节点向量化：利用无监督训练模型对蛋白质交互关系网络进行图嵌入：将蛋白质交互作用网络中的每个节点表示为向量形式，作为蛋白质向量；具体方法为：对于蛋白质交互作用网络中的每个节点定义一个d维实数向量，每一维实数向量为一个变量，每个节点与从当前节点出发通过k步随机游走到达的h个节点形成节点序列，该节点序列作为当前节点的上下文，其中d、k、h为自然数；使用Skip-Gram模型，并将d维实数向量作为模型的输入变量，通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新，以使当前节点的蛋白质向量与其所在节点序列中的各节点的蛋白质向量的余弦相似度在0.8到1之间；最后，将更新后得到的d维实数向量作为当前节点的蛋白质向量；

S4、网络边加权：将蛋白质交互关系网络中，每条边两端的蛋白质向量之间的夹角余弦值对该条边权值的初始权重进行更新，得到加权蛋白质交互关系网络；

S5、选取种子节点：计算每个节点v_t的度deg(v_t)，其中，t∈{1，...，|V|}，V为节点的集合，|V|为蛋白质交互作用关系网络中节点的总个数；同时求出整个网络的平均度average_degree(G(V，E，W))，提取节点度等于或大于蛋白质交互作用关系网络平均度的节点作为种子节点加入种子节点集合中，种子节点集合表示为seed_set；其中，通过以下公式计算蛋白质交互作用关系网络的平均度average_degree(G(V，E，W))：

S6、种子节点扩张从而形成候选蛋白质复合物子图：包括以下步骤：

a1、选取种子节点集合seed_set中的一个种子节点v_i作为当前种子节点，i∈{1，…，len(seed_set)}，其中len(seed_set)为种子节点集合的大小；将当前种子节点v_i作为一个子图cluster_i，并设置该子图cluster_i的初始分值为0，然后对步骤S4得到的蛋白质交互作用加权网络，使用别名采样方法为当前种子节点选择候选节点，加入当前候选节点并更新子图cluster_i及其分值score(cluster_i)；给定一个子图cluster_i，其分值的计算方法为：

其中为子图cluster_i中边的集合，表示子图cluster_i中点的集合；其中表示由子图cluster_i中所有节点构成的带权重的邻接矩阵中第m行第n列的数值，表示由子图cluster_i中所有节点构成的度权重矩阵中第m行第m列的数值；

a2、从更新的子图cluster_i中随机选择一个节点作为待扩张节点，采用基于网络权值的别名采样方法为当前待扩张节点选择候选节点，如果加入候选节点可以使当前子图的分值升高，即加入候选节点后的子图分值高于当前子图分值，则加入当前候选节点并更新子图cluster_i及其分值score(cluster_i)：

a3、从当前子图cluster_i中选取边缘节点，如果删除边缘节点可以使当前子图的分值升高，即删除所选边缘节点后的子图分值高于当前子图分值，则删除所选边缘节点并更新子图cluster_i及其分值score(cluster_i)；

a4、重复步骤a2和a3，直到子图cluster_i及其分值不再发生变化；

a5、输出当前种子节点v_i对应的子图cluster_i及其分值作为候选蛋白质复合物子图，并从种子节点集合seed_set中删除当前种子节点v_i；

a6、重复a1-a5步骤，直到seed_set为空；得到候选蛋白质复合物子图；

S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图：包括以下步骤：

b1、将所有候选蛋白质复合物子图按照其分值降序排序，得到排序后的候选蛋白质复合物子图集合C＝{C₁，C₂，C₃，...，C_r}，其中r为识别出的候选蛋白质复合物子图的个数，对任意一个候选蛋白质复合物子图C_a，a∈{1，...，r}，计算该候选蛋白质复合物子图C_a与子图分值低于C_a的候选蛋白质复合物子图C_b的重合度b∈{1，...，r}，重合度计算公式为：如果C_a与C_b的重合度大于预设合并阈值，则计算合并C_a与C_b后子图的分值，如果分值大于C_a，则将C_a更新为C_a∪C_b并删除C_b，如果分值小于C_a，则删除C_b，重复此步骤直到没有候选复合物需要合并；

b2、输出更新后的节点个数大于或等于预设阈值的所有候选蛋白质复合物子图作为最终识别的蛋白质复合物子图，输出识别所得的所有蛋白质复合物子图即得到最终的蛋白质复合物。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810693748.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种消除三维基因组学技术噪音的方法及应用
下一篇：基于PLS多扰动集成基因选择的肿瘤特异基因识别方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于节点向量的蛋白质复合物识别方法有效

专利文献下载