[发明专利]一种基于节点向量的蛋白质复合物识别方法有效
申请号: | 201810693748.2 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033746B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 杨志豪;刘晓霞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/30 |
代理公司: | 21208 大连星海专利事务所有限公司 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质复合物 蛋白质交互作用 候选蛋白质 节点向量 种子节点 复合物 蛋白质水平 关系网络 生命活动 网络节点 数据集 向量化 构建 加权 过滤 蛋白 采集 输出 疾病 网络 | ||
1.一种基于节点向量的蛋白质复合物识别方法,其特征在于,该方法包括以下步骤:
S1、采集包含蛋白质交互作用关系的蛋白质对数据集:从已有的蛋白质交互作用关系数据库中采集具有蛋白质交互作用关系的蛋白质对,去除重复以及具有自连接蛋白质交互作用关系的蛋白质对,并将所述蛋白质对以统一格式存储为蛋白质对数据集;
S2、构建蛋白质交互作用关系网络:使用蛋白质对数据集构建蛋白质交互作用关系网络G(V,E,W),其中,V为节点的集合、E为边的集合、W为边的权重集:将蛋白质对数据集中每个蛋白质对中的蛋白质作为蛋白质交互作用关系网络G(V,E,W)的节点;节点间的边为该蛋白质对的蛋白质交互作用关系;将每条边的初始权重设为1;
S3、网络节点向量化:利用无监督训练模型对蛋白质交互关系网络进行图嵌入:将蛋白质交互作用网络中的每个节点表示为向量形式,作为蛋白质向量;具体方法为:对于蛋白质交互作用网络中的每个节点定义一个d维实数向量,每一维实数向量为一个变量,每个节点与从当前节点出发通过k步随机游走到达的h个节点形成节点序列,该节点序列作为当前节点的上下文,其中d、k、h为自然数;使用Skip-Gram模型,并将d维实数向量作为模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,以使当前节点的蛋白质向量与其所在节点序列中的各节点的蛋白质向量的余弦相似度在0.8到1之间;最后,将更新后得到的d维实数向量作为当前节点的蛋白质向量;
S4、网络边加权:将蛋白质交互关系网络中,每条边两端的蛋白质向量之间的夹角余弦值对该条边权值的初始权重进行更新,得到加权蛋白质交互关系网络;
S5、选取种子节点:计算每个节点vt的度deg(vt),其中,t∈{1,...,|V|},V为节点的集合,|V|为蛋白质交互作用关系网络中节点的总个数;同时求出整个网络的平均度averagedegree(G(V,E,W)),提取节点度等于或大于蛋白质交互作用关系网络平均度的节点作为种子节点加入种子节点集合中,种子节点集合表示为seedset;其中,通过以下公式计算蛋白质交互作用关系网络的平均度averagedegree(G(V,E,W)):
S6、种子节点扩张从而形成候选蛋白质复合物子图:包括以下步骤:
a1、选取种子节点集合seedset中的一个种子节点vi作为当前种子节点,i∈{1,…,len(seedset)},其中len(seedset)为种子节点集合的大小;将当前种子节点vi作为一个子图clusteri,并设置该子图clusteri的初始分值为0,然后对步骤S4得到的蛋白质交互作用加权网络,使用别名采样方法为当前种子节点选择候选节点,加入当前候选节点并更新子图clusteri及其分值score(clusteri);给定一个子图clusteri,其分值的计算方法为:
其中为子图clusteri中边的集合,表示子图clusteri中点的集合;其中表示由子图clusteri中所有节点构成的带权重的邻接矩阵中第m行第n列的数值,表示由子图clusteri中所有节点构成的度权重矩阵中第m行第m列的数值;
a2、从更新的子图clusteri中随机选择一个节点作为待扩张节点,采用基于网络权值的别名采样方法为当前待扩张节点选择候选节点,如果加入候选节点可以使当前子图的分值升高,即加入候选节点后的子图分值高于当前子图分值,则加入当前候选节点并更新子图clusteri及其分值score(clusteri):
a3、从当前子图clusteri中选取边缘节点,如果删除边缘节点可以使当前子图的分值升高,即删除所选边缘节点后的子图分值高于当前子图分值,则删除所选边缘节点并更新子图clusteri及其分值score(clusteri);
a4、重复步骤a2和a3,直到子图clusteri及其分值不再发生变化;
a5、输出当前种子节点vi对应的子图clusteri及其分值作为候选蛋白质复合物子图,并从种子节点集合seedset中删除当前种子节点vi;
a6、重复a1-a5步骤,直到seedset为空;得到候选蛋白质复合物子图;
S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图:包括以下步骤:
b1、将所有候选蛋白质复合物子图按照其分值降序排序,得到排序后的候选蛋白质复合物子图集合C={C1,C2,C3,...,Cr},其中r为识别出的候选蛋白质复合物子图的个数,对任意一个候选蛋白质复合物子图Ca,a∈{1,...,r},计算该候选蛋白质复合物子图Ca与子图分值低于Ca的候选蛋白质复合物子图Cb的重合度b∈{1,...,r},重合度计算公式为:如果Ca与Cb的重合度大于预设合并阈值,则计算合并Ca与Cb后子图的分值,如果分值大于Ca,则将Ca更新为Ca∪Cb并删除Cb,如果分值小于Ca,则删除Cb,重复此步骤直到没有候选复合物需要合并;
b2、输出更新后的节点个数大于或等于预设阈值的所有候选蛋白质复合物子图作为最终识别的蛋白质复合物子图,输出识别所得的所有蛋白质复合物子图即得到最终的蛋白质复合物。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810693748.2/1.html,转载请声明来源钻瓜专利网。