[发明专利]一种基于节点向量的蛋白质复合物识别方法有效
申请号: | 201810693748.2 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033746B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 杨志豪;刘晓霞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/30 |
代理公司: | 21208 大连星海专利事务所有限公司 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于节点向量的蛋白质复合物识别方法,该方法包括以下步骤:S1、采集包含蛋白质交互作用关系的蛋白质对数据集:S2、构建蛋白质交互作用关系网络;S3、网络节点向量化;S4、网络边加权;S5、选取种子节点;S6、种子节点扩张从而形成候选蛋白质复合物子图;S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图。本发明适用于从已有的蛋白质交互作用关系中识别蛋白质复合物的工作,不限于蛋白质交互作用关系的来源,能够有效的识别蛋白质复合物,将有助于在蛋白质水平上揭示疾病等生命活动的基本机理。 | ||
搜索关键词: | 蛋白质复合物 蛋白质交互作用 候选蛋白质 节点向量 种子节点 复合物 蛋白质水平 关系网络 生命活动 网络节点 数据集 向量化 构建 加权 过滤 蛋白 采集 输出 疾病 网络 | ||
【主权项】:
1.一种基于节点向量的蛋白质复合物识别方法,其特征在于,该方法包括以下步骤:/nS1、采集包含蛋白质交互作用关系的蛋白质对数据集:从已有的蛋白质交互作用关系数据库中采集具有蛋白质交互作用关系的蛋白质对,去除重复以及具有自连接蛋白质交互作用关系的蛋白质对,并将所述蛋白质对以统一格式存储为蛋白质对数据集;/nS2、构建蛋白质交互作用关系网络:使用蛋白质对数据集构建蛋白质交互作用关系网络G(V,E,W),其中,V为节点的集合、E为边的集合、W为边的权重集:将蛋白质对数据集中每个蛋白质对中的蛋白质作为蛋白质交互作用关系网络G(V,E,W)的节点;节点间的边为该蛋白质对的蛋白质交互作用关系;将每条边的初始权重设为1;/nS3、网络节点向量化:利用无监督训练模型对蛋白质交互关系网络进行图嵌入:将蛋白质交互作用网络中的每个节点表示为向量形式,作为蛋白质向量;具体方法为:对于蛋白质交互作用网络中的每个节点定义一个d维实数向量,每一维实数向量为一个变量,每个节点与从当前节点出发通过k步随机游走到达的h个节点形成节点序列,该节点序列作为当前节点的上下文,其中d、k、h为自然数;使用Skip-Gram模型,并将d维实数向量作为模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,以使当前节点的蛋白质向量与其所在节点序列中的各节点的蛋白质向量的余弦相似度在0.8到1之间;最后,将更新后得到的d维实数向量作为当前节点的蛋白质向量;/nS4、网络边加权:将蛋白质交互关系网络中,每条边两端的蛋白质向量之间的夹角余弦值对该条边权值的初始权重进行更新,得到加权蛋白质交互关系网络;/nS5、选取种子节点:计算每个节点v
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810693748.2/,转载请声明来源钻瓜专利网。