[发明专利]一种基于节点向量的蛋白质复合物识别方法有效
申请号: | 201810693748.2 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033746B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 杨志豪;刘晓霞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/30 |
代理公司: | 21208 大连星海专利事务所有限公司 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质复合物 蛋白质交互作用 候选蛋白质 节点向量 种子节点 复合物 蛋白质水平 关系网络 生命活动 网络节点 数据集 向量化 构建 加权 过滤 蛋白 采集 输出 疾病 网络 | ||
一种基于节点向量的蛋白质复合物识别方法,该方法包括以下步骤:S1、采集包含蛋白质交互作用关系的蛋白质对数据集:S2、构建蛋白质交互作用关系网络;S3、网络节点向量化;S4、网络边加权;S5、选取种子节点;S6、种子节点扩张从而形成候选蛋白质复合物子图;S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图。本发明适用于从已有的蛋白质交互作用关系中识别蛋白质复合物的工作,不限于蛋白质交互作用关系的来源,能够有效的识别蛋白质复合物,将有助于在蛋白质水平上揭示疾病等生命活动的基本机理。
技术领域
本发明涉及网络数据挖掘方法领域,尤其是一种基于节点向量的蛋白质复合物识别方法。
背景技术
蛋白质复合物是一组蛋白质通过交互作用构成的一个整体以完成某种生物功能。了解蛋白质复合物的结构和功能是探索各种生命活动机制的基础,能够帮助人类在蛋白质水平上揭示疾病等生命活动的基本机理,获得关于疾病发生、细胞代谢等一系列生理过程的全面而整体的认识。蛋白质复合物识别是蛋白质复合物研究的第一步,也是蛋白质相关研究的重要基础,因此,如何有效识别蛋白质复合物具有重大的理论价值和使用价值。
当前通过实验测定的方法识别蛋白质复合物主要基于亲和纯化技术和免疫共沉淀技术,而这些方法实验步骤多、耗时且成本昂贵。随着蛋白质交互作用关系数据的飞速增加,基于蛋白质交互作用网络自动识别蛋白质复合物的计算方法成为了通过实验识别蛋白质复合物的有效补充。在蛋白质交互作用关系网络中,节点表示蛋白质,边表示蛋白质交互作用。蛋白质复合物在蛋白质交互作用关系网络中通常表现为相对独立的稠密子图,构成复合物的蛋白质之间关系紧密,具有相同的拓扑和生物特征。使用计算的方法识别蛋白质复合物与实验方法相比具有成本低、效率高的优势,将为进一步推动生命科学的发展助力,然而目前大多数研究不能在充分挖掘蛋白质交互作用网络的拓扑特点的同时把握蛋白质复合物在蛋白质交互作用网络中的特性,其识别性能并不高。
发明内容
本发明的目的是提供一种可靠性强、性能高,适用于从现有蛋白质交互作用关系中识别蛋白质复合物的基于节点向量的蛋白质复合物识别方法。
本发明解决现有技术问题所采用的技术方案:一种基于节点向量的蛋白质复合物识别方法,该方法包括以下步骤:
S1、采集包含蛋白质交互作用关系的蛋白质对数据集:从已有的蛋白质交互作用关系数据库中采集具有蛋白质交互作用关系的蛋白质对,去除重复以及具有自连接蛋白质交互作用关系的蛋白质对,并将所述蛋白质对以统一格式存储为蛋白质对数据集;
S2、构建蛋白质交互作用关系网络:使用蛋白质对数据集构建蛋白质交互作用关系网络G(V,E,W),其中,V为节点的集合、E为边的集合、W为边的权重集:将蛋白质对数据集中每个蛋白质对中的蛋白质作为蛋白质交互作用关系网络G(V,E,W)的节点;节点间的边为该蛋白质对的蛋白质交互作用关系;将每条边的初始权重设为1;
S3、网络节点向量化:利用无监督训练模型对蛋白质交互关系网络进行图嵌入:将蛋白质交互作用网络中的每个节点表示为向量形式,作为蛋白质向量;具体方法为:对于蛋白质交互作用网络中的每个节点定义一个d维实数向量,每一维实数向量为一个变量,每个节点与从当前节点出发通过k步随机游走到达的h个节点形成节点序列,该节点序列作为当前节点的上下文,其中d、k、h为自然数;使用Skip-Gram模型,并将d维实数向量作为模型的输入变量,通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新,以使当前节点的蛋白质向量与其所在节点序列中的各节点的蛋白质向量的余弦相似度在0.8到1之间;最后,将更新后得到的d维实数向量作为当前节点的蛋白质向量;
S4、网络边加权:将蛋白质交互关系网络中,每条边两端的蛋白质向量之间的夹角余弦值对该条边权值的初始权重进行更新,得到加权蛋白质交互关系网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810693748.2/2.html,转载请声明来源钻瓜专利网。