[发明专利]基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统有效
申请号: | 202110752082.5 | 申请日: | 2021-07-03 |
公开(公告)号: | CN113470738B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 胡伦;潘翔宇;周喜;蒋同海;苏小芮 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B40/00 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模糊 基因 本体 语义 相似性 重叠 蛋白质 复合物 识别 方法 系统 | ||
本发明提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
技术领域
本发明涉及计算机数据处理技术领域和计算生物学领域,特别涉及基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统。
背景技术
目前,现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来完成复合物识别工作,即根据网络中蛋白质之间是否存在相互作用,来识别出具有某些特定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、k-cliques结构和核心附着结构。然而,仅基于特定拓扑结构的蛋白质复合物识别方法忽视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息,这些信息从三个方面描述了蛋白质的功能,即分子功能、细胞组分和生物过程。对基因本体信息的忽视会使得更具有生物学意义的蛋白质复合物无法被发现。此外,一些已知的蛋白质复合物是彼此重叠的,如果不能考虑蛋白质复合物间的重叠性,则所识别出的蛋白质复合物在准确性方面可能会有所不足。
尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法,但它们均未考虑基因本体语义信息中所固有的完整有向无环图关系,因此所识别的蛋白质复合物在准确性上表现欠佳。
发明内容
本发明的目的在于,针对现有技术中的缺陷和不足,提供一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,按下列步骤进行:
a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相似性,构建出蛋白质的语义相似性矩阵;
d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;
e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的复合物即为识别出的蛋白质复合物。
一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110752082.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电解液及其制备方法、锂离子电池
- 下一篇:软水再生结构、加湿器及软化再生方法