[发明专利]基于不确定蛋白质相互作用网络中关键蛋白质识别方法在审
申请号: | 201811597473.9 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109686403A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 刘维;马良玉;何杰 | 申请(专利权)人: | 扬州大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62 |
代理公司: | 扬州苏中专利事务所(普通合伙) 32222 | 代理人: | 沈志海 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质相互作用 关键蛋白质 网络 蛋白质 拓扑特性 相似度计算 亚细胞定位 重要性分数 方法使用 聚类系数 生物属性 生物特征 生物信息 问题转换 预测结果 相似度 确定性 输出 基因 融合 预测 应用 | ||
基于不确定蛋白质相互作用网络中关键蛋白质识别方法使用SimRank来进行蛋白质相似度计算,通过将不确定网络中计算SimRank问题转换成在确定性网络的SimRank计算,之后,考虑了蛋白质相互作用网络的拓扑特性和蛋白质的生物特征,通过计算边缘聚类系数、基因本体相似度、皮尔逊相关系数、亚细胞定位分数,得出一个重要性分数。最终按分值由大到小排列,输出分值对应的前
技术领域
本发明属于生物信息技术领域,主要是在不确定蛋白质相互作用网络中通过Simrank相似度识别关键蛋白质的技术,特别涉及不确定PPI网络中网络拓扑信息和蛋白质生物属性识别关键蛋白质的方法。
背景技术
蛋白质是生命中最基本的物质之一,广泛存在于各种生物组织细胞中。关键蛋白质在生物体中是必不可少的。去除关键蛋白质可导致蛋白质复合物功能丧失,导致生物体无法生存。因此,关键蛋白质的预测在理解活细胞的最低要求和设计药物中起重要作用。此外,识别出不确定PPI网络中的关键蛋白质不仅有助于理解细胞的生长调控过程,而且可以对生物进化机制的研究提供帮助。
在本发明提出之前,关键蛋白质的识别领域,最开始是通过网络的拓扑特征来识别,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。(3)忽略了蛋白质相互作用网络的不确定性。
发明内容
本发明的目的就在于克服上述缺陷,研制基于不确定蛋白质相互作用网络中关键蛋白质识别方法。
基于不确定蛋白质相互作用网络中关键蛋白质识别方法使用SimRank来进行蛋白质相似度计算,通过将不确定网络中计算SimRank问题转换成在确定性网络的SimRank计算,之后,考虑了蛋白质相互作用网络的拓扑特性和蛋白质的生物特征,通过计算边缘聚类系数、基因本体相似度、皮尔逊相关系数、亚细胞定位分数,得出一个重要性分数。最终按分值由大到小排列,输出分值对应的前k个蛋白质即为最后结果。
基于不确定蛋白质相互作用网络中关键蛋白质识别方法,其主要技术特征在于如下步骤:
(1)输入不确定PPI网络和生物信息;
(2)根据不确定PPI网络的链接不确定性,使用SimRank来进行蛋白质相似度计算;
(3)根据蛋白质顶点之间的相互作用关系,计算边缘聚类系数;
(4)根据蛋白质相似度分数、边缘聚类系数,计算蛋白质拓扑分数;
(5)根据蛋白质的生物特性,计算相互作用蛋白质对的基因本体(Gene Ontology)相似度、皮尔逊相关系数(Person correlation coefficient)、亚细胞定位分数;
(6)根据蛋白质拓扑分数、基因本体相似度、皮尔逊相关系数、亚细胞定位分数,计算蛋白质顶点重要性分数;
(7)获得每个顶点的重要性分数并由大到小排序,排序后最大的k个值为关键蛋白质。
所述步骤(2)根据不确定PPI网络的链接不确定性,使用SimRank来进行蛋白质相似度计算:通过将不确定网络中计算SimRank问题转换成在确定性网络的SimRank计算。为了避免枚举不确定网络的所有可能世界,本发明为构造每个节点的邻接子图,使得对于转移矩阵元素的计算可以在这个子图内进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811597473.9/2.html,转载请声明来源钻瓜专利网。