[发明专利]基于层次聚类的蛋白质相互作用网络全局比对方法在审
申请号: | 202010838335.6 | 申请日: | 2020-08-19 |
公开(公告)号: | CN111916149A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 陈璟;田盼盼 | 申请(专利权)人: | 江南大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 蛋白质 相互作用 网络 全局 方法 | ||
本发明公开了一种基于层次聚类的蛋白质相互作用网络全局比对方法,包括:获取两个生物网络的数据及序列相似性文件,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j),根据序列相似性文件计算序列相似性得分B(i,j),结合T(i,j)和B(i,j)计算节点相似性得分S(i,j);采用层次聚类算法和组合优化算法筛选种子;计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)扩展种子得到扩展集;构建二分图比对剩余节点对,合并得到比对集。本发明更全面地计算T(i,j),筛选种子并扩展、合并,提高比对结果的拓扑性能且覆盖范围更广;采用层次聚类算法和组合优化算法筛选种子,提升拓扑性能的同时保证生物性能,提高效率。
技术领域
本发明涉及生物信息学中对蛋白质相互作用网络的分析领域,具体涉及一种基于层次聚类的蛋白质相互作用网络全局比对方法。
背景技术
蛋白质相互作用(PPI,Protein-protein interaction)是指蛋白质分子之间的相关性,并从生物化学、信号转导和遗传网络的角度研究这种相关性。近年来,随着高通量筛选技术的发展,通过实验方法检测到蛋白质相互作用的数量有了大幅度增加,形成了越来越多的蛋白质相互作用网络。对蛋白质相互作用网络的分析能够增进对生物学过程的理解,不同物种间相互作用组的比对在蛋白质功能预测、保守功能成分检测、物种间知识转移等方面有着重要意义。因此,将两个蛋白质相互作用网络进行一对一比对,在两个网络中找到节点间的最佳映射关系得到了越来越多的研究。
常见的两个网络间的比对方法有二步算法和基于目标函数的搜索算法。二步算法分为两步进行,第一步是计算输入网络间的节点相似性,构建节点得分矩阵;第二步是节点相似性得分为权重,构建二分图,利用贪心或其他算法求解二分图的最大加权匹配问题,从而得到比对结果。基于目标函数的搜索算法是先构建目标函数,以目标函数为优化目标,用搜索算法不断调整比对结果以产生更优解。目标函数一般由拓扑相似性和生物相似性构成,拓扑相似性计算节点在网络结构上的相似性,现有的计算方法有计算度、Importance等;生物相似性可以是序列相似性,例如BLAST bit score、BLAST E-value等,也可以是功能相似性,利用蛋白质的GO(Gene ontology,基因本体论)术语计算节点间的语义相似性以此比较蛋白质的功能相似性。SPINAL(见文献SPINAL:scalable protein interactionnetwork alignment.[J].Bioinformatics,2013)方法将比对过程被分为粗粒度阶段和细粒度阶段,在粗粒度阶段,构建邻域二分图计算节点间的相似性;在细粒度阶段,先选择相似性得分最高的节点对为种子,先比对上种子节点,以当前比对集合中的节点对构建邻域二分图,以节点相似性为权重,寻找最大加权匹配,对匹配结果做局部优化找到最佳匹配结果并将比对结果添加到比对集合中,得到最终比对。但此方法对节点的拓扑信息研究不充分,导致比对结果中拓扑结果较差。ModuleAlign(见文献Somaye H,Jianzhu M,Hammad N,et al.ModuleAlign:module-based global alignment of protein–proteininteraction networks[J].Bioinformatics(17):i658-i664)方法首先利用HAC-ML算法划分网络模块,基于模块计算节点间的同源得分,将同源得分与节点对的拓扑得分Importance结合构成节点的比对得分矩阵。然后分两步开始比对:第一步,利用匈牙利算法计算网络中节点间的最佳匹配,以此比对拓扑和功能一致的蛋白质;第二步,通过更新比对得分来最大化进化保守相互作用的数量,重复此过程直至小网络中的节点都被比对上。这种方法利用模块化的思想来计算节点间的同源得分,但模块化的选择不适合,导致其生物性能较差,且运行时间较长、效率低。PROPER(见文献ROPER:global proteininteractionnetwork alignment through percolationmatching,BMC bioinformatics,2016,17(1):527)方法首先根据序列相似性筛选部分得分较高的节点对为种子节点,接着根据种子计算其邻居节点的结构相似性,选择得分最高的节点对扩展至比对集合,再对新添加的比对节点对计算其邻居节点的结构相似性,重复上述过程直到没有可选择的节点对。这种方法在筛选种子时,仅依靠序列信息,但序列信息存在不完整性,会导致比对错误;并且扩展过程不能覆盖到小网络中的所有节点,存在部分节点应该被比对上却未比对上的问题,拓扑性能不好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010838335.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水产养殖用水面绿萍清除设备
- 下一篇:一种方块形卤氧化铋光催化剂制备方法