[发明专利]一种基于整数组合的网络模体子树枚举和统计方法在审
申请号: | 201710939244.X | 申请日: | 2017-09-30 |
公开(公告)号: | CN110379457A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 骆嘉伟;李光辉;刘智明;王伟胜;蔡洁 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B45/00;G06F16/2458 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子树 枚举 网络模 查找 标记存储 有效减少 组合操作 统计 规范化 有效地 导出 去除 同构 搜索 查询 分类 | ||
本发明公开了一种基于整数组合的网络模体子树枚举和统计方法,该方法首先利用整数的组合操作设计一种有效的非导出子树的枚举方法;其次,通过在子树枚举的过程中同时搜索一个根树的方式对所枚举的子树进行一个部分的分类来有效减少子树同构的判断数目;最后,通过把所查找子树的规范化标记存储在内存中的方法来去除规范化标记的查询过程,有效地提高了子树计数的方式。本发明实现简单、快速,相比于现存的子树统计方法,MTMO方法在运行时间上具有较明显的性能加速,且能用于查找更大规模的子树。
技术领域
本发明涉及一种基于整数组合的网络模体子树枚举和统计方法
背景技术
近年来,随着高通量蛋白质组技术的快速发展,可获得的蛋白质相互作用数据迅速增长。蛋白质相互作用被构建为无向图(其中顶点对应蛋白质,边对应蛋白质之间的相互作用)有助于从网络水平上理解细胞机制的基本构件和组织。蛋白质相互作用网络类似于复杂网络,拥有小世界和无尺度等全局特性。而在2002年由Milo等首次提出的网络模体则是其中非常重要的一种局部性质,网络模体定义为一种在给定网络中频繁出现的连通子图,并且其出现的次数要多于在相应的随机网络中的次数,被认为是复杂网络的基本构件块。
然而,网络模体发现涉及到图的同构判断,其运行时间随着模体规模的增大呈指数增长,且当前的模体发现方法仅能有效查找中等规模的模体。因此,如何在网络模体发现的过程中减少或者去除子图同构判断及查找出更大规模的模体将是一个挑战。
当前大部分网络模体发现方法都是以导出子图为基础,例如ESA、ESU和Kavosh。然而,值得注意的是,由于一个非树型的导出子图包含了多个相同规模大小的非导出子图,因此,在一个网络中存在更多的非导出子图同构到一个给定的拓扑结构中,使得非导出子图的发现是更具有挑战性的。此外,由于目前每一物种的蛋白质相互作用数据是不完整的,且包含了大量的假阳性数据,从而,一个网络中的某一个特定模体的一个子图出现可能在另外一个网络中其子图出现包含了附加的边,反之亦然。而非导出子图的定义考虑了子图在网络中所有可能的出现,因此,对于蛋白质网络而言,统计子图的非导出出现是一种更加健壮的方式。
鉴于任何非树型连通子图可以通过相应的树型子图进行边的扩展而得到,因此仅需要考虑子树模式的提取。然而,子树枚举和统计仍然是一个计算上具有挑战性的问题。Omidi等提出的MODA方法通过在输入网络中采用子树映射策略来查找该子树的出现频率。然而,MODA方法不能扩展到上千个顶点的大规模网络,且其性能瓶颈主要在于树型子图的映射。另外,一些研究者提出了多个以颜色编码技术为基础的串行和并行实现方法来估计网络中非导出子树和有界树宽子图出现数目。为了查找某一规模为k的特定子树t,颜色编码技术首先通过使用k种颜色来给网络中的每个顶点随机赋予一种颜色,然后通过动态规划方法来近似估计网络中与查询子树t同构的子树t′数目,其中子树t′中的每个顶点在该子树中是具有唯一的颜色。2008年,Alon等描述了如何采用颜色编码技术来统计树型子图的非导出出现数目,并使用树型子图的分布揭示了单细胞生物体与多细胞生物体之间的显著差异。随后,Zhao等结合基于流的划分和颜色编码技术实现了一个并行的子树统计方法PARSE。最近,Slota等又提出了一种基于颜色编码的多核并行子树统计方法FASCIA。
上述这些非导出子树统计方法都是属于以子树为中心,以子树为中心的方法需要预先产生一个给定大小的所有非同构子树,然后每一次在目标网络中只能映射一种特定类型的子树,导致网络的同一部分被重复映射多次,没有利用先前的子图查找信息,潜在地需要更多的时间进行重复的搜索。
目前对于树型子图的查找方法研究还处于刚起步阶段,Ferreira等在2011年提出了第一个输出敏感的方法,即该方法在规模为n的图G中枚举所有大小为k的子树所需的时间为O(sk),其中s表示图G中所有的k-子树的数目,数量上正比于nk。但该方法仅是理论研究,没有可用于比较的实验结果,同时,编程实现较为困难。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710939244.X/2.html,转载请声明来源钻瓜专利网。