[发明专利]基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法有效
申请号: | 201210358669.9 | 申请日: | 2012-09-25 |
公开(公告)号: | CN102902896A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 谢江;谭军;马进;张武;文铁桥 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 专家 知识 拓扑 相似 邻居 优先 生物 分子 子网 搜索 方法 | ||
技术领域
本发明涉及计算机领域,提出了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。
背景技术
生物分子网络是复杂网络。在复杂网络中搜索与目标子网最相似的子网是一个局部网络比较问题,涉及到大量的计算,已被证实是一个NP完全问题(Non-deterministic Polynomial的问题,也即是多项式复杂程度的非确定性问题)。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。
由于生物分子网络特有的生物学意义,仅用图论的方法来研究它们是不够的,其搜索还面临着更多的问题,主要包括:(1)每个生物分子都有其生物学意义,要明确一个网络中的某个生物分子和另外一个网络中的哪个生物分子最相似,不仅要考虑生物分子本身的序列,还要考虑它在网络中的拓扑位置;(2)无论是国际公开的数据库中的数据,还是自己通过生物实验获得的数据都存在假阳性和假阴性现象,目前只能通过这些不完全准确和不完整的数据研究生物分子网络;(3)对于要研究的不同的具体问题,网络中各个分子的地位并不是完全平等的,计算过程中要合理利用专家知识,以贴近生物学的实际应用背景。
目前,已有一些研究小组在进行这方面的研究,也开发了少量的工具。这些方法各有其优点,但也各有其局限性,无法满足系统生物学的需要。而这些局限性主要体现在对具有相对复杂的拓扑结构的网络搜索上,对于生物分子网络而言,为了能获得不同物种间的最相似网络,计算的准确度必须得到提高。同时,考虑到生物分子网络的进化和变异,不同物种的网络虽然不同,却有一定的保守性,算法应能在变异后的网络中找到原始的保守信息,能较好地体现网络拓扑的变化情况,且具有较高的稳定性。
发明内容
本发明的目的在于,为了解决上述问题而提供基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,该方法能在复杂的生物分子网络中搜索到与目标子网最相似的结果子网,避免了以往算法不能合理利用专家知识而带来的计算的盲目性,并降低因原始信息缺失带来的误差,从而具有较高的稳定性。随着生物分子网络的进化和变异,该方法较少受到Gap的影响,从而可以搜索得到更多的保守边和节点,而变异的边数往往与未匹配边数一致,即方法能较好地体现拓扑的变化情况。
为达到上述目的,本发明的构思是:首先结合生物分子的序列特征及其在网络中的拓扑相似特征,计算各个生物分子之间的相似系数,其中拓扑相似特征主要考虑目标生物分子的邻居/非邻居分子之间的平均相似性,以降低原始信息缺失和不准确带来的误差,并提高其稳定性;然后根据具体问题和专家知识字典,将目标子网中的生物分子分类,确定K类分子的最相似分子;最后,根据生物分子之间的关系特点,如“与相似的蛋白质发生相互作用的那些蛋白质之间往往具有更高的相似度”,对N类分子采用邻居优先的策略进行搜索,获得结果子网。
根据上述发明构思,对于网络A(GA)、网络B(GB)及网络A中的目标子网T(Gt),本发明采用下述技术方案:
A、 计算Gt和GB的初始相似矩阵 :根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵,其中的每个元素表示节点和节点之间的序列相似系数;
B、 计算Gt和Gb的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素为节点和节点之间的相似系数;
C、 构建专家知识字典:字典中包含了网络T(Gt)和B(GB)中由专家确定的最相似的生物分子对;
D、 采用邻居节点优先策略进行网络搜索:利用专家知识,基于相似矩阵S,以邻居优先策略进行搜索,获得结果子网;
E、 计算结果子网(Gr)与目标子网(Gt)的相似得分;
F、 计算p值,分析目标子网的统计学意义;
G、 结果子网(Gr)可视化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210358669.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用