[发明专利]基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法有效
申请号: | 201210358669.9 | 申请日: | 2012-09-25 |
公开(公告)号: | CN102902896A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 谢江;谭军;马进;张武;文铁桥 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。其步骤如下:A、根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵 |
||
搜索关键词: | 基于 专家 知识 拓扑 相似 邻居 优先 生物 分子 子网 搜索 方法 | ||
【主权项】:
1.基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,对于网络A(GA)、网络B(GB)及A中的目标子网T(Gt),基于专家知识,同时考虑网络中生物分子及其在网络中的拓扑相似属性,以邻居节点优先的策略进行网络搜索,以在网络B(GB)中获得与网络T(Gt)在生物意义上最相似的结果子网R(Gr);具体操作步骤如下:A、计算Gt和GB的初始相似矩阵
:根据生物分子的序列特征,构建网络T(Gt)和网络B(GB)中生物分子的初始相似矩阵
,其中的每个元素
表示节点
和节点
之间的序列相似系数
,其具体步骤如下:A1、取
,其余参数取缺省值,用BLAST计算
中所有分子在
的序列相似分子;A2、按以下公式计算这些生物分子之间的相似系数:
B、计算Gt和GB的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素
为节点
和节点
之间的相似系数;C、构建专家知识字典:字典中包含了网络T(Gt)和网络B(GB)中由专家确定的最相似的生物分子对;D、采用邻居节点优先策略进行网络搜索:利用专家知识,基于相似矩阵S,以邻居优先策略进行搜索,获得结果子网;E、计算结果子网(Gr)与目标子网(Gt)的相似得分;其相似得分定义如下:设目标子网为
,结果子网为
,其中,
,
分别代表网络
,
的节点集合,且
1,
2,即网络
中有
1个节点,网络
2个节点;
表示节点
存在于网络
中,
,
分别表示结果子网
中与
对应的节点;
、
分别代表网络
、
的边集合,
表示边
的两个端点是节点
,![]()
![]()
表示边
是网络
的一条边;
表示边
的权重;
表示网络
的节点
和结果子网
中与其对应的节点
的序列相似系数;则结果子网
相对于目标子网
的得分为在无向图中:
其中 ![]()
在有向图中:
其中![]()
F、计算p值,分析目标子网的统计学意义,p值反映了计算结果有多大概率是由两个无关网络随机计算的结果,p值越接近于0,说明所得到的结果越显著越不可能是随机出现的结果,因此越可能具有生物学意义;反之,p值越接近于1,则所对应的结果就越不显著,越可能是由于无意义的随机计算得到的;其具体步骤如下:F1、生成网络B(GB)的n个随机网络;F2、在每个随机网络中用同样的方法搜索同一个目标子网的相似子网,得到n个结果子网;F3、用T检验计算p值; G、结果子网(Gr)可视化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210358669.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用