[发明专利]基于距离判定的蛋白质复合物识别方法无效
申请号: | 200810030832.2 | 申请日: | 2008-03-18 |
公开(公告)号: | CN101246520A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 王建新;李敏 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 中南大学专利中心 | 代理人: | 龚灿凡 |
地址: | 410083*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于距离判定的蛋白质复合物识别方法,基于对已知蛋白质复合物中蛋白质顶点之间的最短距离一般不超过2的发现,将蛋白质顶点之间的最短距离作为蛋白质复合物识别的一个重要参数,并利用蛋白质顶点与蛋白质复合物之间的作用概率来控制识别的蛋白质复合物的稠密程度。本发明实现简单,能够通过蛋白质相互作用网络识别大量已知的具有生物意义的蛋白质复合物,对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,有效地解决了化学实验成本昂贵,单次识别数量少以及很难识别动态复合物的生物学难题。 | ||
搜索关键词: | 基于 距离 判定 蛋白质 复合物 识别 方法 | ||
【主权项】:
1.一种基于距离判定的蛋白质复合物识别方法,其特征在于包括以下步骤:(1)建立蛋白质相互作用无向图:输入一组蛋白质相互作用数据,设置允许的蛋白质顶点之间的最短距离的最大值Din,和一个大小在(0,1)之间的阈值Tin,过滤重复的相互作用和自相互作用,建立无向图;(2)计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数。然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点按从大到小进行排序,放入一个候选种子队列Sq中;如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序;(3)选择种子:若所述候选种子队列Sq不为空,将队列Sq的首个顶点,即权重最大的顶点作为种子,并初始化为一个簇,将该种子作为识别的蛋白质复合物的初始状态进行扩充;每扩充完一个簇,队列Sq中对应的该簇内的顶点被删除;队列Sq为空时,整个识别过程结束;(4)扩充簇的过程为:根据簇的所有邻居顶点对簇进行扩充;所述簇的邻居顶点指与簇内的顶点有直接相互作用且不在簇内的顶点;簇的每个邻居顶点都拥有一个被扩充的优先权,由该顶点与簇内顶点连接的边数以及边的权重之和决定;首先考虑优先权最高的邻居顶点作为候选的扩充顶点,候选的扩充顶点是否会被扩充需要调用扩充判断子过程对其进行判断,符合扩充条件的候选扩充顶点才能被加入簇;一旦有一个新的候选扩充顶点被加入簇,簇的邻居顶点就进行更新,并重新计算其优先权;(5)所述扩充判断的过程为:判断一个候选的扩充顶点是否符合两个条件:1)SP(v,u)≤Din,u∈C;2)INvC≥Tin,若符合就将其加入该簇,并调用扩充簇子过程对其作进一步的扩充;若不符合,且所有的邻居顶点都已作过候选扩充顶点被考察过,则对该簇的扩充结束;若仍存在未被考察的邻居顶点,则将下一个优先权最高的邻居顶点作为候选扩充顶点;所述SP(v,u)表示蛋白质顶点v和蛋白质顶点u之间的最短距离,C表示蛋白质复合物内的蛋白质顶点集;Tin越大,识别的蛋白质复合物越稠密;所述INvC是指某个蛋白质顶点v与蛋白质复合物之间的作用概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810030832.2/,转载请声明来源钻瓜专利网。
- 上一篇:用于细纱机的紧密纺纱装置
- 下一篇:一种防止DDos攻击的方法及设备
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用