[发明专利]一种计算机预测蛋白功能的方法有效
申请号: | 201010567278.9 | 申请日: | 2010-11-30 |
公开(公告)号: | CN102479295A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 李国辉;徐贝思;张鼎林 | 申请(专利权)人: | 中国科学院大连化学物理研究所 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 李晓光 |
地址: | 116023 *** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 预测 蛋白 功能 方法 | ||
技术领域
本发明涉及的是一种生物信息技术,具体的说是一种计算机预测蛋白功能的方法。
背景技术
预测蛋白功能的计算方法主要有四种:
一类是基于结构相似性的方法。这类方法利用三维结构的相似程度,分析目标蛋白最可能有功能的结构单元,在已知蛋白质数据库中搜索与这些结构单元相似的蛋白质的功能数据,从而达到预测目标蛋白功能的目标。有些算法可以不用考虑拓扑结构,而只考虑空间结构。
一类是基于三维基序的方法。这些方法更多的是试图找到蛋白质中具有功能的结构元素,比如在很多DNA结合蛋白中都有发现的Helix-Turn-Helix(HTH)基序。这样,人们就可以通过类似的数据库近似得到具有这些基序的蛋白质的功能。比如用TESS算法在酶的活性位点建立起来的PROCAT数据库;直接利用蛋白质结构数据库(Protein Database Bank,简称PDB)文件中的site信息建立的PDBSite库等。
一类是基于表面的方法。这类方法通常会根据各原子的三维坐标和互相之间的距离来产生蛋白质的表面,而认为这些表面的形状及相互之间吻合的程度是决定蛋白质功能的主要因素。当然,也有研究表明某些蛋白质的功能是由表面的疏水性质或者静电性质决定的。这类方法通常被叫做分子对接方法,在计算机辅助药物设计中有着广泛的应用。
还有一类是基于学习的方法。这类方法包括数据挖掘、人工智能,各种方法层出不穷,比如使用支持向量机,决策树,人工神经网络等等等等。他们用各种方式试图找到蛋白质的功能信息和蛋白质的序列结构等信息之间的关联(显示的或隐式的),以达到预测的目的。
基于知识的统计势函数是以已知稳定结构的一些特性统计平均为基础的势能函数,基本假设是,测到的稳定结构的势能最低。这样在稳定结构中统计到的各种特性数量,并通过一些类似波尔兹曼分布函数的方法得到各种特性的势能,然后对其他结构进行打分。与传统的以物理为基础势能函数相比,它们不太关心计算势能时候的具体物理规律,而是更关心它们需要用来计算势能的特性是否能被统计平均。比如有的统计势以二面角做统计,有的以溶液的表面做统计,有以接触对做统计的,有以距离对做统计的。以距离对做统计的基于知识的统计势函数其基本计算方法如下:对假定的目标蛋白对目标蛋白把所有原子在以rcut为半径的球体内部分为很多的球壳(r,r+Δr],这样统计目标蛋白中原子类型i的球体中原子类型为j原子在不同球壳中出现的数量为Nobs(i,j,r)。通过它与期望的分布值比较,可以得到原子对i,j在(r,r+Δr)距离的能量值:
基于知识的统计势函数按照参照态Nexp(i,j,r)的不同而不同。
目前现有的能够同时在更大的序列和结构范围内寻找与目标蛋白可能结合的蛋白质、DNA和RNA片段方法主要有两类,一类是基于随机性的方法,比如蒙特卡洛、遗传算法等,另外一类是基于确定性的方法,例如dead-end-elimination,branch-and-bound等,但是它们都只能在给定的序列长度以及固定的蛋白质骨架下进行序列和构象搜索,而且不能够对DNA和RNA进行序列和构象搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大连化学物理研究所,未经中国科学院大连化学物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010567278.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:烧结用原料的制造方法
- 下一篇:感应加热装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用