[发明专利]一类蛋白质二级结构智能预测模型构造技术有效
申请号: | 200810116674.2 | 申请日: | 2008-07-15 |
公开(公告)号: | CN101408911A | 公开(公告)日: | 2009-04-15 |
发明(设计)人: | 杨炳儒 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一类 蛋白质 二级 结构 智能 预测 模型 构造 技术 | ||
技术领域
本发明涉及蛋白质二级结构预测技术,特别涉及一种基于合成金子塔模型(CPM,Compound Pyramid Model)的智能预测技术,具体说是一类全新的逐步求精、多层递阶的蛋白质二级结构预测模型-合成金子塔模型构造技术。
背景技术
一、蛋白质结构预测技术:
蛋白质结构预测是后基因组时代的一项重要任务。20世纪末至今,分子生物学和生物信息学(Bioinformatics)领域取了长足进展,人类基因组计划目前已基本完成对人类基因序列的测定工作,进而跨入后基因组时代。由于普遍认为蛋白质的结构决定其功能,同时蛋白质序列数据的飞速增长使已知的蛋白质序列和已知的蛋白质结构之间的差距不断增大,蛋白质的结构测定成为分子生物学和生物信息学领域最为关注的问题之一。
蛋白质是20种DNA编码的L型α氨基酸构成的具有空间构象和生物功能的大分子。人类对蛋白质的研究始于19世纪,对其认识历史是曲折的,期间出现过大量的错误理论,即使到今天人们对那些存在于生物体内的成千上万种功能和结构各异的蛋白质的认识还不够深刻。1952年丹麦生物化学家Linderstrom-Lang提出蛋白质一级结构、二级结构和三级结构的概念,才使蛋白质结构走上了正确道路。蛋白质的一级结构一般指构成蛋白质肽链的氨基酸残基的排列顺序,是蛋白质最基本的结构。它是由基因上遗传密码的排列顺序所决定的,各种氨基酸按遗传密码的顺序通过肽键连接起来。每一种蛋白质分子都有自己特有的氨基酸的组成和排列顺序。是一个没有空间概念的结构;这种氨基酸排列顺序决定它的特定的空间结构,也就是蛋白质的一级结构决定了蛋白质的二级三级等高级结构,这就是荣获诺贝尔奖的著名的Anfinsen原理。氨基酸在空间折叠为一定的三维空间结构,包括二级结构、三级结构,统称为蛋白质的高级结构。二级结构也称构象单元,是蛋白质复杂空间构象的基础,是多肽链骨架在局部形成的结构单元(DSSP方法将蛋白质二级结构分为H(α螺旋),G(310螺旋),I(π螺旋),E(扩展的β折叠),B(单个的β折叠),T(转角),S(bend)和coil(无规卷曲)共8种,二级结构预测问题中一般将转换为3类:H,G H;E,B转换成E;其他的转换成C。也即H代指α螺旋,E代指β折叠,C代指转角环形等)。这些构象单元在所有的蛋白质中普遍存在。不同数目、不同尺寸的二级结构和其它无规则段以不同的方式排布连接成完整的蛋白质空间结构,即蛋白质的三级结构。
蛋白质的三级结构预测大致有两种路线:其一是由蛋白质的一级结构直接预测;另一种是先根据蛋白质的一级结构预测二级结构,然后在二级结构的基础上再预测三级结构。由于沿后一种路线的研究,同时探索一二级与二三级之间的影响,可以揭示更深层次的生物学问题。因此,采用后一种路线将更具有理论意义。对这种路线,蛋白质的二级结构预测承上启下,起着关键性的作用。
蛋白质二级结构是确定蛋白质三维结构构象的重要一环。目前测定蛋白质二级结构的方法主要分为两类:其一是通过硬件手段,如X光射线、核磁共振与红外线方法;其二是利用多种智能算法对蛋白质二级结构进行预测。前者的优点是结果精确,缺点是消耗的物资、人力与时间都非常多,存在诸多局限。于是迫切需要一种不依赖晶体培养等而又简便易行的预测蛋白质结构的模型与方法。由此基于计算机程序的蛋白质二级结构预测已成为后基因组时代的一项重要任务。
基于计算机程序的蛋白质二级结构预测研究已经有30多年的历史,归纳各种不同的预测方法,大致可以分成三类:1)基于机器学习的方法(如SVM方法);2)使用多序列排列信息的方法(如BLAST方法);3)使用规则和统计结合的方法(如ILP方法,Chou-Fasman方法等)。然而近年来,蛋白质二级结构预测研究进展缓慢,虽然通过将机器学习与数据挖掘技术引入蛋白质结构预测中等教育取得了一定成果,然而预测精度一般较低(低于80%);同时当前所建立的模型与方法,无法完成揭示序列与空间构象的关系,成为本世纪初分子生物学和生物信息学领域中国际性的一大难题。
二、集成与混合预测模型技术:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810116674.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定额钞票包的自动出钞器和方法
- 下一篇:图像文字翻译装置及方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用