[发明专利]一种用于蛋白质结构预测的距离谱构建方法有效

申请号：	201510310053.8	申请日：	2015-06-08
公开（公告）号：	CN104951669B	公开（公告）日：	2017-09-05
发明（设计）人：	张贵军;郝小虎;俞旭锋;周晓根;陈凯;徐东伟	申请（专利权）人：	浙江工业大学
主分类号：	G06F19/16	分类号：	G06F19/16
代理公司：	杭州斯可睿专利事务所有限公司33241	代理人：	王利强
地址：	310014 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于蛋白质结构预测距离构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种用于蛋白质结构预测的距离谱构建方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。目前，蛋白质序列数据库的数据积累的速度非常快，但是，已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是，通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高。因此，实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面，随着DNA测序技术的发展，人类基因组及更多的模式生物基因组已经或将要被完全测序，DNA序列数量将会急增，而由于DNA序列分析技术和基因识别方法的进步，我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度，或者减小两者的差距。

传统的方法是通过基于物理场的能量模型或者基于知识的能量模型指导搜索的，而这样存在着采样效率低、复杂度较高、预测精度较低的不足。所以这里引入了一种用于蛋白质结构预测的距离谱的构建方法，提高了采样效率、降低了复杂度、提高了预测精度。

发明内容

为了克服现有的构象空间优化方法存在采样效率较低、复杂度较高、预测精度较低的不足，本发明提出一种蛋白质结构预测中距离谱的构建方法，蛋白质具有特定的空间结构，相似的蛋白质具有相似的空间结构，其各个位置上残基间的距离也是相近的，所以可以通过距离谱来指导预测蛋白质结构的搜索。距离谱是根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可达性、中心原子二面角等等构建查询序列中各位置残基上得分较高的片段，然后遍历每个位置上来自于同一个模板的片段，计算出模板中残基的距离，这个距离和查询序列的空间构象中残基间的距离是相近的。本发明在蛋白质结构预测中应用，可以得到预测精度较高、复杂度较低的构象。

本发明解决其技术问题所采用的技术方案是：

一种用于蛋白质结构预测的距离谱构建方法，所述构建过程包括以下步骤：1)构建非冗余模板库：

1.1)从蛋白质数据库网站(http://www.rcsb.org)上下载分辨率小于的精度较高的已知蛋白质序列；

1.2)将下载得到的蛋白质序列分裂成单链；

1.3)计算每条链相对于其他链的累计相似度total_identity:

在公式(1)中，N为所有单链的总数，total_identity_i为第i条链的累计相似度，identity_ij为第i条链与第j条链的相似度得分；

1.4)以1000条链为一个单位将所有链分成多个组，在每个组中根据累计相似度从大到小排列，从累计相似度大的开始依次与其他所有链进行比对剔除相似度大于30％的链；

1.5)在所有组都比对完后，扩大分组中链的数量再进行相似度剔除，最终合成一个组；

1.6)根据保留下来氨基酸链的PDB名称从蛋白质数据库网站上下载相应的蛋白质结构，构成了非冗余的模板库；

2)生成片段库：

2.1)通过PSI-BLAST软件可以得到查询序列查询序列中每个残基相对于20个氨基酸的特征频率谱P_q和模板中残基相对于20个氨基酸的对数谱L_t；

2.2)通过PSSpred软件得到查询序列中残基的二级结构类型ss_q和模板中残基的二级结构类型ss_t；