[发明专利]一种基于距离谱知识的正态分布距离接收概率模型构建方法在审

申请号：	201511008767.X	申请日：	2015-12-29
公开（公告）号：	CN105653892A	公开（公告）日：	2016-06-08
发明（设计）人：	张贵军;俞旭锋;周晓根;郝小虎;王柳静;徐东伟	申请（专利权）人：	浙江工业大学
主分类号：	G06F19/16	分类号：	G06F19/16
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于距离知识正态分布接收概率模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于距离谱知识的正态分布距离接收概率模型构建方法。

背景技术

蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。

蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用，致使其形成的能量曲面极其粗糙，构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是，大量的蛋白质亚稳定结构构成了低能量区域，所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构，即增加算法的种群多样性。因此，针对更加精确的蛋白质力场模型，选取有效的构象空间优化算法，使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。

目前，蛋白质结构预测方法大致可以分为两类，基于模板的方法和不基于模板的方法。其中，不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于 25％的大多数蛋白质，仅从序列产生全新结构，对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法：张阳与JeffreySkolnick合作的TASSER(Threading/Assembly/Refinement)方法、DavidBaker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构，即使获得了很好的预测结果，但也只是针对某些蛋白质而言的，目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。

因此，现有的构象空间搜索方法存在不足，需要改进。

发明内容

为了克服现有的构象空间搜索方法的空间采样能力不强、更新精度较低的不足，本发明提供一种空间采样能力较强、更新精度较高的基于距离谱知识的正态分布距离接收概率模型构建方法。

本发明解决其技术问题所采用的技术方案是：

一种基于距离谱知识的正态分布距离接收概率模型构建方法，所述模型构建方法包括以下步骤：

1)构建非冗余模板库：

1.1)从蛋白质数据库(PDB)网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；

1.2)将含有多条多肽链的蛋白质分裂成单链，并保留最长的链与其他链比较序列相似度，去除相似度大于预设阈值的冗余多肽链；

1.3)将余下的多肽链两两求序列相似度I_mn，统计每一条链的累计相似度其中m，n为多肽链的序号，N为剩余所有链的总数；

1.4)对N条链根据累计相似度进行递减排列，从累计相似度最大的链开始依次与其他链比较去除序列相似度大于预设阈值的链，得到非冗余蛋白质模板库；

2)输入查询序列；

3)生成片段库：