[发明专利]一种基于多重进化矩阵的蛋白质二级结构预测方法有效
申请号: | 201710150418.4 | 申请日: | 2017-03-14 |
公开(公告)号: | CN106951736B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 鹿文鹏;杜月寒;刘毅慧;成金勇;孟凡擎 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多重进化矩阵的蛋白质二级结构预测方法,包括:下载蛋白质NR数据库及BLAST程序本地软件包,生成给定蛋白质序列的位置特异性打分矩阵PSSM矩阵,对PSI‑BLAST程序进行参数调整得到蛋白质序列的不同趋异度的进化矩阵;对进化矩阵中的所有特征向量进行处理,构成多重进化矩阵特征;将多重进化矩阵的特征作为分类器的输入并对分类准确率进行评价,获得优化模型;针对结构未知的蛋白质,输入优化模型,预测蛋白质的二级结构。本发明对于一条蛋白质序列,同时使用多种不同进化趋异度的矩阵来表示蛋白质序列,更为充分的表示了蛋白质结构信息,更全面的考虑了残基替换的可能性,提高了蛋白质二级结构预测的准确率,编码方法简单有效。 | ||
搜索关键词: | 一种 基于 多重 进化 矩阵 蛋白质 二级 结构 预测 方法 | ||
【主权项】:
1.一种基于多重进化矩阵的蛋白质二级结构预测方法,其特征是,包括以下步骤:下载蛋白质NR数据库及BLAST程序本地软件包,生成给定蛋白质序列的位置特异性打分矩阵PSSM矩阵,对PSI‑BLAST程序进行参数调整得到蛋白质序列的不同趋异度的进化矩阵;所述PSSM矩阵,其表达公式为:上述矩阵表示蛋白质进化过程中蛋白质序列第i个位置的氨基酸突变为第j类氨基酸的可能性大小,其值越大表示转成的可能性越大,1≤i≤L,L是蛋白质序列的长度,j从1到20分别表示氨基酸A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V;所述对PSI‑BLAST程序进行参数调整得到蛋白质序列的不同趋异度的进化矩阵,在进行参数调整时,根据PAM矩阵和BLOSUM矩阵之间的关系,调整PSI‑BLAST程序参数,得到不同趋异度的进化矩阵;所述得到不同趋异度的进化矩阵具体过程为:借助NR数据库并且使用PSI‑BLAST程序搜索和比对同源序列,PSI‑BLAST程序将返回一个20维矢量的PSSM,其值是20个氨基酸保守的突变分数,得到的PSI‑BLAST的profile是一个Lx20的矩阵,也称之为位置特异性得分矩阵,其中L是蛋白质序列的长度,在进行参数调整时,根据PAM矩阵和BLOSUM矩阵之间的关系,调整PSI‑BLAST程序参数,得到不同趋异度的进化矩阵;对不同趋异度的进化矩阵对齐特征维度并进行合并,得到多维的特征向量来表示原来的蛋白质序列;针对得到多维的特征向量,考虑邻近残基的影响,采用滑动窗口方法进行处理得到更多维的特征向量,利用上述多维的特征向量来表示原来的蛋白质,构成多重进化矩阵特征并将多重进化矩阵的元素进行标准化;将标准化后的多重进化矩阵的特征作为分类器的输入并对分类准确率进行评价,确定相关参数,获得优化模型;蛋白质的二级结构进行预测对应的准确率包括整体预测准确率Q3及三态预测准确率Qi;其中,整体预测准确率Q3指的是被正确预测的3种二级结构的总百分比;三态预测准确率Qi来表示每种二级结构被正确预测为H,E或C构象的预测准确率;所确定相关参数为网格搜索的变量(c,p);针对结构未知的蛋白质,首先获得该蛋白质的多重进化矩阵特征,进行标准化,将标准化后的多重进化矩阵特征输入优化模型,预测蛋白质的二级结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710150418.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动理管机的接管装置
- 下一篇:手机测试不良品分拣机构