[发明专利]一种基于氨基酸序列的蛋白质折叠类型识别方法有效
申请号: | 201710259671.3 | 申请日: | 2017-04-20 |
公开(公告)号: | CN107423577B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 李晓琴;景娅楠 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 氨基酸 序列 蛋白质 折叠 类型 识别 方法 | ||
本发明公开一种基于氨基酸序列的蛋白质折叠类型识别方法,步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。采用本发明,能够扩大识别的样本覆盖范围并提高折叠类型识别的准确率,同时实现了折叠类型识别的自动化操作减少因人为因素造成的识别效果不佳的现象。
技术领域
本发明属于生物信息学领域,特别是涉及一种基于氨基酸序列的蛋白质折叠类型识别方法。
背景技术
由于蛋白质本身自身的复杂性以及其生存环境的复杂性使得蛋白质的研究一直是重点也是难点。蛋白质折叠类型识别一直是生命科学领域研究的重点,是蛋白质三维结构预测的主要方法之一。
蛋白质折叠类型识别是一种依托于结构或者模型信息的方法,主要方法分为两类:机器学习和序列-序列比对(多序列比对)。机器学习主要有人工神经网络、随机森林、支持向量机等方法。多序列比对方法主要是依据两种序列模型进行识别:特殊位置分数矩阵和隐马尔科夫模型。研究中大部分主要针对少量的折叠类型,比如Ding等提出当然27中折叠类型。且识别的准确率也不是特别高,大部分保持在70%到90%之间,超过90%则会被认为识别准确率很高蛋白质的种类是是庞大的,仅仅研究少量的折叠类型是不能满足要求,需要扩大研究的范围。且在识别准确率的方面也需要一定的提高。
发明内容
本发明要解决的技术问题是,提供一种基于氨基酸序列的蛋白质折叠类型识别方法,能够提高样本的识别范围和识别的准确率且能对折叠类型进行自动化识别不再需要人工的参与。
为实现上述目的,本发明采用如下的技术方案:
一种基于氨基酸序列的蛋白质折叠类型识别方法包括以下步骤:
步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;
步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。
作为优选,步骤1包括:
第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件;
第二步:对满足条件的训练集进行多结构比对;
第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对;
第四步:提取比对结果中的序列比对信息;
第五步:根据所提取比对信息进行模型构建;
经过上述过程,一共建立了四个模型集;
其中,家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型,采用属于一个折叠类型的家族模型共同代表该折叠类型,将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集,在采用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型,
超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型,采用属于一个折叠类型的超家族模型共同代表该折叠类型,将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集,采在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710259671.3/2.html,转载请声明来源钻瓜专利网。