[发明专利]基于条件随机场的固有无序蛋白质的识别方法在审
申请号: | 201810834590.6 | 申请日: | 2018-07-26 |
公开(公告)号: | CN109147870A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 刘滨;刘羽朦 | 申请(专利权)人: | 刘滨 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/00;G16B50/00 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 位点 蛋白质 基于条件 生物序列 依赖关系 机场 标签 条件随机场算法 二级结构信息 氨基酸组成 蛋白质识别 分类算法 结合条件 预测模型 预测性能 传统的 溶剂 进化 预测 | ||
本发明提供了一种基于条件随机场的固有无序蛋白质的识别方法,利用蛋白质的进化信息、氨基酸组成信息、二级结构信息和相对溶剂可及性信息,结合条件随机场构建了固有无序蛋白质识别方法IDP‑CRF。对生物序列的位点进行预测,如何包含位点标签之间的依赖关系一直是重要的问题,也是基于传统的分类算法构建的识别方法不能解决的问题。此外,采用生物序列中提取的丰富的数值型特征也是提高方法性能的关键。所以,本发明采用了能够处理数值型特征的条件随机场算法构建预测模型。该模型不仅能够包含位点标签之间的依赖关系,而且能够处理数值型特征,从而进一步提高预测性能。
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种固有无序蛋白质的识别方法。
背景技术
大部分固有无序蛋白质的识别方法是基于传统的分类算法构建的,例如支持向量机、随机森林、前馈神经网络等等。这类方法首先要利用滑动窗口技术将蛋白质序列切分为一系列的子序列,子序列中间的氨基酸为目标氨基酸(也就是待预测的氨基酸)。然后基于这些子序列提取特征,最后利用分类算法对每个子序列进行预测(也就是对目标氨基酸进行预测)。除此之外,还包括基于标注算法条件随机场CRF构建的只能处理字符型特征的识别方法。该方法是将蛋白质一级序列及其预测的二级结构序列利用特征模板转换为一系列的特征,基于这些特征利用条件随机场对目标氨基酸进行标注。
PDB数据库和DisProt数据库是存储固有无序蛋白质的两个重要的数据库,而且近年来更新的速度较快。但是已有的预测模型的训练集大多数是根据旧版本的数据库中的蛋白质构建的。这样导致了预测模型没有包含最新的蛋白质序列,从而影响模型的泛化能力。此外,在一条蛋白质中,相邻的氨基酸在是否会形成固有无序状态方面具有相似的特征。但是基于传统的分类算法构建的预测模型将每个目标氨基酸当作独立的样本进行训练,从而不能包含相邻的氨基酸标签之间的依赖关系。另一方面,蛋白质丰富的数值型特征对于识别固有无序蛋白质具有重要的作用。虽然目前基于条件随机场构建的预测方法能够解决传统的分类算法中存在的问题,但是还不能够处理数值型特征,从而大大限制了模型的预测性能。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于条件随机场的固有无序蛋白质的识别方法,包含了蛋白质序列中相邻的位点标签之间的依赖关系,并利用了从蛋白质序列中提取的丰富的数值型特征,从而提高对固有无序蛋白质的预测性能。
本发明具体通过如下技术方案实现:
一种基于条件随机场的固有无序蛋白质的识别方法,包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数;S4、对测试集执行步骤S1后输入到条件随机场模型中,得到识别结果。
作为本发明的进一步改进,假设氨基酸的标签集合为L={有序,无序},则转移特征如下式所示:
其中yi-1和yi是蛋白质序列中位置在i-1和i的氨基酸的标签,y和y′属于L。
作为本发明的进一步改进,本发明基于MobiDB数据库和最新的DisProt数据库构建了最新、最全的数据集,并基于此数据集构建预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘滨,未经刘滨许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810834590.6/2.html,转载请声明来源钻瓜专利网。