[发明专利]基于条件随机场的固有无序蛋白质的识别方法在审
申请号: | 201810834590.6 | 申请日: | 2018-07-26 |
公开(公告)号: | CN109147870A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 刘滨;刘羽朦 | 申请(专利权)人: | 刘滨 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/00;G16B50/00 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 位点 蛋白质 基于条件 生物序列 依赖关系 机场 标签 条件随机场算法 二级结构信息 氨基酸组成 蛋白质识别 分类算法 结合条件 预测模型 预测性能 传统的 溶剂 进化 预测 | ||
1.一种基于条件随机场的固有无序蛋白质的识别方法,其特征在于:所述方法包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数;S4、对测试集执行步骤S1后输入到条件随机场模型中,得到识别结果。
2.根据权利要求1所述的方法,其特征在于:假设氨基酸的标签集合为L={有序,无序},则转移特征如下式所示:
其中yi-1和yi是蛋白质序列中位置在i-1和i的氨基酸的标签,y和y′属于L。
3.根据权利要求1所述的方法,其特征在于:所述方法基于MobiDB数据库和DisProt数据库构建数据集,并基于此数据集构建预测模型。
4.根据权利要求1所述的方法,其特征在于:窗口内的进化信息的构建过程为:首先利用PSI-BLAST搜索大规模的蛋白质数据库得到蛋白质的位置特异性打分矩阵PSSM,PSI-BLAST的参数E-value和迭代次数分别设为0.001和3,其他参数为默认;然后对PSSM矩阵进行归一化,其公式如下:
其中x代表PSSM矩阵中的每个元素的值;最后将每个目标氨基酸窗口内的所有氨基酸的PSSM信息连接起来,得到目标氨基酸的进化信息特征。
5.根据权利要求1所述的方法,其特征在于:窗口内的氨基酸组成特征是指窗口内连续k个氨基酸出现的频率特征。
6.根据权利要求1所述的方法,其特征在于:目标氨基酸的二级结构特征是利用基于序列谱信息的PSIPRED软件对目标氨基酸的三种结构进行预测,包括螺旋、折叠和无规卷曲;但是当一条蛋白质序列在搜索数据库之后没有得到PSSM矩阵,那么就采用仅基于蛋白质序列的PSIPRED。
7.根据权利要求1所述的方法,其特征在于:目标氨基酸的相对溶剂可及性特征是利用Sable软件预测得到的,其SA_ACTION和SA_OUT参数分别设置为SVR和RELATIVE,其他参数为默认参数。
8.根据权利要求1所述的方法,其特征在于:所述方法还适应于DNA、RNA和Protein位点进行预测的生物问题,如蛋白质结合位点的预测、蛋白质二级结构的预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘滨,未经刘滨许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810834590.6/1.html,转载请声明来源钻瓜专利网。