[发明专利]一种基于机器学习技术预测细菌外膜蛋白质的方法在审
申请号: | 201711435147.3 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108009405A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 陈抗 | 申请(专利权)人: | 重庆佰诺吉生物科技有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/18;G06F19/28;G06K9/62 |
代理公司: | 重庆图为知识产权代理事务所(普通合伙) 50233 | 代理人: | 蒋国荣 |
地址: | 400000 重庆市九龙坡*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 技术 预测 细菌 膜蛋白 方法 | ||
1.一种基于机器学习技术预测细菌外膜蛋白质的方法,其特征在于,所述的方法包括:
利用PSI-BLAST算法,将蛋白质序列与无冗余的蛋白质序列数据库进行比对,计算位置特异性打分矩阵,采用一个自相关函数,计算序列一定区域内同一类氨基酸的PSSM组成特征和PSSM自相关特征,共同组成蛋白质特征向量,采用支持向量机建立机器学习分类模型,使用训练数据集对模型进行训练和优化,训练好的模型可对未知的蛋白质序列进行分类,判断其是否为外膜蛋白质。
2.一种基于机器学习技术预测细菌外膜蛋白质的方法,其特征在于,所述的方法包括如下步骤:
步骤一、用户将待预测的蛋白质序列,采用FASTA格式,输入本地计算机程序;
步骤二、计算机程序采用PSI-BLAST程序,将蛋白质序列与无冗余的蛋白质序列进行比对;
步骤三、计算机程序调用Matlab来运行核心预测程序,计算蛋白质的PSSM组成特征和PSSM自相关特征;
步骤四、Matlab程序将多类特征依据预设方式进行特征选择和组合,产生一个蛋白质特征向量;
步骤五、Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是外膜蛋白的似然率;
步骤六、根据SVM预测结果判断其是否为一个外膜蛋白,将结果输出。
3.如权利要求2所述的一种基于机器学习技术预测细菌外膜蛋白质的方法,其特征在于,步骤二、计算机程序采用PSI-BLAST程序,将蛋白质序列与无冗余的蛋白质序列进行比对具体步骤为:将用户输入的蛋白质序列输入matlab脚本程序,matlab脚本程序调用PSI-BALST来与无冗余的蛋白质数据库进行比对,计算PSSM,并且通过PSSM组成计算方法,将PSSM转换为PSSM组成特征和PSSM自相关特征,得到一个组合的特征向量。
4.如权利要求2所述的一种基于机器学习技术预测细菌外膜蛋白质的方法,其特征在于,步骤三、计算机程序调用Matlab来运行核心预测程序,计算蛋白质的PSSM组成特征和PSSM自相关特征;
蛋白质序列视为20种氨基酸残基组成的字符串,将蛋白质序列通过本地PSI-BLAST程序,与本地的蛋白质序列数据库进行比对,输出PSSM;PSSM自相关特征计算方式为:
Sji是蛋白质序列上第j个氨基酸突变为氨基酸i的PSSM得分,
lg表示一个残基和它的邻居之间的距离,LG是g的最大值,V表示相隔g个氨基酸残基的两个残基之间的平均自相关值;这样,从蛋白质序列的PSSM可以计算出20*LG个变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆佰诺吉生物科技有限公司,未经重庆佰诺吉生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711435147.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用