[发明专利]一种基于机器学习技术预测细菌外膜蛋白质的方法在审
申请号: | 201711435147.3 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108009405A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 陈抗 | 申请(专利权)人: | 重庆佰诺吉生物科技有限公司 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/18;G06F19/28;G06K9/62 |
代理公司: | 重庆图为知识产权代理事务所(普通合伙) 50233 | 代理人: | 蒋国荣 |
地址: | 400000 重庆市九龙坡*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 技术 预测 细菌 膜蛋白 方法 | ||
本发明公开了一种使用机器学习技术来在细菌基因组上预测其编码的外膜蛋白质的方法,该方法为:利用PSI‑BLAST算法,计算蛋白质的位置特异性特征向量,采用自相关函数来进行特征转换,建立基于支持向量机的分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过本地计算机程序,接受用户输入的蛋白质序列,预测其是否为一个外膜蛋白。本发明可对细菌全基因组编码的蛋白质序列进行计算预测,敏感度高,计算速度快,为细菌基因组内外膜蛋白质的快速鉴定和筛选提供了有效工具。本发明是一种准确有效的外膜蛋白筛选方法,可广泛应用于新测序细菌基因组的外膜蛋白质的鉴定。
技术领域
本发明属于预测细菌外膜蛋白质的技术领域,尤其涉及一种基于机器学习技术预测细菌外膜蛋白质的方法。
背景技术
革兰阴性细菌外膜上分布大量beta-barrel形状的跨膜蛋白质,其中的一些蛋白质是细菌入侵细胞的作用蛋白,也是宿主免疫系统清除细菌的靶向识别蛋白,介导多种疾病的产生,同时也激活机体的免疫机制对抗细菌的感染。
当前,在新的细菌基因组内鉴定外膜蛋白主要通过实验完成。然而,使用实验方法对外膜蛋白进行鉴定,需要耗费大量的人力物力,成本高,效率低。一个新的细菌基因组往往编码几千个蛋白质,使用传统实验方法对其中的外膜蛋白质进行一一鉴定,是一件极其困难的事情。因此,使用计算机来进行生物信息学预测,可自动化实现,速度快,成本低,是解决在细菌全基因组内鉴别外膜蛋白质的有效途径。因此,建立一种准确快速的生物信息学预测和识别算法,成为当前这一领域需要解决的主要问题。
发明内容
本发明的目的在于提供一种基于机器学习技术预测其外膜蛋白质的方法,旨在解决目前在新的细菌基因组内鉴定外膜蛋白主要通过实验完成的问题。
本发明是这样实现的,一种基于机器学习技术预测细菌外膜蛋白质的方法,该可在细菌全基因组水平预测外膜蛋白质的方法为:
利用PSI-BLAST算法,将蛋白质序列与无冗余的蛋白质序列数据库进行比对,计算位置特异性迭代打分矩阵(PSSM),通过组成函数和自相关函数分别计算PSSM的组成特征(氨基酸残基组成/PSSM_AAC),以及PSSM自相关特征(自相关的氨基酸位置特异性组成/PSSM_AC),建立基于支持向量机的分类器,对外膜蛋白质和非外膜蛋白质进行分类,通过本地计算机程序,接受用户输入的蛋白质序列,预测用户输入的蛋白质序列是否为一个外膜蛋白。
一种基于机器学习技术预测细菌外膜蛋白质的方法,该可在细菌全基因组水平预测外膜蛋白质的方法为:
进一步,该基于机器学习技术预测外膜蛋白质的方法具体包括以下步骤:
步骤一、用户将待预测的蛋白质序列,采用FASTA格式,输入本地计算机程序;
步骤二、计算机程序采用PSI-BLAST程序,将蛋白质序列与无冗余的蛋白质序列进行比对;
步骤三、计算机程序调用Matlab来运行核心预测程序,计算蛋白质序列的氨基酸位置特异性组成和自相关的氨基酸位置特异性组成等特征;
步骤四、Matlab程序将多类特征依据预设方式进行特征选择和组合,产生一个蛋白质特征向量;
步骤五、Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是外膜蛋白的似然率;
步骤六、根据SVM预测结果判断其是否为一个外膜蛋白,将结果输出到屏幕,或者保存到本地计算机硬盘;
进一步,所述PSSM矩阵的计算方法为:
使用PSI-BALST算法,设定e值为0.001,迭代次数3次,将蛋白质序列与NCBI无冗余的蛋白质数据库nr进行比对,输出计算过程中获得的PSSM矩阵。
进一步,所述PSSM组成和PSSM自相关特征的计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆佰诺吉生物科技有限公司,未经重庆佰诺吉生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711435147.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用