[发明专利]一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法无效
申请号: | 201210293416.8 | 申请日: | 2012-08-17 |
公开(公告)号: | CN102819693A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 李立奇;张瑗;朱洁;周跃;杨桦 | 申请(专利权)人: | 中国人民解放军第三军医大学第二附属医院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400037 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改良 氨基酸 组成 蛋白质 细胞 预测 方法 | ||
技术领域
本发明涉及一种通过KNN-SVM集成分类器预测蛋白质的亚细胞位点,属于生物信息学领域。
背景技术
研究蛋白质的亚细胞位点对于阐明它们在细胞中的功能有重要作用。虽然目前可通过实验方式进行蛋白质亚细胞定位研究,但这些实验方式不仅费时费钱,而且不适用于大规模的蛋白质亚细胞定位研究。而通过计算方法则可以实现快速、准确、大规模的预测蛋白质的亚细胞位点。
在过去几十年中,有许多计算方法被应用于蛋白质的亚细胞位点预测。这些方法主要分为两大类。第一类方法是基于氨基酸组成。Nakashima等[1]研究发现:细胞外蛋白质和细胞内蛋白质在氨基酸组成上有显著的差异,并由此来区分这两类亚细胞位置的蛋白质。沿着这个思路,许多基于氨基酸组成、双肽组成[2]、n阶双肽组成[3]的计算方法被提出。同时,为了掺入更多蛋白质序列特征,许多其它特征(如氨基酸亲水疏水性质[4]、功能域组成[5]、psi-blast[6]等)也被引入。而第二类方法是基于一些分选信号,包括信号肽、线粒体靶向肽和叶绿体转运肽[7, 8]。例如,Emanuelsson等[8]详细阐述了应用SignalP和ChloroP预测分泌途径信号肽和叶绿体转运肽的切割位点。但是,这些方法的可靠性在很大程度上取决于蛋白质的N端序列。并且,分选信号相关的分子机制相当复杂,目前并没有完全阐述清楚。
不仅蛋白质序列信息,而且预测算法也同样会影响蛋白质亚细胞位点预测的准确性。至今,已有许多计算方法用于预测蛋白质的亚细胞位点,如隐马尔可夫模型(HMM)[9, 10]、神经网络[11]、K最近邻法(KNN)[12]和支持向量机(SVM)[13]等。但是,大部分预测分类器都只是基于单一算法理论,而每种算法都有自身固有的缺陷,这会引起预测效果不佳。例如,HMM算法中需要估计的参数很多[14];神经网络模型可能会遭遇许多局部极小值[15]。此外,虽然有一些集成分类器[2, 16, 17]用于预测蛋白质的亚细胞位点。但大多数实际上仅基于单一算法,例如模糊KNN[2]、KNN[16]和贝叶斯理论[17]。其它集成分类器,如CE-PLoc[18]等是基于不同算法,这些集成分类器都包含了KNN和SVM算法。沿着这个思路,我们拟用KNN和SVM两种算法构建集成分类器,来预测蛋白质的亚细胞位点。
发明内容
本发明为解决现有技术的不足,提供一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法,其目的有二:其一,旨在通过KNN和SVM这两种最常用的预测分类方法来预测蛋白质的亚细胞位点,以弥补单一方法自身固有的缺陷。且利用参数优化工具grid.py对预测方法进行参数优化,有利于提高预测准确率。其二,解决传统所用的蛋白质特征信息因信息量大造成的信息冗余,从而导致预测效果不佳,本发明利用特征筛选工具fselect.py从大量特征信息中提取出与蛋白质亚细胞位点最密切相关的高分值特征,提高蛋白质的亚细胞位点预测准确率。
本发明的技术解决方案如下:
本发明涉及一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法,其特征在于,所述预测方法为基于KNN和SVM方法的集成预测方法,KNN法采用欧氏距离,SVM法采用RBF核函数,并采用grid.py方法进行参数优化,所述方法命名为KNN-SVM集成分类器。蛋白质特征信息为改良周的伪氨基酸组成,是由基因本体论(GO)、氨基酸组成(AAC)、氨基酸对组成(AAP)、氨基酸亲水、疏水性质等特征经过fselect.py方法筛选而成。所述集成分类器是采用1对1策略构建多个二类分类器,通过KNN和SVM两种方法分别预测,并将两种方法的预测结果进行比较并融合。蛋白质数据集为真核蛋白质数据集、原核蛋白质数据集或病毒蛋白质数据集,根据所预测蛋白质的种类选择。
参见图1,本集成分类器的主要构建步骤如下:
1. 蛋白质数据集的构建:①真核蛋白质数据集Euk7579、②原核蛋白质数据集Gneg1456、③病毒蛋白质数据集Virus252分别通过如下地址获得:
①http://web.kuicr.kyoto-u.ac.jp/~park/Seqdata/ [3];
②http://www.csbio.sjtu.edu.cn/bioinf/Gneg-multi/ [19];
③http://www.csbio.sjtu.edu.cn/bioinf/virus-multi/ [20]。
利用word查找、替换功能删除冗余信息,留下蛋白质编号、所属亚细胞位点编号及氨基酸序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军第三军医大学第二附属医院,未经中国人民解放军第三军医大学第二附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210293416.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:LED封装结构及LED灯具
- 下一篇:一种朗伯型大功率LED封装结构
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用