[发明专利]一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法无效
申请号: | 201210293416.8 | 申请日: | 2012-08-17 |
公开(公告)号: | CN102819693A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 李立奇;张瑗;朱洁;周跃;杨桦 | 申请(专利权)人: | 中国人民解放军第三军医大学第二附属医院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400037 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法,策略为基于1对1方案的KNN法和SVM法构建集成分类器。目的是预测蛋白质的亚细胞位点,促进蛋白质功能研究。属于生物信息学领域。所述预测方法为基于欧氏距离的KNN法和RBF核函数的SVM法的集成分类器。所述蛋白质特征信息为改良周的伪氨基酸组成,是基于GO、AAC、AAP、氨基酸亲水、疏水性质等特征,并由fselect.py方法提取出与蛋白质亚细胞位点密切相关的高分值特征而成。旨在通过KNN、SVM这两种预测方法和高分值特征,提高蛋白质亚细胞位点预测的准确率。实施中以jackknife检验法,从总体预测准确率、各个位点预测准确率、马氏相关系数(MCC)等指标鉴定该预测方法。本发明适用于不同种属蛋白质的亚细胞位点预测。 | ||
搜索关键词: | 一种 基于 改良 氨基酸 组成 蛋白质 细胞 预测 方法 | ||
【主权项】:
一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法,其特征在于,所述预测方法为基于K最近邻法(KNN)和支持向量机法(SVM)的集成预测方法,KNN法采用欧氏距离,SVM法采用RBF核函数,并采用grid.py方法进行参数优化,所述方法命名为KNN‑SVM集成分类器;所述预测方法包括以下步骤:(1)蛋白质训练数据集的建立:训练数据集包括真核蛋白质数据集、原核蛋白质数据集和病毒蛋白质数据集,数据集中含有蛋白质编号、所属亚细胞位点编号及氨基酸序列;(2)GO特征提取:GO数据集从ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/下载得到,只需保留蛋白质编号及其对应的GO编号;(3)蛋白质的氨基酸组成AAC、氨基酸对组成AAP、疏水、亲水特征提取:利用周的两性伪氨基酸组成理论可获得AAC、AAP、亲水、疏水特征;(4)采用KNN‑SVM集成分类器预测数据集中蛋白质的亚细胞位点:①特征向量建立:每个蛋白质均对应GO、AAC、AAP、疏水、亲水这五部分特征,这些特征构成了每个蛋白质的特征向量;②特征打分、排序:使用fselect.py特征打分、排序方法,对每一个特征进行打分,再根据分数由高到低排序;③生成Top特征即高分值特征:以特征分数排序为依据,以10为间隔,取分数排前10至前60的Top特征作为特征选取后的简化特征集;④Top特征的SVM参数优化:使用grid.py方法对SVM法中的参数C、γ进行优化;⑤Top特征维度Dim的确定:使用SVM法分别计算Top10至Top60的预测准确率,比较各Top特征对应的预测准确率,确定最高准确率对应的Top特征维度Dim为最终维度;⑥KNN法中参数K的确定:使用KNN法分别计算参数K从1到10的预测准确率,比较各K值对应的预测准确率,以最高准确率对应的K值作为KNN法的参数K值;⑦KNN‑SVM集成分类器预测蛋白质亚细胞位点:对于已知位点的蛋白质数据集,由于其包含有n个亚细胞位点,n≥1,故采用1对1策略会形成n×(n‑1)/2个二类分类器;根据每个分类器中KNN法和SVM法预测准确率的高低选择准确率较高的方法的预测结果作为该分类器的预测结果,再将这些预测结果叠加得到融合预测结果;对于未知位点的病毒蛋白质P,融合预测结果将蛋白质P指向次数最多的位点即为蛋白质P被预测的亚细胞位点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军第三军医大学第二附属医院,未经中国人民解放军第三军医大学第二附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210293416.8/,转载请声明来源钻瓜专利网。
- 上一篇:LED封装结构及LED灯具
- 下一篇:一种朗伯型大功率LED封装结构
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用