[发明专利]一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法无效

专利信息
申请号: 201210293416.8 申请日: 2012-08-17
公开(公告)号: CN102819693A 公开(公告)日: 2012-12-12
发明(设计)人: 李立奇;张瑗;朱洁;周跃;杨桦 申请(专利权)人: 中国人民解放军第三军医大学第二附属医院
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 重庆华科专利事务所 50123 代理人: 康海燕
地址: 400037 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改良 氨基酸 组成 蛋白质 细胞 预测 方法
【权利要求书】:

1. 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法,其特征在于,所述预测方法为基于K最近邻法(KNN)和支持向量机法(SVM)的集成预测方法,KNN法采用欧氏距离,SVM法采用RBF核函数,并采用grid.py方法进行参数优化,所述方法命名为KNN-SVM集成分类器;所述预测方法包括以下步骤:

(1)蛋白质训练数据集的建立:训练数据集包括真核蛋白质数据集、原核蛋白质数据集和病毒蛋白质数据集,数据集中含有蛋白质编号、所属亚细胞位点编号及氨基酸序列;

(2)GO特征提取:GO数据集从ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/下载得到,只需保留蛋白质编号及其对应的GO编号;

(3)蛋白质的氨基酸组成AAC、氨基酸对组成AAP、疏水、亲水特征提取:利用周的两性伪氨基酸组成理论可获得AAC、AAP、亲水、疏水特征;

(4)采用KNN-SVM集成分类器预测数据集中蛋白质的亚细胞位点:

①特征向量建立:每个蛋白质均对应GO、AAC、AAP、疏水、亲水这五部分特征,这些特征构成了每个蛋白质的特征向量;

②特征打分、排序:使用fselect.py特征打分、排序方法,对每一个特征进行打分,再根据分数由高到低排序;

③生成Top特征即高分值特征:以特征分数排序为依据,以10为间隔,取分数排前10至前60的Top特征作为特征选取后的简化特征集;

④Top特征的SVM参数优化:使用grid.py方法对SVM法中的参数C、γ进行优化;

⑤Top特征维度Dim的确定:使用SVM法分别计算Top10至Top60的预测准确率,比较各Top特征对应的预测准确率,确定最高准确率对应的Top特征维度Dim为最终维度;

⑥KNN法中参数K的确定:使用KNN法分别计算参数K从1到10的预测准确率,比较各K值对应的预测准确率,以最高准确率对应的K值作为KNN法的参数K值;

⑦KNN-SVM集成分类器预测蛋白质亚细胞位点:对于已知位点的蛋白质数据集,由于其包含有n个亚细胞位点,n≥1,故采用1对1策略会形成n×(n-1)/2个二类分类器;根据每个分类器中KNN法和SVM法预测准确率的高低选择准确率较高的方法的预测结果作为该分类器的预测结果,再将这些预测结果叠加得到融合预测结果;对于未知位点的病毒蛋白质P,融合预测结果将蛋白质P指向次数最多的位点即为蛋白质P被预测的亚细胞位点。

2.根据权利要求1的预测方法,其特征在于,所述集成分类器是基于病毒蛋白质数据集进行SVM和KNN法的参数优化,并以优化的参数数值为标准应用于所有蛋白质数据集的预测中,并将两种方法的预测结果进行比较并融合,不同于单一预测方法所构建的集成分类器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军第三军医大学第二附属医院,未经中国人民解放军第三军医大学第二附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210293416.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top