[发明专利]一种人类蛋白质亚细胞位置预测方法在审

专利信息
申请号: 201710204499.1 申请日: 2017-03-31
公开(公告)号: CN106778070A 公开(公告)日: 2017-05-31
发明(设计)人: 沈红斌;周航 申请(专利权)人: 上海交通大学
主分类号: G06F19/18 分类号: G06F19/18;G06F19/24
代理公司: 上海伯瑞杰知识产权代理有限公司31227 代理人: 孟旭彤
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种人类蛋白质亚细胞位置预测的方法,是利用人类蛋白质的序列来预测该蛋白质的亚细胞位置,基于基因本体论(GO)特征和保守域相关性优化人类蛋白质亚细胞分类算法。首先通过蛋白质的序列获得该蛋白质的序列残基统计特征(氨基酸组成成分特征,归一化的特异性打分矩阵特征),保守域特征和GO特征;其次,对序列残基统计特征使用CFS特征选择方法提取特征子集,对保守域特征和GO特征通过计算分别得到这些特征的相似性度量,使用带权值的KNN方法计算出概率信息,然后将获得的特征进行整合运用SVM分类器进行分类。
搜索关键词: 一种 人类 蛋白质 细胞 位置 预测 方法
【主权项】:
一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:第一步:利用人类蛋白质序列信息分别提取序列全长,序列N端,C端多个蛋白质序列片段的残基统计特征,其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理,在综合这两个特征之后使用Correlation‑based Feature Selection这种有监督的特征选择算法进行降维;第二步:通过提取蛋白质数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;第三步:通过blast方法在Swiss‑Prot数据库中搜索同源蛋白,提取所述同源蛋白的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;第四步:将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);第五步:通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第六步:通过rps‑blast来获得Swiss‑Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性,得到保守域特征相似度矩阵,然后通过rps‑blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第七步:融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以预测中心体,细胞质,细胞骨架,内质网,内体,分泌途径,高尔基体,溶酶体,线粒体,细胞核,过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710204499.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top