[发明专利]一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法无效

专利信息
申请号: 201010120350.3 申请日: 2010-03-09
公开(公告)号: CN101794351A 公开(公告)日: 2010-08-04
发明(设计)人: 王宽全;杨伟;左旺孟;袁永峰;张宏志 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F19/00 分类号: G06F19/00;G06F17/30
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 牟永林
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,属于蛋白质二级结构的工程预测方法领域,解决了现有蛋白质二级结构的预测方法在采用机器学习算法时,存在的数据权值存在局部极小值、预测效率低的问题。本发明所述的蛋白质二级预测方法是:首先基于PDB数据库构造非冗余蛋白质二级结构训练数据集,然后基于NCBI nr数据库为目标蛋白质链构造多序列比对特征,最后调用大间隔最近中心点算法来构建蛋白质二级结构预测模型。所述的大间隔最近中心点算法利用欧氏距离的K-means聚类算法确定每类样本的中心点,通过最小化目标损失函数学习输入空间的线性变换。本发明实现了快速、高效率、高精度的蛋白质二级结构预测,适用于蛋白质的二级结构预测。
搜索关键词: 一种 基于 间隔 最近 中心点 蛋白质 二级 结构 工程 预测 方法
【主权项】:
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是:采用下列步骤实现:步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标蛋白质一级序列中的每个残基构造多序列比对特征向量;步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据,在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:步骤三·一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集;步骤三·二、基于步骤三·一构造的训练样本集,利用欧氏距离的K-means聚类算法确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为3,3和2;步骤三·三、基于步骤三·二确定的各类样本的中心点和给定的初始超参数μ,利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其中,目标损失函数形式化为凸半定规划问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010120350.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top