[发明专利]一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法无效
申请号: | 201010120350.3 | 申请日: | 2010-03-09 |
公开(公告)号: | CN101794351A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | 王宽全;杨伟;左旺孟;袁永峰;张宏志 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,属于蛋白质二级结构的工程预测方法领域,解决了现有蛋白质二级结构的预测方法在采用机器学习算法时,存在的数据权值存在局部极小值、预测效率低的问题。本发明所述的蛋白质二级预测方法是:首先基于PDB数据库构造非冗余蛋白质二级结构训练数据集,然后基于NCBI nr数据库为目标蛋白质链构造多序列比对特征,最后调用大间隔最近中心点算法来构建蛋白质二级结构预测模型。所述的大间隔最近中心点算法利用欧氏距离的K-means聚类算法确定每类样本的中心点,通过最小化目标损失函数学习输入空间的线性变换。本发明实现了快速、高效率、高精度的蛋白质二级结构预测,适用于蛋白质的二级结构预测。 | ||
搜索关键词: | 一种 基于 间隔 最近 中心点 蛋白质 二级 结构 工程 预测 方法 | ||
【主权项】:
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是:采用下列步骤实现:步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标蛋白质一级序列中的每个残基构造多序列比对特征向量;步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据,在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:步骤三·一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集;步骤三·二、基于步骤三·一构造的训练样本集,利用欧氏距离的K-means聚类算法确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为3,3和2;步骤三·三、基于步骤三·二确定的各类样本的中心点和给定的初始超参数μ,利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其中,目标损失函数形式化为凸半定规划问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010120350.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种成型机光模的垂直同轴度调节装置
- 下一篇:组合纳米材料优化PCR的方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用