[发明专利]一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法无效
申请号: | 201010120350.3 | 申请日: | 2010-03-09 |
公开(公告)号: | CN101794351A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | 王宽全;杨伟;左旺孟;袁永峰;张宏志 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 间隔 最近 中心点 蛋白质 二级 结构 工程 预测 方法 | ||
1.一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是:
采用下列步骤实现:
步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;
步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标蛋 白质一级序列中的每个残基构造多序列比对特征向量;
步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最 近中心点算法,获得目标蛋白质的二级结构预测数据,
在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:
步骤三·一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的 多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点 算法的训练样本集;
步骤三·二、基于步骤三·一构造的训练样本集,利用欧氏距离的K-means聚类算法 确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为 3,3和2;
步骤三·三、基于步骤三·二确定的各类样本的中心点和给定的初始超参数μ,利用子 梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其 中,目标损失函数形式化为凸半定规划问题,
所述的大间隔最近中心点,学习一个线性变换矩阵L而实现的,
训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}中通过分别对每类的所有中心点从1进行依次 编号,可以用mjk唯一表示一个中心点,其中j∈{1,2,...,C}是中心点对应的类别,k∈{1,2,...,nj} 是中心点的编号,nj表示第j类样本聚类后的中心点数目;
对于每个聚类,把它的中心点称为其包含样本的目标中心点,一个样本的目标中心点, 就是在度量学习过程中应该与其距离最近的中心点,目标中心点是在度量学习之前确定的 并在学习过程中保持不变;为表示目标中心点的信息,每个训练样本xi增加一个代表其目 标中心点编号的标签ti;
对于每个训练样本点(xi,yi),L满足公式一的约束;对于任意一个不等于yi的j,k为任 意值时,
公式一
即每个样本点与其目标中心点的距离和它与其它类别中心点的距离应至少保持一个单 位间隔,目标损失函数ε(L)包括两项:第一项用来惩罚公式一的边界违背,第二项用来正 则化线性变换矩阵L,其中,线性变换矩阵L使得目标损失函数ε(L)最小化:
其中,函数[z]+=max(z,0)表示铰链损失;当公式一中的不等式对任意样本xi都满足时, 所有铰链损失[z]+的值都为0;此时,目标损失函数ε(L)达到最小值;
引入一个矩阵变量M=LTL,M是半正定矩阵,通过用M替换L,可以把目标损失函 数ε(L)表示为:
上式中的目标损失函数ε(L),是关于矩阵M中元素的分段线性凸函数;对其进行标准 化,定义非负松弛变量{ξijk}来模拟上式中所有铰链损失[z]+的影响,M是半正定矩阵,因 此,将目标损失函数ε(M)的最小化形式化为凸半正定规划:
最小化:
制约条件为:
对每一个样本类别分别学习一个线性变换;
多度量大间隔最近中心点分类模型,尝试学习C个线性变换矩阵Lj,每个样本点(xi,yi), 满足如下条件:
公式二
其中,j为不等于yi的从1到C的自然数,k为任意值,与公式一不同之处在于,公式 二中样本与中心点的距离还依赖于中心点所对应的类别;为获得满足条件的C个线性变换 矩阵,定义目标损失函数ε(L1,...,LC):
最小化目标损失函数ε(L1,...,LC),定义C个半正定矩阵Mj=LjTLj,其中j为从1到C 的自然数,定义松弛变量{ξijk},将目标损失函数ε(Mj)的最小化形式化为凸半正定规划:
最小化:
制约条件为:
同理,C个线性变换矩阵可以用子梯度投影算法快速地求解,并且不存在局部极小值 问题;
线性变换矩阵可以用快速的子梯度算法求解,具体过程如下:
在第t次迭代中,令Mt-1为迭代开始时的半正定矩阵,则此时的目标损失函数ε(Mj)为:
上式中,由于Mt-1是分段线性的;定义一个三元组集ψt,当i、j、k在ψt范围内触发 铰链损失[z]+,即ξijk大于0时,可以计算目标损失函数ε(Mt-1)的梯度Gt:
其中,I为单位矩阵,梯度Gt仅依赖于三元组集ψt,因此,连续两次迭代梯度的改变 仅由ψt与ψt+1之差决定;因此,基于第t次迭代的梯度Gt快速地计算第t+1次迭代的梯度 Gt+1:
对于小的梯度步长,三元组集ψt在连续两次迭代中的改变很小,因此,上式中的梯度 可以以极快的速度进行计算;
完成梯度Gt的计算后,目标损失函数ε(Mj)应沿着子梯度方向下降一步,即根据梯度 步长α,参数矩阵Mt-1应作如下更新:
M′t=Mt-1-αGt
为了保证更新后的参数矩阵是半正定矩阵,将M′t对角化,用M′t=PΛPT表示M′t的特 征分解,其中P是特征向量的正交矩阵,Λ是以对应的特征值为对角元素的对角矩阵,将 Λ中所有负特征值都变为0,可以得到一个新的对角矩阵Λ+,Λ+=max(Λ,0),则M′t到半 正定锥投影为Mt,Mt=PΛ+PT;
根据收敛时的半正定矩阵Mt=PΛ+PT,可以获得线性变换矩阵L:L=PT(Λ+)1/2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010120350.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种成型机光模的垂直同轴度调节装置
- 下一篇:组合纳米材料优化PCR的方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用