[发明专利]一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法无效

专利信息
申请号: 201010120350.3 申请日: 2010-03-09
公开(公告)号: CN101794351A 公开(公告)日: 2010-08-04
发明(设计)人: 王宽全;杨伟;左旺孟;袁永峰;张宏志 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F19/00 分类号: G06F19/00;G06F17/30
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 牟永林
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 间隔 最近 中心点 蛋白质 二级 结构 工程 预测 方法
【权利要求书】:

1.一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是:

采用下列步骤实现:

步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;

步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标蛋 白质一级序列中的每个残基构造多序列比对特征向量;

步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最 近中心点算法,获得目标蛋白质的二级结构预测数据,

在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:

步骤三·一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的 多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点 算法的训练样本集;

步骤三·二、基于步骤三·一构造的训练样本集,利用欧氏距离的K-means聚类算法 确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为 3,3和2;

步骤三·三、基于步骤三·二确定的各类样本的中心点和给定的初始超参数μ,利用子 梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其 中,目标损失函数形式化为凸半定规划问题,

所述的大间隔最近中心点,学习一个线性变换矩阵L而实现的,

训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}中通过分别对每类的所有中心点从1进行依次 编号,可以用mjk唯一表示一个中心点,其中j∈{1,2,...,C}是中心点对应的类别,k∈{1,2,...,nj} 是中心点的编号,nj表示第j类样本聚类后的中心点数目;

对于每个聚类,把它的中心点称为其包含样本的目标中心点,一个样本的目标中心点, 就是在度量学习过程中应该与其距离最近的中心点,目标中心点是在度量学习之前确定的 并在学习过程中保持不变;为表示目标中心点的信息,每个训练样本xi增加一个代表其目 标中心点编号的标签ti

对于每个训练样本点(xi,yi),L满足公式一的约束;对于任意一个不等于yi的j,k为任 意值时,

公式一||L(xi-myiti)||22+1<||L(xi-mjk)||22]]>

即每个样本点与其目标中心点的距离和它与其它类别中心点的距离应至少保持一个单 位间隔,目标损失函数ε(L)包括两项:第一项用来惩罚公式一的边界违背,第二项用来正 则化线性变换矩阵L,其中,线性变换矩阵L使得目标损失函数ε(L)最小化:

ϵ(L)=ΣiΣjyiΣk=1nj[1+||L(xi-myiti)||22-||L(xi-mjk)||22]++μ(tr(LTL))]]>

=ΣiΣjyiΣk=1nj[1+(xi-myiti)TLTL(xi-myiti)-(xi-mjk)TLTL(xi-mjk)]++μ(tr(LTL))]]>

其中,函数[z]+=max(z,0)表示铰链损失;当公式一中的不等式对任意样本xi都满足时, 所有铰链损失[z]+的值都为0;此时,目标损失函数ε(L)达到最小值;

引入一个矩阵变量M=LTL,M是半正定矩阵,通过用M替换L,可以把目标损失函 数ε(L)表示为:

ϵ(M)=ΣiΣjyiΣk=1nj[1+(xi-myiti)TM(xi-myiti)-(xi-mjk)TM(xi-mjk)]++μ(tr(M))]]>

上式中的目标损失函数ε(L),是关于矩阵M中元素的分段线性凸函数;对其进行标准 化,定义非负松弛变量{ξijk}来模拟上式中所有铰链损失[z]+的影响,M是半正定矩阵,因 此,将目标损失函数ε(M)的最小化形式化为凸半正定规划:

最小化:ΣiΣjyiΣk=1njξijk+μ(tr(M))]]>

制约条件为:

(xi-mjk)TM(xi-mjk)-(xi-myiti)TM(xi-myiti)1-ξijkξijk0M0]]>

对每一个样本类别分别学习一个线性变换;

多度量大间隔最近中心点分类模型,尝试学习C个线性变换矩阵Lj,每个样本点(xi,yi), 满足如下条件:

公式二||Lyi(xi-myiti)||22+1<||Lj(xi-mjk)||22]]>

其中,j为不等于yi的从1到C的自然数,k为任意值,与公式一不同之处在于,公式 二中样本与中心点的距离还依赖于中心点所对应的类别;为获得满足条件的C个线性变换 矩阵,定义目标损失函数ε(L1,...,LC):

ϵ(L1,...,LC)=ΣiΣjyiΣk=1nj[1+||Lyi(xi-myiti)||22-||Lj(xi-mjk)||22]++μΣj=1Ctr(LjTLj)]]>

最小化目标损失函数ε(L1,...,LC),定义C个半正定矩阵Mj=LjTLj,其中j为从1到C 的自然数,定义松弛变量{ξijk},将目标损失函数ε(Mj)的最小化形式化为凸半正定规划:

最小化:ΣiΣjyiΣk=1njξijk+μΣj=1Ctr(Mj)]]>

制约条件为:

(xi-mjk)TMj(xi-mjk)-(xi-myiti)TMyi(xi-myiti)1-ξijkξijk0Mj0j=1,...,C]]>

同理,C个线性变换矩阵可以用子梯度投影算法快速地求解,并且不存在局部极小值 问题;

线性变换矩阵可以用快速的子梯度算法求解,具体过程如下:

在第t次迭代中,令Mt-1为迭代开始时的半正定矩阵,则此时的目标损失函数ε(Mj)为:

ϵ(Mt-1)=ΣiΣjyiΣk=1nj[1+(xi-myiti)TMt-1(xi-myiti)-](xi-mjk)TMt-1(xi-mjk)]+·+μ(tr(Mt-1))]]>

上式中,由于Mt-1是分段线性的;定义一个三元组集ψt,当i、j、k在ψt范围内触发 铰链损失[z]+,即ξijk大于0时,可以计算目标损失函数ε(Mt-1)的梯度Gt

Gt=Σ(i,j,k)ψt[(xi-myiti)(xi-myiti)T-(xi-mjk)(xi-mjk)T]+μI]]>

其中,I为单位矩阵,梯度Gt仅依赖于三元组集ψt,因此,连续两次迭代梯度的改变 仅由ψt与ψt+1之差决定;因此,基于第t次迭代的梯度Gt快速地计算第t+1次迭代的梯度 Gt+1

Gt+1=Gt+Σ(i,j,k)ψt+1-ψt[(xi-myiti)(xi-myiti)T-(xi-mjk)(xi-mjk)T]]]>

-Σ(i,j,k)ψt-ψt+1[(xi-myiti)(xi-myiti)T-(xi-mjk)(xi-mjk)T]]]>

对于小的梯度步长,三元组集ψt在连续两次迭代中的改变很小,因此,上式中的梯度 可以以极快的速度进行计算;

完成梯度Gt的计算后,目标损失函数ε(Mj)应沿着子梯度方向下降一步,即根据梯度 步长α,参数矩阵Mt-1应作如下更新:

M′t=Mt-1-αGt

为了保证更新后的参数矩阵是半正定矩阵,将M′t对角化,用M′t=PΛPT表示M′t的特 征分解,其中P是特征向量的正交矩阵,Λ是以对应的特征值为对角元素的对角矩阵,将 Λ中所有负特征值都变为0,可以得到一个新的对角矩阵Λ+,Λ+=max(Λ,0),则M′t到半 正定锥投影为Mt,Mt=PΛ+PT

根据收敛时的半正定矩阵Mt=PΛ+PT,可以获得线性变换矩阵L:L=PT+)1/2

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010120350.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top