[发明专利]一种用于预测蛋白质功能的数据多标签分类方法在审
申请号: | 202010984625.1 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112365931A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 丁家满;李红磊 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B5/00 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 预测 蛋白质 功能 数据 标签 分类 方法 | ||
1.一种用于预测蛋白质功能的数据多标签分类方法,其特征在于,所述方法包括:
Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;
Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;
Step3、利用构建好的标签分类模型进行预测标签分类。
2.根据权利要求1所述的用于预测蛋白质功能的数据多标签分类方法,其特征在于:所述步骤Step1包括:
Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,...xn]T∈Rn×m,也用作蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为Y=[y1,y2,...,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列,wi,j是矩阵中第(i,j)个元素;
Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间。
3.根据权利要求1所述的用于预测蛋白质功能的数据多标签分类方法,其特征在于:所述Step2中,构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类,此二元分类器的目标函数的优化采用如下方式进行:
Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定,为了防止预测蛋白质功能的多标签分类方法过拟合,将线性模型进行l1范数正则化;这些标签的功能由每个非零条目确定,即wi∈Rn,并且对相应的标签具有很强的可辨性,二元分类器的目标函数表示为:
将所有二元分类器组合在一起,目标函数写成如下:
其中任意非零的矩阵W=[w1,w2,...,wl]∈Rn×l是回归系数,λ3≥0是折中的参数;
Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l1范数正则项来优化目标函数表达式;
C∈Rl×l作为标签相关矩阵,Ci,j表示标签yi与yj的相关程度,注意Ci,j可能不等于Cj,i,假设能利用标签间相关性,根据已有标签的值来补全缺失标签。需要注意的是一类标签可能只有标签的一个子集相关联,因此,在C的基础上添加l1范数正则项来学习稀疏标签依赖,目标函数写成如下所示:
Step2.3、如果标签yi和标签yj强相关,则它们具有类似的标签特定特征,相应的模型系数wi和wj将非常相似,并且它们之间的欧几里德距离很小,否则wi和wj将不同,并且它们之间的欧几里德距离很大,经过数学运算后,目标函数表达式能优化成如下所示:
其中,λ1、λ2、λ3、λ4是折中的参数;X为蛋白质序列生物数据的向量表示,Y为蛋白质标签表示,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列;
Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C,求解除参数W、C之后,从而得到最终的目标函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010984625.1/1.html,转载请声明来源钻瓜专利网。