[发明专利]一种基于自适应特征降维的多标记数据分类方法在审
申请号: | 201710250167.7 | 申请日: | 2017-04-17 |
公开(公告)号: | CN107220656A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 龚晓庆;王磊;许鹏飞;郭军;肖云;徐丹;陈晓江;房鼎益 | 申请(专利权)人: | 西北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安恒泰知识产权代理事务所61216 | 代理人: | 李婷,张明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 特征 标记 数据 分类 方法 | ||
技术领域
本发明属于机器学习技术领域,涉及一种基于自适应特征降维的多标记数据分类方法,用于数据挖掘和大数据中,对包含噪声、特征复杂的多标记数据进行分类。
背景技术
随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求,数据挖掘技术的得到了长足的发展,而多标记数据的分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。
多标记数据,是指数据中一个样本同时属于多个类别,例如在图像分类任务中,一个图像同时包含“山川”和“河流”,一个文件可能同时属于“环保”和“健康”类别,一个基因同时属于“变异基因”和“复制基因”。多标记数据的特征是人为规定,多标记是先验信息,事前已知的。数据特征是指人为规定的对数据的描述方法,例如图像数据,特征可以是每个图像样本的像素的灰度值所组成的矩阵;文本数据,特征可以是每个文本样本的总字数,特定字符出现的频率等组成的矩阵。所获取的原始数据特征一般所处高维空间,包含信息冗余较大,应用于分类任务中,计算复杂度高,效率低,并且容易受噪声数据影响,准确度不高。因此,传统的分类方法不能很好的应用于数据挖掘的分类过程。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于,提供一种基于自适应特征降维的多标记数据分类方法,以解决现有的分类方法计算复杂度高,准确度低的缺点,提高分类任务的性能。
为了实现上述任务,本发明采用以下技术方案:
一种基于自适应特征降维的多标记数据分类方法,包括以下步骤:
步骤一,读取已知分类的多标记数据,分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y;读取待分类的多标记数据,将待分类的多标记数据的特征存储为矩阵T;
步骤二,将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响;
步骤三,引入投影矩阵W,利用截断范数构造降维模型如下:
上式中,xi是特征矩阵X的第i行,n是特征矩阵X的行数,即特征矩阵X中的样本个数;vi是潜在语义矩阵V的第i行,||·||F是F-范数,||·||2是2-范数,α和γ是系数,取值范围为(0,1];
步骤四,在降维模型中加入几何结构约束,以使降维前后数据的局部几何结构保持一致;
步骤五,利用降维模型构造目标函数,采用梯度下降法对目标函数进行迭代,直到目标函数收敛,得到投影矩阵W的最优解;
步骤六,对已知分类的多标记数据、待分类的多标记数据进行投影降维处理,并对降维后的数据进行分类处理,完成。
进一步地,步骤二中进行标记矩阵Y重构时需要满足的公式为:
上式中,表示F-范数的平方,Y为n×k的矩阵,V为n×c的矩阵,B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。
进一步地,步骤四的具体过程包括:
步骤4.1,根据特征矩阵X计算相似度矩阵S的第i行第j列元素:
上式中,xi、xj分别是特征矩阵X的第i行和第j列向量,σ2是特征矩阵X的方差;
步骤4.2,定义拉普拉斯矩阵L:
L=A-S
其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数;
步骤4.3,加入几何结构约束,构造模型如下:
上式中,β是系数,0<β≤1,Tr(·)表示矩阵的迹,ε为参数,取值范围为(0,0.1]。
进一步地,步骤五的具体过程包括:
步骤5.1,构造目标函数J如下:
为了方便求偏导数和迭代,对目标函数变形得:
其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1,不满足条件值为0;
步骤5.2,目标函数J(W,V,B)分别对W,V,B求偏导数:
步骤5.3,梯度下降过程,W、V、B的更新规则如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710250167.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高效风冷柴油机
- 下一篇:一种柴油机机油冷却器及其冷却系统