[发明专利]一种基于自适应特征降维的多标记数据分类方法在审

专利信息
申请号: 201710250167.7 申请日: 2017-04-17
公开(公告)号: CN107220656A 公开(公告)日: 2017-09-29
发明(设计)人: 龚晓庆;王磊;许鹏飞;郭军;肖云;徐丹;陈晓江;房鼎益 申请(专利权)人: 西北大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 西安恒泰知识产权代理事务所61216 代理人: 李婷,张明
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 自适应 特征 标记 数据 分类 方法
【说明书】:

技术领域

发明属于机器学习技术领域,涉及一种基于自适应特征降维的多标记数据分类方法,用于数据挖掘和大数据中,对包含噪声、特征复杂的多标记数据进行分类。

背景技术

随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求,数据挖掘技术的得到了长足的发展,而多标记数据的分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。

多标记数据,是指数据中一个样本同时属于多个类别,例如在图像分类任务中,一个图像同时包含“山川”和“河流”,一个文件可能同时属于“环保”和“健康”类别,一个基因同时属于“变异基因”和“复制基因”。多标记数据的特征是人为规定,多标记是先验信息,事前已知的。数据特征是指人为规定的对数据的描述方法,例如图像数据,特征可以是每个图像样本的像素的灰度值所组成的矩阵;文本数据,特征可以是每个文本样本的总字数,特定字符出现的频率等组成的矩阵。所获取的原始数据特征一般所处高维空间,包含信息冗余较大,应用于分类任务中,计算复杂度高,效率低,并且容易受噪声数据影响,准确度不高。因此,传统的分类方法不能很好的应用于数据挖掘的分类过程。

发明内容

针对上述现有技术中存在的问题,本发明的目的在于,提供一种基于自适应特征降维的多标记数据分类方法,以解决现有的分类方法计算复杂度高,准确度低的缺点,提高分类任务的性能。

为了实现上述任务,本发明采用以下技术方案:

一种基于自适应特征降维的多标记数据分类方法,包括以下步骤:

步骤一,读取已知分类的多标记数据,分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y;读取待分类的多标记数据,将待分类的多标记数据的特征存储为矩阵T;

步骤二,将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响;

步骤三,引入投影矩阵W,利用截断范数构造降维模型如下:

上式中,xi是特征矩阵X的第i行,n是特征矩阵X的行数,即特征矩阵X中的样本个数;vi是潜在语义矩阵V的第i行,||·||F是F-范数,||·||2是2-范数,α和γ是系数,取值范围为(0,1];

步骤四,在降维模型中加入几何结构约束,以使降维前后数据的局部几何结构保持一致;

步骤五,利用降维模型构造目标函数,采用梯度下降法对目标函数进行迭代,直到目标函数收敛,得到投影矩阵W的最优解;

步骤六,对已知分类的多标记数据、待分类的多标记数据进行投影降维处理,并对降维后的数据进行分类处理,完成。

进一步地,步骤二中进行标记矩阵Y重构时需要满足的公式为:

上式中,表示F-范数的平方,Y为n×k的矩阵,V为n×c的矩阵,B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。

进一步地,步骤四的具体过程包括:

步骤4.1,根据特征矩阵X计算相似度矩阵S的第i行第j列元素:

上式中,xi、xj分别是特征矩阵X的第i行和第j列向量,σ2是特征矩阵X的方差;

步骤4.2,定义拉普拉斯矩阵L:

L=A-S

其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数;

步骤4.3,加入几何结构约束,构造模型如下:

上式中,β是系数,0<β≤1,Tr(·)表示矩阵的迹,ε为参数,取值范围为(0,0.1]。

进一步地,步骤五的具体过程包括:

步骤5.1,构造目标函数J如下:

为了方便求偏导数和迭代,对目标函数变形得:

其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1,不满足条件值为0;

步骤5.2,目标函数J(W,V,B)分别对W,V,B求偏导数:

步骤5.3,梯度下降过程,W、V、B的更新规则如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710250167.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top