[发明专利]一种诱导式非负投影半监督数据分类方法及系统有效

专利信息
申请号: 201711140254.3 申请日: 2017-11-16
公开(公告)号: CN107766895B 公开(公告)日: 2021-07-09
发明(设计)人: 张召;贾磊;李凡长;王邦军;张莉 申请(专利权)人: 苏州大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 苏州创元专利商标事务所有限公司 32103 代理人: 陶海锋
地址: 215137 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 诱导 式非负 投影 监督 数据 分类 方法 系统
【说明书】:

发明方法明确地将半监督数据表示和分类误差结合到现有的投影非负矩阵分解框架进行联合最小化学习,由此将权重系数构造和标签传播过程作用于投影非负矩阵分解,可有效避免原始数据中可能包含的噪音、破坏或异类对相似性度量和标签预测结果的负面影响。此外,上述联合最小化过程也可在投影非负矩阵分解过程中有效保持邻域信息和空间结构,得到更准确的数据表示结果。此外,还将权重构建和归纳学习整合到一个统一的模型中,可得到自适应的权重系数矩阵,进而避免传统算法中选取最优近邻难的问题。本发明方法为诱导式模型,可完成样本外数据的归纳与预测,无需引入额外的重构过程,可拓展性能好。

技术领域

本发明涉及一种诱导式非负投影半监督数据分类方法及系统,属于模式识别和数据挖掘技术领域。

背景技术

基于图的半监督学习已经是数据挖掘和模式识别领域中的重要课题。由于模型可以利用少量的有标记数据和大量未标记的数据来学习,这非常适合实际应用数据的特性。基于是否可以有效地扩展到样本外新数据,现有模型可以大致分为直推式学习和诱导式学习。

标签传播作为典型的分类模型,近年来在学术界引起了相当大的关注和兴趣。现有典型的直推式标签传播算法包括高斯场和谐波函数,局部和全局一致性学习,线性邻域传播等等。这些标签传播方法可以通过有效的直推式学习预测未标记样本的标签,但不能很好地拓展到对新样本数据。注意,线性邻域传播通过使用训练集中的邻居的软标签重建测试数据的标签来涉及新数据,但比较复杂和耗时,因需要首先通过最近邻搜索找到每个新测试数据的近邻。为了处理样本外的问题,近年提出了几个扩展方法,例如:拉普拉斯线性判别分析和嵌入式标签传播等。注意,这些诱导式方法通过提供投影分类器或直接嵌入新测试数据,与基于重构的直推式方法相比是非常有效的。虽然现有的诱导式标签传播方法通过嵌入有效地解决了样本外问题,但仍有明显的缺点,实际应用中大多的数据通常包含冗余或各种噪声,对分类性能有很大影响。

有鉴于此,开发一种诱导式非负投影半监督数据分类方法及系统,显然是有必要的。

发明内容

本发明的发明目的是提供一种诱导式非负投影半监督数据分类方法及系统,以减少原始输入数据中含有的混合信号的影响,获得判别性更强的类别标签,提高算法的适用范围和鲁棒性,增强分类性能。

为达到上述发明目的,本发明采用的技术方案是:一种诱导式非负投影半监督数据分类方法,包括如下步骤:

(1)、随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;

(2)、利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代得到训练集的非负矩阵Q以及投影分类器P;(3)、利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。

优选地,步骤(1)具体包括:

原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。

优选地,步骤(2)中框架如下:

其中,是重构误差项,是流行平滑项,为自适应编码项,同时最小化数据重构项和标签重构项,确保得到的权重对于标签传播是最优的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711140254.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top