[发明专利]一种基于隐空间学习和流行约束的无监督特征选择方法在审

专利信息
申请号: 202110146550.4 申请日: 2021-02-03
公开(公告)号: CN112906767A 公开(公告)日: 2021-06-04
发明(设计)人: 朱信忠;徐慧英;郑晓;唐厂;赵建民 申请(专利权)人: 浙江师范大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/16
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 赵芳
地址: 321004 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 空间 学习 流行 约束 监督 特征 选择 方法
【说明书】:

发明公开了一种基于隐空间学习和流行约束的无监督特征选择方法,包括:S11.输入原始数据矩阵,得到特征选择模型;S12.将隐空间学习嵌入至特征选择模型,得到具有隐空间学习的特征选择模型;S13.将图拉普拉斯正则化项加入具有隐空间学习的特征选择模型中,得到目标函数;S14.采用交替迭代优化策略求解目标函数;S15.对原始矩阵中的每个特征进行排序,并选择排名前k的特征,得到最优特征子集。本发明在学习的潜在隐空间中进行特征选择,该空间对于噪声是鲁棒的;潜在隐空间通过相似矩阵的非负矩阵分解来建模,该矩阵分解能明确地反映数据实例之间的关系。同时,原始数据空间的局部流形结构由潜在隐空间中基于图的流形约束项保留。

技术领域

本发明涉及信号处理、数据分析技术领域,尤其涉及一种基于隐空间学习和流行约束的无监督特征选择方法。

背景技术

随着信息爆炸时代的到来,大量的高纬数据产生,例如图像、文本和医学微阵列等。直接处理这些高维数据不仅会显著增加算法和计算机硬件的计算时间和内存负担,而且由于不相关性、噪声和冗余维度的存在会导致性能不佳。高维数据的内在维度通常很小,并且只有一部分特征可以用来完成任务。作为高维数据的有效预处理,特征选择旨在通过在保留内在数据结构的同时去除一些不相关和冗余的特征来实现降维。

在过去的几十年中,基于不同的数据先验已经提出了许多特征选择方法。根据是否利用了样本数据类别的标签信息,特征选择方法一般可分为三类:有监督特征选择(Supervised feature selection)、无监督特征选择(Unsupervised feature selection)和半监督特征选择(Semi-supervised feature selection)。对于有监督的特征选择方法,训练样本的标签是预先已知的,这些方法旨在通过区分不同类别的样本来选择特征。由于稀疏学习对异常值的鲁棒性,它在有监督的特征选择中是一种强大的技术。在某些情况下,只有部分样本标签是已知的,其余部分并未标记,并且标记大量未标记的数据实例非常耗时且相当昂贵。出于这个原因,半监督方法应运而生。这些方法旨在通过被标记样品的标记信息以及它们与未标记样本之间的关系,连接标记样品和未标记样本来进行特征选择。在大多数实际应用中,获得样本标签是很费力的,特别是在当今的高维数据爆炸时代。如何提取这些未标记数据的最具辨别力的信息是一个挑战性问题,无监督的特征选择可以根据没有标签信息的原始数据的基础属性来确定特征重要性,因此近年来越来越多的研究人员关注它。

通常,无监督特征选择方法可以概括为三种,即,过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。过滤式使用特征排序技术来评估单个特征或特征子集的重要性,常用的排名度量包括方差、拉普拉斯分数特征相似性和跟踪比。封装式方法基于学习算法的聚类或分类性能选择特征,它们搜索特征以更好地适应学习任务。嵌入式方法将特征选择和模型重建结合在一起,它们往往学习特征权重向量或矩阵等来反映特征重要性。

过滤式方法与学习任务无关,这些方法通过挖掘数据的固有属性来选择最优的特征子集。例如,He等人提出了一种拉普拉斯得分(LS)度量数据的局部保留。LS是在数据流形结构的假设前提下,即如果两个数据点属于相同的类,则它们应该彼此非常接近。谱图理论在无监督特征选择中也得到了应用。基于信息测量,Liu等人以分层聚类的方式进行特征选择。Wang等人提出了一种所谓的最大投影和最小冗余特征选择方法。Roffo等人将特征分布考虑在内,将特征选择转化为特征分布之间的路径允许问题。过滤式方法主要的局限性在于他们认为特征彼此独立,而不考虑特性之间可能的相关性,因此,不能有效地消除特征子集中的冗余。

基于封装式模型的方法依赖于预定的学习算法(例如聚类和分类),它们往往选择特征来更好地为给定的学习任务服务,以提高学习性能。Dy等人利用一种期望最大化聚类方法通过散射可分性和最大似然性选择最优特征子集。Maldonado等人基于带有内核函数的SVMs,使用验证子集中的错误数来删除冗余特性。基于封装式的方法往往优于过滤式,然而,大多数封装式方法的最优化问题是难以计算的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江师范大学,未经浙江师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110146550.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top