[发明专利]一种无监督正则化矩阵分解特征选择方法有效
申请号: | 201710446167.4 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107203787B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 易玉根;王建中;齐妙;王婷;郭常禄 | 申请(专利权)人: | 江西师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南昌华成联合知识产权代理事务所(普通合伙) 36126 | 代理人: | 张建新 |
地址: | 330000 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 正则 矩阵 分解 特征 选择 方法 | ||
本发明提供了一种无监督正则化矩阵分解特征选择方法(URMFFS方法),该方法通过引入内积正则化约束考虑所选特征之间的相关性,使所选的特征子集不仅能够很好的表示原始高维特征并且具有较低冗余性。本发明还设计了一种迭代优化算法来求解URMFFS方法。将URMFFS方法与目前较为流行的无监督特征选择方法分别在六个常用数据库(AR10P、Yale、ORL、Jaffe、PIE10P和TOX‑171)上进行了大量对比实验,实验结果表明,URMFFS方法的性能显著优于其它无监督特征选择方法。
技术领域
本发明涉及信号处理、数据分析技术领域,具体涉及一种无监督正则化矩阵分解特征选择方法。
背景技术
随着计算机科技、社会网络信息化及互联网的日益普及,涌现出大量高维数据,如:文本、多媒体、视频、图像等,而且它们来源于不同的系统、传感器和移动设备等。这些高维数据通常具有多样性、复杂性和冗余性等特点,如果利用计算机直接处理这些高维数据,这需要巨大内存存储空间和计算成本,严重则会造成“维数灾难”(Curseofdimensionality)问题,这会降低算法的计算效率和性能。“维数灾难”是在涉及向量的计算中要确保一定的准确率,进而对变量或者特征有更加精确的估计,随着样本维数的增加,其计算量呈指数变化。除了缓解“信息丰富、知识匮乏”的状况从而降低复杂度,还要从这些数据中提取有价值的特性能更好地认识和理解数据,非常重要的一个步骤就是需要更加新颖的分析方法和工具来预处理高维数据。降维技术的出现有效的改善这类问题。
降维又称维数约简,是指高维空间中的数据找到一个最能反映原始高维数据特性的低维表示。最核心的降维技术主要包括两类:特征提取(Feature Extraction)和特征选择(Feature Selection)。特征提取是将原始高维空间中的数据点,通过某种映射方法投影到低维空间中,达到在高维特征空间中挖掘出能反映实际本征维度的低维结构的目的。根据不同的映射方式,特征提取被分为线性和非线性两种。其中,线性特征提取主要包括主成分分析(Principal Component Analysis,PCA)、局部保持投影(Locality PreservingProjection,LPP)、线性判别分析(Linear Discriminant Analysis,LDA)和多维尺度变换(Multidimensional Scaling,MDS)等。而近年来才被广泛研究的非线性特征提取方法主要包括拉普拉斯特征映射(LaplacianEigenmaps,LE)、局部线性嵌入(Locally LinearEmbedding,LLE)、等距映射(Isometric Mapping,ISOMAP)等。由于特征提取是将原数据通过线性或非线性变换得到较少数量的新特征,会导致提取的这些新特征与样本类别之间的关系很难解释,这会给人们的判断和理解带来一定程度的影响。
与之不同的特征选择方法,是根据某种评判标准从原始高维数据中选择数量少且最优的特征子集,对模式识别领域中的数据预处理有着广泛的应用。通过特征选择一组与样本类别相关性强、特征彼此间相关性弱的特征子集用于构建模型是非常重要的,从而达到降低特征维数,提高模型精确度,减少运行时间,提高数据存储和处理效率的目的。此外,选取出真正相关的特征简化模型,将有利于协助理解数据产生的过程,因此,在解决高维数据的机器学习问题上特征选择扮演一个举足轻重的角色。经典的特征选择方法主要包括:拉普拉斯得分(LaplacianScore,LS)、Fisher得分(Fisher Score,FS)、ReliefF、互信息等。特征选择去掉了无关紧要的特征,保留了选择的具有代表性特征的原始信息,这有助于提高机器学习算法效率。
此外,特征选择已成功应用在不同领域中,如基因工程、计算机视觉、生物特征识别和无机化学等。众所周知,随着大数据的不断涌现,数据的规模呈现爆炸式增长,也给研究人员提供了机遇和前所未有的挑战。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西师范大学,未经江西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710446167.4/2.html,转载请声明来源钻瓜专利网。