[发明专利]一种基于组稀疏规范和局部学习的特征选择方法在审
申请号: | 201711283059.6 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108052965A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 余可曼;王灿;吴越 | 申请(专利权)人: | 杭州平治信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311202 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 规范 局部 学习 特征 选择 方法 | ||
一种基于组稀疏规范和局部学习的特征选择方法,选出数据中表达数据集结构的关键特征,缓解“维度灾难”。本方法采取非监督学习的方式,可适用于缺失部分标签的数据集。首先,通过局部学习,推测出缺失标签的数据的标签;之后,在回归的架构上,加上组稀疏规范,找出全局最能区分不同标签数据的一些特征。本方法的优点在于,局部学习保存了数据的流形结构,组稀疏规范保存了数据的组结构,从而相较于传统特征选择方法,局部学习和组稀疏规范的结合可以选出最能维持原数据集局部结构的特征。
技术领域
本发明涉及特征选择的计算方法,特别是局部学习和组稀疏规范作用下的特征选择,属于计算机技术领域。
背景技术
如今许多技术应用(如计算机视觉、模式识别和数据挖掘)处理的数据维度不断增加。更高维度的数据包含更多的信息,但是也造成更多的冗余和噪音。“维度灾难”因此产生,许多适用于低维度数据的方法已不适合处理高纬度数据。
目前最主要的两种降低维度的方法是特征提取和特征选择。特征提取是用一组新特征来代表原始数据集的特征,特征选择是从原特征集中选取具有代表性的子特征集。因此,特征选择方法不仅更简单,而且更具有解释性。
特征选择方法,根据数据有无标签信息,可以粗略地可分成监督式的和非监督式的。经典的监督式特征选择方法选出的特征与数据标签有比较大的关系,而非监督式的主要根据数据集的分布情况选择数据特征。然而,现实生活中大部分数据是缺失标签的,非监督式的方法用得更多一些。许多非监督式的方法(如最大方差和最小冗余)可以选出保留数据集某种性质的特征。
近些年来,特征选择方法开始探究高维数据集分布上的几何结构特征。最新的研究表明数据在高维空间中的分布往往是一个嵌入于高维外部空间的低维子流形结构。一些新方法,如基于特征值敏感度的特征选择等,选取特征时考虑了数据分布的流形结构。其中,基于局部学习的特征选择方法显现出比较好的鲁棒性和准确性。不过,这些方法都忽略了数据的组结构。比如,相同主题的文档属于同一个组,通过代谢物轮廓分析可以将DNA的特征分组。来自同一组的数据,投影在低维空间上,往往有一样的稀疏模式。
本文提出一种新的非监督式的特征选择方法,结合了局部学习和组稀疏规范,在特征选择时考虑数据的流形结构和组结构,比只考虑流形结构的方法具有更好的表现。
发明内容
为了在高维数据中有效地获取有用的信息,适用于占多数的无标签的数据,并克服传统方法只考虑流形结构而忽略组结构的缺点,本发明提出了一种基于组稀疏规范和局部学习的特征选择方法。
该方法包括以下步骤:
S1:使用局部学习方法推测缺失标签数据在不同类中的标签信息;
S2:拟合S1得到的标签信息,并用组稀疏规范;
S3:根据S2得到的回归系数,计算每个特征的得分,选出得分最高的一组特征;
所述S1的局部学习推测缺失标签信息的方法如下:
(2.1)将数据集整理成N×M的矩阵X,N是数据个数,M是特征个数;记标签信息矩阵Y,矩阵Y的第n行第c列表示数据n是否在类c中;
(2.2)构造数据集的k近邻图以及矩阵X的核矩阵K;其中k近邻图用于得到数据点的k个最近的邻居数据点,并记数据点x
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州平治信息技术股份有限公司,未经杭州平治信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711283059.6/2.html,转载请声明来源钻瓜专利网。