[发明专利]特征选择方法及系统在审
申请号: | 201510586621.7 | 申请日: | 2015-09-15 |
公开(公告)号: | CN105184323A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 徐诚浪 | 申请(专利权)人: | 广州唯品会信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王程 |
地址: | 510370 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 选择 方法 系统 | ||
技术领域
本发明涉及机器学习领域,尤其涉及一种特征选择方法及系统。
背景技术
随着信息科技的迅速发展,数据越来越多,信息泛滥,实际的数据中往往包含着很多冗余信息。因此在具体行业中,通常是在用某个数据之前,需要对该数据进行预处理,去除包含的冗余信息进行分类决策,具体流程请参见图1。特征选择是一种重要的数据预处理方法。特征选择是指从高维特征集合中根据某种评估标准选择输出性能最优的特征子集,其目的是寻求保持数据集感兴趣特性的低维数据集合。通过对低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。
现有的Relief算法是一种特征权重算法(Featureweightingalgorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief系列算法运行效率高,对数据类型没有限制,算法会赋予所有和类别相关性高的特征较高的权重,所以算法的局限性在于不能有效的去除冗余特征,不能保证选择出的特征集具有高分类精度。
发明内容
基于此,有必要提供一种能够保证选择出的特征集具有高分类精度的特征选择方法及系统。
一种特征选择方法,包括步骤:
获取初始特征信息及决策特征信息;所述初始特征信息包括初始特征集,所述决策特征信息包括决策特征集;
根据所述初始特征信息及所述决策特征信息确定所述初始特征集的每个特征子集与决策特征集的互信息;
将所述特征子集中与决策特征集具有最大互信息的特征子集作为待选特征集,并根据已选特征集与待选特征集确定待选相关熵;
根据所述待选相关熵是否大于所述已选特征集的已选相关熵,确定是否将所述待选特征集中的特征放入到所述已选特征集中。
一种特征选择系统,包括:
获取模块,用于获取初始特征信息及决策特征信息;所述初始特征信息包括初始特征集,所述决策特征信息包括决策特征集;
互信息确定模块,用于根据所述初始特征信息及所述决策特征信息确定所述初始特征集的每个特征子集与决策特征集的互信息;
相关熵确定模块,用于将所述特征子集中与决策特征集具有最大互信息的特征子集作为待选特征集,并根据已选特征集与待选特征集确定待选相关熵;
特征选择模块,用于根据所述待选相关熵是否大于所述已选特征集的已选相关熵,确定是否将所述待选特征集中的特征放入到所述已选特征集中。
上述特征选择方法及系统选择与决策特征集具有最大互信息的特征子集作为待选特征集,以保证选择出的特征集具有高区分能力。根据待选相关熵是否大于已选特征集的已选相关熵,确定是否将待选特征集中的特征放入到已选特征集中,如此可以在保证具有高区分能力的同时保证冗余度小,以确保选择出的特征集具有高分类精度。
附图说明
图1为数据进行预处理的流程图;
图2为一种实施方式的特征选择方法的流程图;
图3为图2中一个步骤的具体流程图;
图4为一种实施方式的特征选择系统的结构图;
图5为图4中一个模块的具体结构图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。
如图2所示,一种实施方式的特征选择方法,包括步骤:
S110:获取初始特征信息及决策特征信息。所述初始特征信息包括初始特征集,所述决策特征信息包括决策特征集。
所述初始特征信息还包括初始特征集(用C表示)与决策特征集(用D表示)所属的论域(用U表示)、各个特征的值的集合(用V表示)及映射函数(用f表示);其中,映射函数是V关于U和C∪D的函数,可以表示为f:U×R→V,R=C∪D。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州唯品会信息科技有限公司,未经广州唯品会信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510586621.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:机动车闸口票箱的自动送卡装置
- 下一篇:一种基于SVM分类的车牌字符分割方法