[发明专利]基于分类能力结构向量互补的最优特征子集选取方法有效
申请号: | 201510621401.3 | 申请日: | 2015-09-25 |
公开(公告)号: | CN105279520B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王淑琴 | 申请(专利权)人: | 天津师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 能力 结构 向量 互补 最优 特征 子集 选取 方法 | ||
本发明针对大多现有方法以单一值作为特征或特征子集的分类能力评价标准,提出一种新的基于分类能力结构向量互补的最优特征子集选取方法。该方法通过定义二进制形式的特征分类能力结构向量及分类能力结构向量互补特征,采用二分法计算各个子类问题中特征分类区分能力的阈值,并在此基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取。这种方法不仅充分考虑每个特征对于不同类别的分类能力不同的评价,而且也在特征选取过程中遵循分类能力结构互补性最大化的原则。它既符合优势互补的自然规律,也能将特征分类信息发挥到极致,从而获得更好的特征子集,以有效减少冗余特征,提高分类预测准确率。
技术领域
本发明属于机器学习和模式识别技术领域,具体提出一种合理有效的特征子集选取方法。
背景技术
特征选取是维数约简的两个主要方法之一。它在机器学习和模式识别中起着至关重要的作用,也是其中研究的基础问题之一,是构造分类器中关键的数据预处理步骤。特征选取是根据一些评价标准在原有的特征集合上选取对分类有意义的特征子集从而去除无关或冗余特征,从而将原空间的维数降至远小于原维数的m维。随着互联网和高通量技术的迅速发展,当下已进入大数据时代,数据呈数量巨大且纷繁复杂特点,这也使得特征选取方法研究在当今社会更为重要。近年来,特征选取方法的研究已成为应用于含有成千上万个特征的数据集时所面临的主要焦点问题之一。特征选取可以使数据更易于理解,降低度量和存储要求,减少训练和实现时间,改进预测性能等。在这个研究方向中,如何评价特征的分类能力并获得有效的特征子集的选取方法是一个关键。
近年来,国内学者对特征选取开展了大量的研究工作,国内期刊上也刊发了大量研究成果。这些特征选取方法都存在一个共同之处,即各种分类能力度量方法都是对于一个特征或特征子集给出描述该特征或者特征子集的分类能力大小的一个分值。通常认为分值大的特征比分值小的特征的分类能力强,因而分值大的特征也就会被优先选取。然而,一些工作已经表明一些分值小的特征也应该被选取,而且一些有较高分类能力值的特征的组合也不总是得到好的分类结果。以单一值表示特征分类能力大小仅仅是对这个特征分类能力的综合评价,而忽略了各个特征对于不同类别的分类能力不同的评价。
发明内容
本发明为了解决上述现有方法中的问题,提出一种新的基于分类能力结构向量互补的最优特征子集选取方法。本发明通过评价各个特征对不同子类问题的分类能力而获得相应向量化分类能力,即用多个值表示特征对不同子类问题的区分能力,再按照分类能力结构向量互补的原则选取特征或特征子集。本发明适用于多类且样本个数远小于特征个数的数据集如癌症数据集等的分类预测。在具体实施方式中将以乳腺癌数据集为例说明本发明的有效性。
本发明通过定义基于二进制形式的特征分类能力结构向量及分类能力结构互补的特征,采用二分法分别计算各个子类问题的阈值,并在此基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取。这种方法既符合优势互补的自然规律,也能将特征分类信息发挥到极致,从而获得更好的特征子集。因此,研究考虑分类能力结构互补性的特征选取方法是有很大意义的。
为实现上述目的,本发明公开了如下的技术内容:
一种基于分类能力结构向量互补的最优特征子集选取方法,其特征在于该方法首先要进行基于二进制形式的特征分类能力结构向量的定义,并完成各个特征分类能力结构向量的计算,具体步骤如下:
对于具有个特征类的分类问题,首先采用1-vs-1形式将其转化为由任意两类组成的个两分类子问题,其中,再采用Fisher判别率作为特征对子问题分类区分能力值,简称FDR值,记为,分别计算每个特征对第 个子问题的分类区分能力,其中,;最后再根据下述阈值计算方法获得类区分能力的阈值将所有转化为0或1,从而得到每个特征对各个子问题的分类区分能力结构向量。
其中采用二分法分别计算各个子类问题的阈值,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510621401.3/2.html,转载请声明来源钻瓜专利网。