[发明专利]基于分类能力结构向量互补的最优特征子集选取方法有效
申请号: | 201510621401.3 | 申请日: | 2015-09-25 |
公开(公告)号: | CN105279520B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王淑琴 | 申请(专利权)人: | 天津师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 能力 结构 向量 互补 最优 特征 子集 选取 方法 | ||
1.基于分类能力结构向量互补的最优特征子集选取方法,其特征在于,该方法具体步骤如下:
第一步:定义基于二进制形式的特征分类能力结构向量及分类能力结构互补特征,计算各个特征分类能力结构向量;
第二步:采用二分法分别计算各个子类问题的特征分类能力阈值;
第三步:在上述步骤基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取;
其中所述特征分类能力结构向量的计算步骤如下:
对于具有个特征类的分类问题,为特征集合,为类别,首先采用1-vs-1形式将其转化为由任意两类组成的个两分类子问题,其中再采用Fisher判别率作为特征对子问题分类区分能力值,简称FDR值,记为,分别计算每个特征对第个子问题的分类区分能力,其中,, 最后再根据下述阈值计算方法获得类区分能力的阈值将所有值转化为0或1,从而得到每个特征对各个子问题的分类能力结构向量;
所述子类问题阈值的计算步骤如下:
由于各个特征对各子类问题的分类能力有所不同,因此对每个子类问题分别计算阈值,这样可以得到个阈值,为了减小阈值计算的时间复杂度,采用较简单的二分搜索方法,以计算由类和类构成的第个子类问题的阈值为例,来说明阈值的计算过程;
首先设置阈值的初值为即为所有特征对第个子类问题的分类区分能力的均值;对所有特征按分类区分能力进行降序排序,并将最大值和最小值赋给变量取所有特征对该子类问题的FDR值的均值为初始阈值Flag=0;
将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0,而大于此阈值的特征所对应的分类能力结构向量的对应分量置为1;
对所有分类能力结构分量为1的特征计算它们样本误击向量的或,即其中样本误击向量的定义如下:
如果一个属于1类的样本,其特征值在2类所有样本的特征值的最小值和最大值之间的话,则认为该1类样本被特征误击,否则为击中;则第个子问题中特征的样本误击向量记为, 0表示该分量所对应样本被误击,1表示击中;且唯一确定;将特征的全部子问题的样本误击向量连接起来构成的向量就是特征的样本误击向量;
如果是单位向量且Flag=0,则取全部结构分量为1的特征的值的均值为新阈值将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0;
否则如果不是单位向量,则取全部结构分量为0的特征的值的均值为阈值更新为原将大于此阈值的特征所对应的分类能力结构向量的对应分量置为1,同时Flag=1;再对所有分类能力结构分量为1的特征,计算它们样本误击向量的或,即;反复执行这个过程直到使得是单位向量且Flag=1为止;则此时的阈值记为最后阈值;
所述最优特征子集选取方法步骤如下:
确定阈值后,将所有子问题中分类区分能力大于阈值的属性的并集作为初始特征子集;
对于初始特征子集中每个特征,及其分类能力结构向量,计算其总的区分能力,即,对其结构向量分量为1的子问题的FDR值求加权和,作为总分类能力;
按总分类能力大小对初始子集的特征降序排序;
从前往后依次选取对初始特征子集中的每个特征,并与已选取的特征子集的所有特征进行比较,如果与所选特征子集中所有特征的分类能力结构向量都互补,则直接选取进入特征子集,即否则,对于所有分类能力结构向量覆盖的特征,分别计算每个特征的样本误击向量与样本总误击向量或运算后,选择可使样本总误击向量中1的个数增加最多的特征进入特征子集,如果所有特征均不能使样本总误击向量变化,则不选;
反复执行上述过程直到样本总误击向量为单位向量为止,则特征子集为选取的最优特征子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510621401.3/1.html,转载请声明来源钻瓜专利网。