[发明专利]一种嵌入式多类别属性标签动态特征选择算法在审

专利信息
申请号: 201710222600.6 申请日: 2017-04-06
公开(公告)号: CN106991447A 公开(公告)日: 2017-07-28
发明(设计)人: 黄金杰;孔庆达;潘晓真 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种嵌入式多类别属性标签动态特征选择方法,改进了传统多类别属性标签的特征选择算法的不足,提出了一种嵌入式多类别属性标签动态特征选择方法(ML_NIFS),此方法既考虑到了多标签属性集内部之间的相互关系,又考虑到了特征选择评价准则中信息熵的计算不断变动的因素。最后进行验证,结果表明所提出的算法能够对数据属性进行有效的降维,并且提高后续的分类效果。
搜索关键词: 一种 嵌入式 类别 属性 标签 动态 特征 选择 算法
【主权项】:
一种嵌入式多类别属性标签动态特征选择方法,其特征在于,包括以下步骤:首先介绍传统基于互信息的特征选择方法。1.数据集合预处理当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:f^i=fi||fi||---(1)]]>2.互信息的相关知识特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题是度量问题,度量问题要考虑属性集与类别标签之间的相关性关系、属性集和属性集的冗余性关系、以及标签属性集内部的相关关系。因此针对这种相互关系问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。H(X)=-Σi=1np(xi)logp(xi)---(2)]]>其中,p(xi)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条件熵来表征。H(X|Y)=-Σj=1mp(yj)Σi=1np(xi|yj)log2p(xi|yj)---(3)]]>其中,p(xi)表示变量X的先验概率p(xi|yj)表示变量Y在已知的条件下变量X的后验概率。互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:I(X;Y)=H(X)‑H(X|Y)   (4)互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性SU度量特征变量与特征变量之间的相互关系的程度公式如下:SU(X,Y)=2I(X;Y)H(X)+H(Y)---(5)]]>由公式(5)可以看出SU相关度量值的变化范围是由0到1,如果SU的值为0,表示X与Y不存在相关性,即X与Y是相互独立的。如果SU的取值为1,表示X与Y存在很强的相关性,如果X与Y分别表示属性信息和类别信息,SU的值越大则表示特征对于类别的选择存在强相关性。如果X与Y分别表示两个属性信息,SU的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性。3.基于互信息的度量问题通过信息论中互信息理论,单一特征属性与单一特征属性之间的冗余性、单一特征属性与单一标签类别属性之间的相关性、单一标签类别属性之间的相关性可以由如下的公式进行计算:Redundancy(Xi;Xj)=SU(Xi,Xj)   (6)Correlation(Xi;Yj)=SU(Xi,Yj)   (7)Correlation(Yi;Yj)=SU(Yi,Yj)   (8)通过上式对于单个特征属性与特征属性集合之间的冗余性的计算公式可以通过单个属性特征与特征属性集合中每一个属性特征的冗余性求和取平均的方法进行计算,公式如下:Redundancy(Xi;X)=1|X|ΣXj∈XRedundancy(Xi;Xj)---(9)]]>其中,|X|表示特征属性集合中,特征属性的个数,Xj表示特征属性集合中的某个特征属性。算法考虑到应用范围是多标签的特征选择算法,所以对单一特征属性与多标签类别属性所构成的集合产生的相关性公式定义为:Correlation(Xi;Y)=1|Y|ΣYj∈YCorrelation(Xi;Yj)---(10)]]>其中,|Y|表示标签类别属性集合中标签类别属性的个数,Yj表示标签类别属性集合中的某个标签类别属性。这种嵌入式多类别属性标签动态特征选择算法不但考虑了特征属性之间的相互关系、特征属性与标签类别属性之间的相互关系、还考虑到多标签类别属性内部之间的相互关系对特征选择的影响,总来说,某类标签的类别属性如果与其他标签的类别属性具有较强的相关性,那么就此类标签类别属性而言,所选择出来的特征属性,会对其他与之相关性较强的标签类别属性同样就有较好的分类性能。所以标签属性之间的相关性可以由下边的式子加以求解。W(Yi)=1|Y|-1ΣYj∈Y,j≠iCorrelation(Yi,Yj)---(11)]]>其中,|Y|表示标签类别属性集合中标签类别属性的个数,Yj表示标签类别属性集合中的某个标签类别属性,W(Yi)表示Yi在多标签类别属性集合中的先关性的平均值,数值越大表明此标签类别属性在标签类别属性集合中拥有更多的相关性标签类别属性。则对此标签类别属性的分类效果有益的特征属性对相关性较高的标签类别属性同样具有积极正向的影响作用。基于以上考虑,结合公式(9)和公式(10)相关性度量可以表示为下面的式子:CCorrelation(Xi;Y)=1|Y|ΣYj∈Y(Correlation(Xi;Yj)+W(Yj))---(12)]]>4.特征排序与特征选择在此ML_NIFS算法中,计算特征属性与多标签类别属性的相关度,计算特征属性与特征属性集的冗余度,将特征属性与多标签类别属性之间的相关度与特征属性与特征属性集的冗余度结合起来,即为特征的评价准则,进而通过特征的评价准则将特征进行排序,特征的评价准则如下:W(Xi)=CCorrelation(Xi;Y)‑Redundancy(Xi;H)   (13)其中,H为已经排序的特征属性集合,Xi为等待选择的特征属性,CCorrelation(Xi;Y)表示特征属性与多标签类别属性集合的相关性,Redundancy(Xi;H)表示特征属性Xi与已排序的特征属性集的冗余性特征选择是将已经经过特征排序的特征进行选择的过程,一般情况下在多标签类别属性的特征选择算法中,常用的方法是根据后续的分类算法、特征的评价准则,设定特征选择的阈值,通过阈值来进行特征选择。本算法特征从分类能力来看,在已经排好的特征序列中排名处于前面的特征和多标签类别属性之间的相关性比较强,特征属性与特征属性之间的冗余性比较低,对分类的效果更好。同时考虑特征属性之间的整体性,应将多个特征属性整体作为分析对象。由公式(10)可以得到已排序特征属性集合H特征属性子集与多标签类别属性集的相关性。相关度计算公式如下:Correlation(H;Y)=1|H|ΣXi∈H1|Y|ΣYj∈YCorrelation(Xi;Yj)---(14)]]>其中,H表示候选特征集合,Y表示多标签类别属性,|Y|表示多标签类别属性集的标签数目,|H|表示已排序的特征集中特征属性的个数。按照已排序的特征属性的顺序,由公式(13)计算出相关度的平均值:Hj表示对应得前j个特征属性;如果Correlation(Hj;Y)大于Correlation平均(H;Y)并且Correlation(Hj+1;Y)小于Correlation平均(H;Y),则这j个特征属性就是所要得到的特征属性。5.嵌入式的动态互信息计算方法基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据从新计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入KNN分类器来识别可识别样本,并将经过KNN分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710222600.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top