[发明专利]一种基于邻域条件互信息的交互特征选择方法在审
申请号: | 202110305125.5 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112860819A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 陈红梅;万继红;李天瑞;罗川;胡节 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N5/00 |
代理公司: | 成都盈信专利代理事务所(普通合伙) 51245 | 代理人: | 张澎 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 邻域 条件 互信 交互 特征 选择 方法 | ||
1.一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性MRmRMI的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:
步骤1:混合数据预处理
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),其中,论域U是一个大小为n的样本集,记为U={x1,x2,…,xn};F是一个大小为m的特征集,记为F={f1,f2,…,fm};D={d}是一个单决策类;V是特征的值域并表示为其中为特征在所有样本上取值的集合;f:U×(F∪D)→V是一个信息函数,其为每个对象分配属性值;δ是一个邻域参数。
由异构切比雪夫重叠度量HCOM的距离函数在特征上确定样本的邻域相似关系针对所有特征的多邻域半径集被计算为:
其中,
所有样本关于特征取值的标准差,参数∈用于调节特征的邻域半径,该参数的取值取决于不同数据集中不同特征值的分布特性;论域U上的相似关系矩阵被获得,其中为定义在特征上的一个距离函数;
步骤2:特征关联性分析和定义
特征的关联性被划分为:(1)特征与类之间的相关性;(2)类独立的成对特征冗余性;(3)类依赖的成对特征交互性;具体分析和处理过程如下:
2-1)特征与类之间的相关性度量
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),是已选特征子集,是当前候选特征,则与d之间的邻域互信息衡量特征与类之间的相关性并将其定义为:
其中,和δd(xi)分别表示xi在特征和d上的邻域;则表示xi在组合特征上的邻域;
最相关的特征具有最大的互信息,这种特征选择策略被称为最大相关准则(Max-Relevance,MR),将其形式化为:
利用该MR准则可以得到特征与类之间相关性的降序排序;
在特征选择的初始阶段,约简已选特征子集为空,即具有最大相关性的特征fs被选为已选特征子集中的第一个特征Red={fs};
2-2)类独立的成对特征冗余性度量
邻域互信息被引入以衡量当前候选特征和已选特征fs之间的冗余性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),是当前候选特征,fs∈Red是已选特征,则与fs之间类独立的成对冗余性定义为:
其中,和分别表示xi在特征和fs上的邻域;则表示xi在组合特征上的邻域;
为了去除特征子集中的冗余特征,最小冗余准则(min-Redundancy,mR)被提出并表示为:
2-3)类依赖的成对特征交互性度量
将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),是当前候选特征,剩余候选特征中的特征,在已知的条件下,则与d之间类独立的成对交互性定义为:
其中,和分别表示xi在和上的邻域;
最大交互准则(Max-Interaction,MI)被提出并表示为:
步骤3:特征重要性评价函数
依据步骤2所呈现的特征关联性度量,具有最大相关性,最小冗余性和最大交互性的特征期待被选择;据此,构建最大相关最小冗余最大交互MRmRMI的特征重要性评价函数如下:
其中,
该MRmRMI函数被用来衡量一个特征或特征子集对分类的有用程度,通过对其进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;
步骤4:获取最终的最佳特征子集Redbest
利用MRmRMI函数迭代选择出具有最大特征重要性取值的特征得到一个关于特征重要性的有序序列Red;依序递增地对该有序序列用Matlab中不同的分类器进行性能测试;所获最高分类精度值所对应的有序特征子集即为最终的最佳特征子集Redbest。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110305125.5/1.html,转载请声明来源钻瓜专利网。