[发明专利]基于近似质量与条件熵的属性约简方法在审
申请号: | 201910901262.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110674870A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 文辉祥 | 申请(专利权)人: | 文辉祥 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近似 度量 约简 条件熵 属性约简 约束条件 邻域粗糙集 启发式算法 单一准则 决策系统 算法融合 求解 邻域 输出 分类 保证 | ||
本发明公开了一种基于近似质量与条件熵的属性约简方法,其采用求解近似质量约简的启发式算法,输入为邻域决策系统DS=<U,AT∪{d}>,约束条件,度量准则γ,输出为一个近似质量约简red,在邻域粗糙集上考虑基于单一准则的属性约简的结果虽然能够满足相应度量指标的约束条件,但是不能保证其仍然满足其他度量准则,所以本发明提供的算法融合近似质量和条件熵的多重准则作为度量指标的约简新方法,实验结果表明,新的约简不仅能够在保持近似质量不发生明显变化的基础上降低条件熵,而且可以有效的提升分类精度。
技术领域
本发明涉及一种基于近似质量与条件熵的属性约简方法,
背景技术
粗糙集是波兰学者Pawlak提出的一种刻画不精确性与不确定性的数学工具,邻域粗糙集则是经典粗糙集的一种重要拓展模型,相较于传统粗糙集,邻域粗糙集不仅能够适用于处理连续型数值,而且由于邻域半径的存在,依据不同大小的半径,可以自然地形成一个多粒度结构框架,近年来,邻域粗糙集方法因其具有简洁直观的表达方式、对复杂数据具有较强的适应性、易于实现增量式计算等诸多优点得到了众多学者的广泛关注,
类似于其他扩展粗糙集模型的研究,属性约简在邻域粗糙集的研究中也占据着核心地位,由于需求目标或者拓展模型的不同,因此众多度量准则都能用于定义属性约简,例如:李等人研究了类别近似质量下的属性约简;从分类学习的角度看,为了提升约简后算法的分类性能,胡等人提出了邻域决策错误率的概念;张等人在模糊粗糙集模型中引入了信息熵,而信息熵不仅可以作为一种描述不确定性的工具,而且在一定程度上能够反映分类性能的优劣性,传统求取约简的方法通常利用启发式框架选取单一指标作为度量准则,单一度量准则下的属性约简概念虽然具有目标清晰,易推广等优点,然而在实际应用中,对比不同准则下的属性约简结果,不难发现由于选取的度量准则过于单一将会出现以下问题:
1)所求取的约简难以同时满足多个不同准则的约束条件,例如:基于近似质量的属性约简单纯地满足了近似质量的约束条件,但并不能保证这一约简结果仍然可以满足条件熵或者邻域决策错误率的约束条件;
2)所求取的约简并不能保证在分类性能上有较大的优势,
发明内容
本发明的目的在于克服现有技术中存在的上述不足,而提供一种结构设计合理的基于近似质量与条件熵的属性约简方法;
本发明解决上述问题所采用的技术方案是:一种基于近似质量与条件熵的属性约简方法,定义近似质量约简为red,所述步骤中red算法包括以下步骤:
(1)邻域粗糙集
在粗糙集理论中,决策系统可以表示为
二元组DS=<U,AT∪{d}>(U是一个非空有限的样本集合,即论域;AT是所有条件属性的集合;{d}是所有决策属性且),
给定论域U={x1,x2,…,xn},邻域是建立在某一种度量标准上,通过给定半径考察样本的邻居,不妨假设MA=(rij)n×n为论域上根据属性集合A所得到的距离矩阵,rij表示对象xi与xj之间的距离度量,给定半径σ∈[0,1],可以得到:
其中表示样本xi与U中其他样本距离的最小值,表示样本xi与U中其他样本的距离的最大值,
采用公式(1)的方式考察样本的邻居可以避免因半径过小而产生空邻域的情形,其邻域为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文辉祥,未经文辉祥许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901262.8/2.html,转载请声明来源钻瓜专利网。