[发明专利]一种信息增益混合邻域粗糙集的高维度特征选择方法有效
申请号: | 201910168981.3 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109934278B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 陆惠玲;周涛;张飞飞;梁蒙蒙;杨健 | 申请(专利权)人: | 宁夏医科大学 |
主分类号: | G06V10/771 | 分类号: | G06V10/771;G06V10/25;G06V10/26;G06V10/764 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 750000 宁夏回族*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 增益 混合 邻域 粗糙 维度 特征 选择 方法 | ||
本发明公开了一种信息增益混合邻域粗糙集的高维度特征选择方法,具体步骤包括如下:步骤一:数据预处理;步骤二:图像分割;步骤三:特征提取;步骤四:特征归一化;步骤五:基于信息增益的特征选择;步骤六:基于领域粗糙集的特征选择;步骤七:对两次约简结果进行分类识别。本发明公开提供了一种信息增益混合邻域粗糙集的高维度特征选择方法,并从理论层面分析两阶段约简算法的可行性。算法可以提高算法的正确率,有效降低时间复杂度,并且综合对比不同方法构建的高维特征选择算法的性能,确保本文方法的优越性,从模型方法的逐步选择上保证结果的科学性,对肺部肿瘤良恶性的识别具有一定的参考价值。
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种信息增益混合邻域粗糙集的高维度特征选择方法。
背景技术
信息增益(information gain,IG)和粗糙集(rough set,RS)是特征选择常用的两种算法,IG是衡量包含或者不包含某个特征时为分类器提供了多少信息量的指标,依次求出每个特征对分类器提供的信息量,然后从大到小进行排序,按照一定的规则取前K个特征,从而达到利用信息增益进行特征选择的目的。IG进行特征选择计算复杂度较低,只需单次运算,因此运行效率较高,可以有效剔除冗余、不相关以及噪声特征。但IG作为一种过滤式算法进行特征选择仍然存在问题,它只能考察特征对整个系统的贡献,而不能详细到某个类别上,并且并未考虑特征之间的关系,因此只适合用来做“全局”的特征选择(指全部的类都使用同样的特征集合)。而无法做“局部”的特征选择(每一个类别有自己的特征集合,有的特征对某一类别具有较大的区分度,而对其他类别则无足轻重)。RS是处理不确定性数据的有效工具,因其无需先验知识的特性,广泛应用于特征选择、模式识别、数据挖掘与知识发现等领域。RS研究的两个重要概念分别是概念近似和属性约简,其中属性约简是在不影响当前识别任务可辨性的前提下降低属性的维度,但是RS最初是在一定基础上构建的等价关系,在许多实际应用中都受到了限制。因此为了避免数据对单一方法的依赖以及更好的剔除数据集中的冗余和不相关属性,很多学者将IG的全局特征选择能力与RS优越的属性约简能力相结合进行高维特征选择,已经成功应用于情感分析、房地产价目分析、肿瘤诊断分类、渔情预测等。但是Pawlak RS只能处理名义型变量,实际应用中的数据往往是连续的数值变量,离散化后的数据集虽然可以适应RS算法等价类的构建,但是也可能会丢失重要信息并且不同的离散化策略也会影响约简效果。为此,胡清华等人引入邻域关系提出了改进的Pawlak RS,即邻域粗糙集(neighborhood rough set,NRS),可以直接对连续的数值型数据进行处理。IG和RS虽然都可以单独进行特征选择,但是存在一定的局限性,因此将两者的优势相结合进行特征选择具有一定的可行性,借助IG结果选出高相关的特征子集,再通过NRS剔除高冗余的属性,其中,NRS可以克服RS只适合处理离散变量而导致原始信息大量丢失的问题。通过两次属性约简得到最优的特征子集,能更好的剔除数据集中的冗余和不相关特征,提高算法的性能,降低时间复杂度,也可以避免数据对单一方法的依赖。
因此,如何提供一种信息增益混合邻域粗糙集的高维度特征选择方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种信息增益混合邻域粗糙集的高维度特征选择方法,并从理论层面分析两阶段约简算法的可行性。通过与不约简算法、Pawlak RS、IG和NRS约简算法进行比较可知,该算法可以提高算法的正确率,有效降低时间复杂度,并且综合对比不同方法构建的高维特征选择算法的性能,确保本文方法的优越性,从模型方法的逐步选择上保证结果的科学性,对肺部肿瘤良恶性的识别具有一定的参考价值。
为了实现上述目的,本发明提供如下技术方案:
一种信息增益混合邻域粗糙集的高维度特征选择方法,具体步骤包括如下:
步骤一:数据预处理;将图像分别按照顺序编号,去伪彩转化为灰度图像;从灰度图像中划分ROI区域,并将ROI区域的图像归一化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁夏医科大学,未经宁夏医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168981.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置