[发明专利]变长表示的高维数据特征选择方法、系统、介质及应用在审
申请号: | 202110109446.8 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112801180A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 吴全旺;周俊海;曾洁 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 重庆市信立达专利代理事务所(普通合伙) 50230 | 代理人: | 陈炳萍 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变长 表示 数据 特征 选择 方法 系统 介质 应用 | ||
本发明属于进化计算和数据挖掘技术领域,公开了一种变长表示的高维数据特征选择方法、系统、介质及应用,包括:计算所有特征的对称不确定性SU,移除部分最不相关的特征,并对剩余特征以SU值进行特征降序排序;初始化种群,计算不同个体的个体长度,并计算各个个体的适应度值,更新全局最优解;进行迭代进化,对整个种群进行选择、交叉、变异;对种群部分个体进行长度改变;更新全局极值,产生下一代个体;对种群部分个体进行局部搜索;达到迭代终止条件时,迭代终止,返回最优特征子集,用返回的最优的特征子集检验测试集的分类准确率。本发明能够提高数据特征选择的执行效率,得到特征数目少、分类准确率高的特征子集。
技术领域
本发明属于进化计算和数据挖掘技术领域,尤其涉及一种变长表示的高维数据特征选择方法、系统、介质及应用。
背景技术
目前,特征选择算法主要可分为过滤法、包裹法。一般而言,过滤法基于数据的特性进行特征选择,不涉及分类算法;而包裹法在评价特征子集时,使用某个分类算法进行评价。因此包裹法相比于过滤法花费更多时间但所选择的特征子集分类效果更好。
对包裹法而言最重要的是如何搜索特征子集。目前遗传算法是一种常用的搜索特征子集的方法,这是因为与随机搜索相比它们拥有很好的全局搜索能力。遗传算法基于种群工作,种群包含许多个体,每一个个体编码一个特征子集。个体表示特征子集时,个体的每一维度与数据集的某个特征相对应,因此种群中所有个体的长度都等于数据集的特征数目。然而对于高维数据而言,这种表示方式会严重影响算法的搜索能力并要求更多的训练时间。因为对高维数据而言,许多特征是不相关或者弱相关的,使用这种固定长度的表示法难以搜索到一个包含特征数目少、分类准确率高的特征子集。另一方面,这种固定长度的表示法由于一般会选择较多特征,使得分类算法执行过慢,从而严重影响了算法的执行效率。
通过上述分析,现有技术存在的问题及缺陷为:现有的基于包裹法的特征选择算法,尤其是使用遗传算法作为包裹法的特征选择算法大多数使用固定长度表示特征子集,这将耗费大量运行时间,并且也难以获得特征数目少并且分类效果好的特征子集。
解决以上问题及缺陷的难度为:如何设计一种灵活的变长表示方法,使种群中的个体搜索可在不同大小的搜索空间进行搜索,使搜索更具多样性。
解决以上问题及缺陷的意义为:解决固定长度表示方法搜索多样性差、执行速度慢的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种变长表示的高维数据特征选择方法、系统、介质及应用。
本发明是这样实现的,一种变长表示的高维数据特征选择方法,所述变长表示的高维数据特征选择方法包括:
步骤一,计算所有特征的对称不确定性SU,移除部分最不相关的特征,并对剩余特征以SU值进行特征降序排序;这样可使相关度高的特征都排在前面,有利于后续设计的变长表示法,使得短长度的个体能包含很多相关度高的特征
步骤二,初始化种群,计算不同个体的个体长度,并计算各个个体的适应度值,更新全局最优解;不同个体拥有不同长度,使得个体的搜索空间大小不一,丰富了种群的搜索多样性;
步骤三,进行迭代进化,对整个种群进行选择、交叉、变异;对种群部分个体进行长度改变;更新全局极值,产生下一代个体;对种群部分个体进行局部搜索;选择、交叉、变异操作产生新一代个体,长度改变使得个体的长度在进化过程中可以改变,使得个体在更好的空间进行搜索;局部搜索通过引入相关特征和移除冗余特征进一步提升解的质量。
步骤四,迭代终止,返回最优特征子集,用返回的最优的特征子集检验测试集的分类准确率。以所获得的的分类准确率验证所获得特征子集的质量。
进一步,步骤一中,所述特征的对称不确定性SU计算公式如下:
IG(F|C)=H(F)-H(F|C);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110109446.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置