[发明专利]变长表示的高维数据特征选择方法、系统、介质及应用在审

专利信息
申请号: 202110109446.8 申请日: 2021-01-27
公开(公告)号: CN112801180A 公开(公告)日: 2021-05-14
发明(设计)人: 吴全旺;周俊海;曾洁 申请(专利权)人: 重庆大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/12
代理公司: 重庆市信立达专利代理事务所(普通合伙) 50230 代理人: 陈炳萍
地址: 400044 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 变长 表示 数据 特征 选择 方法 系统 介质 应用
【说明书】:

发明属于进化计算和数据挖掘技术领域,公开了一种变长表示的高维数据特征选择方法、系统、介质及应用,包括:计算所有特征的对称不确定性SU,移除部分最不相关的特征,并对剩余特征以SU值进行特征降序排序;初始化种群,计算不同个体的个体长度,并计算各个个体的适应度值,更新全局最优解;进行迭代进化,对整个种群进行选择、交叉、变异;对种群部分个体进行长度改变;更新全局极值,产生下一代个体;对种群部分个体进行局部搜索;达到迭代终止条件时,迭代终止,返回最优特征子集,用返回的最优的特征子集检验测试集的分类准确率。本发明能够提高数据特征选择的执行效率,得到特征数目少、分类准确率高的特征子集。

技术领域

本发明属于进化计算和数据挖掘技术领域,尤其涉及一种变长表示的高维数据特征选择方法、系统、介质及应用。

背景技术

目前,特征选择算法主要可分为过滤法、包裹法。一般而言,过滤法基于数据的特性进行特征选择,不涉及分类算法;而包裹法在评价特征子集时,使用某个分类算法进行评价。因此包裹法相比于过滤法花费更多时间但所选择的特征子集分类效果更好。

对包裹法而言最重要的是如何搜索特征子集。目前遗传算法是一种常用的搜索特征子集的方法,这是因为与随机搜索相比它们拥有很好的全局搜索能力。遗传算法基于种群工作,种群包含许多个体,每一个个体编码一个特征子集。个体表示特征子集时,个体的每一维度与数据集的某个特征相对应,因此种群中所有个体的长度都等于数据集的特征数目。然而对于高维数据而言,这种表示方式会严重影响算法的搜索能力并要求更多的训练时间。因为对高维数据而言,许多特征是不相关或者弱相关的,使用这种固定长度的表示法难以搜索到一个包含特征数目少、分类准确率高的特征子集。另一方面,这种固定长度的表示法由于一般会选择较多特征,使得分类算法执行过慢,从而严重影响了算法的执行效率。

通过上述分析,现有技术存在的问题及缺陷为:现有的基于包裹法的特征选择算法,尤其是使用遗传算法作为包裹法的特征选择算法大多数使用固定长度表示特征子集,这将耗费大量运行时间,并且也难以获得特征数目少并且分类效果好的特征子集。

解决以上问题及缺陷的难度为:如何设计一种灵活的变长表示方法,使种群中的个体搜索可在不同大小的搜索空间进行搜索,使搜索更具多样性。

解决以上问题及缺陷的意义为:解决固定长度表示方法搜索多样性差、执行速度慢的问题。

发明内容

针对现有技术存在的问题,本发明提供了一种变长表示的高维数据特征选择方法、系统、介质及应用。

本发明是这样实现的,一种变长表示的高维数据特征选择方法,所述变长表示的高维数据特征选择方法包括:

步骤一,计算所有特征的对称不确定性SU,移除部分最不相关的特征,并对剩余特征以SU值进行特征降序排序;这样可使相关度高的特征都排在前面,有利于后续设计的变长表示法,使得短长度的个体能包含很多相关度高的特征

步骤二,初始化种群,计算不同个体的个体长度,并计算各个个体的适应度值,更新全局最优解;不同个体拥有不同长度,使得个体的搜索空间大小不一,丰富了种群的搜索多样性;

步骤三,进行迭代进化,对整个种群进行选择、交叉、变异;对种群部分个体进行长度改变;更新全局极值,产生下一代个体;对种群部分个体进行局部搜索;选择、交叉、变异操作产生新一代个体,长度改变使得个体的长度在进化过程中可以改变,使得个体在更好的空间进行搜索;局部搜索通过引入相关特征和移除冗余特征进一步提升解的质量。

步骤四,迭代终止,返回最优特征子集,用返回的最优的特征子集检验测试集的分类准确率。以所获得的的分类准确率验证所获得特征子集的质量。

进一步,步骤一中,所述特征的对称不确定性SU计算公式如下:

IG(F|C)=H(F)-H(F|C);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110109446.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top