[发明专利]一种基于零阶优化的数据特征选择方法在审
申请号: | 202110421943.1 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113283472A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞扬;詹德川;周志华;庞江圣 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 优化 数据 特征 选择 方法 | ||
本发明公开一种基于零阶优化的数据特征选择方法,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。本发明保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。
技术领域
本发明涉及一种基于零阶优化的数据特征选择方法,涉及机器学习中数据预处理技术领域。
背景技术
数据特征选择指从数据原始特征中选择并保留一些最有效特征的过程,是一种很重要的数据预处理过程,它通常在正式进行训练模型之前进行。特征选择使得数据维度减少,从而一定程度上缓解了维数灾难问题,这个角度考虑,特征选择与降维有相似的动机;另外,特征选择通过剔除不相关特征,只留下关键的特征,使得学习更加高效,以达到降低学习任务难度的目的。
常见的数据特征选择方法主要有三类:嵌入式、过滤式和包裹式。嵌入式方法将特征选择算法本身作为组成部分嵌入到训练模型中里,其中最常用的一种是,在模型训练中加入正则化项,训练后得到稀疏解,并以此达到特征选择的目的,但是此类方法对所使用的模型有很大的限制,需要训练模型时能够得到特征系数或者得到特征重要度,导致嵌入式方法的应用场景有限,容易过拟合,无法面对较复杂的使用场景。过滤式方法按照特征的发散性或者相关性对其进行评分,直接完成特征选择。Relief(Relevant Features)是一种著名的过滤式方法,其运行效率高,能够较快的得到特征选择结果。不足的是,过滤式方法的评价标准独立于特定的学习算法,使得分类准确率通常低于包裹式方法。包裹式方法以模型训练结果作为特征选择的评价指标。
在现有的三类特征选择方法中,嵌入式方法对训练模型有一定的限制,使得应用场景小,容易过拟合;过滤式方法脱离实际使用的模型,在实际的表现中往往不够理想;包裹式方法在性能上有良好表现,但此方法耗时巨大,且结果往往不稳定,不易控制。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种新的基于零阶优化的数据特征选择方法。此方案属于一种包裹式方法,不同与其他包裹式方法,保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。
技术方案:一种基于零阶优化的数据特征选择方法,数据特征选择完成的任务是对一个数据矩阵如n*m(n为数据量,m为特征数)的数据集进行特征维度上的缩减,去除不相关的特征,降低了学习任务的难度。同时一定程度上缓解维数灾难等问题。数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵(km,k经过特征选择后的特征数)。
本发明基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后,就可以进行数据采样。可以多次执行以下流程:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑。
将具体的数据特征选择方案作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间。具体来说,采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择),以此作为优化算法的配置。之后,进行预设轮次的循环。其中,一轮采样训练优化的循环过程如:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后,就得到了过程中表现最优的数据特征选择方案。
主要实施流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110421943.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置