[发明专利]基于RealifF的特征选择方法在审
申请号: | 202011356846.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112488180A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 王红滨;刘宜陶;何鸣;王勇;王念滨;周连科;崔琎 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘强 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 realiff 特征 选择 方法 | ||
基于RealifF的特征选择方法,涉及数据挖掘技术领域,针对传统的去冗余方法是将一组冗余特征保留一个,这样会造成损失信息的问题,本申请通过距离相关性系数找出冗余特征,解决冗余问题。传统的简单去冗余方法是将一组冗余特征保留一个,本申请通过自编码器融合这些冗余特征而不是直接丢掉,解决了损失信息的问题。自编码器是一种黑盒的结构,无法保证最后可以得到想要的特征,本申请通过多任务的方式,加上一路分类的任务,可以迫使自编码器学到这一组冗余信息中更利于分类的特征,提升自编码器学习到特征的质量。
技术领域
本发明涉及数据挖掘技术领域,具体为一种基于RealifF的特征选择方法。
背景技术
Relief为一系列算法,最早由kira提出,后来扩展出ReliefF和RReliefF。最初的Relief运行效率比较高,效果也让人满意,所以得到了广泛的应用,但是缺点在于只能解决两类数据的分类问题,而ReliefF扩展成为可以处理多类问题,是被研究人员所公认的比较好的一种过滤式特征选择方法。ReliefF的大致思路就是从训练集L中随机选择一个样本D,然后从和D同类的样本中寻找m最近邻样本U,从其余各类的样本中寻找m最近邻样本W,最后按照公式更新特征权重,根据权重降序排列,取前t个特征构成特征子集。权重会根据样本对其同类和不同类特征的区分程度来确定,如果样本D可以很好的区分不同类的特征,并且对于同类的特征可以得到相同的结果,那么就会被赋予一个高权重。但是ReliefF同样存在问题,那就是没有办法解决存在冗余的特征的特征集。现在假设原始特征集L={b1,b2,b3...,bn},特征子集中包含的特征数t=6,根据ReliefF算法得出的权重降序排列前6位是b2,b3,b9,b4,b8,b1,按照算法,这些特征将构成最后的特征子集。但是根据ReliefF算法,冗余度很高的几个特征就会得到相似的权重,如果这些冗余度很高的特征在我们的特征子集中就会很大的影响子集对原始特征集的代表性,也会直接的影响到最后的分类结果。也就是说,如果在选取特征的时候可以忽略那些冗余度高的特征,继而顺延去选取权重降序排列中的下一特征,会使得结果子集的质量有很大的提升。比如特征b2,b3,b9冗余度很高的话,那这三个特征将起不到原本权值前三的特征应该起到的作用。
发明内容
本发明的目的是:针对传统的去冗余方法是将一组冗余特征保留一个,这样会造成损失信息的问题,提出一种基于RealifF的特征选择方法。
本发明为了解决上述技术问题采取的技术方案是:
基于RealifF的特征选择方法,包括以下步骤:
步骤一:获取原始特征集;
步骤二:将原始特征集中方差小于方差阈值的特征删除,得到特征集M;
步骤三:根据特征集M构建距离相关性矩阵;
步骤四:将距离相关性矩阵中小于距离相关性矩阵阈值的特征进行融合,并将融合后的特征与距离相关性矩阵中不小于距离相关性矩阵阈值的特征组成特征集N;
步骤五:将特征集N中每个特征所对应的权重重置为0,即W(i)=0,i=0,1,2,...n;
步骤六:在特征集N中随机选择一个样本O,然后找出与样本O同类的K个近邻Qj,j=1,2,...,k,再找出与样本O不同类的K个近邻Vj(c),c=1,2,...C,j=1,2,...k,其中C为类别数;
步骤七:利用Qj和Vj(c)对特征重置后的特征集N中特征的权重进行迭代更新,得到更新后的特征权重W(i),更新公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011356846.0/2.html,转载请声明来源钻瓜专利网。