[发明专利]一种大数据的二次特征选择方法及装置在审
申请号: | 201810598902.8 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108829816A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 王晓宇 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 王汝银 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余特征 算法 主成分分析法 搜索算法 次特征 大数据 数据集 权重 去除 加权 样本 处理模块 分离模块 算法模块 通用度 高维 | ||
本发明提供了种大数据的二次特征选择方法及装置,所述的方法包括:S1:将数据集分离;S2:利用ReliefF算法得到样本的每个特征所对应的权重;S3:利用主成分分析法对各个特征加权;S4:利用搜索算法去除冗余特征。所述的装置包括:分离模块,用来将数据集分离;ReliefF算法模块,利用ReliefF算法得到样本的每个特征所对应的权重;KCPA模块,利用主成分分析法对各个特征加权;处理模块,利用搜索算法去除冗余特征。该发明能够处理高维度、包含无关和冗余特征的数据,提高了算法通用度和系统的精确度。
技术领域
本发明涉及数据处理领域,更具体地说,涉及一种大数据的二次特征选择方法及装置。
背景技术
科技的迅猛发展使得我们获得信息量爆炸式增长,如何从这些信息中的得到有价值的数据,模式分类等人工智能的科学应运而生并且逐渐成为研究热点之一。
模式分类系统为了最大获得某些事物的特征等相关的信息,将通过以下四个步骤,分别是获取某事物的特征数据,对数据进行预处理,再接着通过特征选择,最后是对特征数据进行特征评估。经过这四个步骤后将能获取某具体事物的正确分类。
然而数据的维度越来越高将会造成维数灾难,无关和冗余特征较多等特点的出现迫切使得研究人员需要在传统的算法上进行优化和创新,使得新的算法在通用性上更强并且在运行效率上更高,而对于模式分类系统中非常的重要的特征选择环节是我们得到优良分类器的重要前提。
发明内容
针对以上缺点,本发明提出了一种大数据的二次特征选择方法及装置,能够处理高维度、包含无关和冗余特征的数据,提高了算法通用度和系统的精确度。
本发明实施例提供了一种大数据的二次特征选择方法,所述的方法包括:
S1:将数据集分离;
S2:利用ReliefF算法得到样本的每个特征所对应的权重;
S3:利用主成分分析法对各个特征加权;
S4:利用搜索算法去除冗余特征。
进一步的,步骤S1中,将数据集分离后,不同类样本之间的距离增大。
进一步的,步骤S2的具体实现过程为:
选取样本R的某个特征,在这个特征上分别计算样本R和最近的相邻的同类样本H的距离D(RH),以及样本R和最近的相邻的不样本M的距离D(RM);
判断D(RH)和D(RM)的大小,若是D(RH)小于D(RM),则给这个特征设置的权重要相应的增大;若是D(RH)大于D(RM),则给这个特征设置的权重要相应的减少;
对于上述的过程要反复m次,最后通过计算得到每个特征的权重。
进一步的,步骤S3的实现原理为:使用基于核函数的主成分分析法将非线性数据转换为线性数据,然后再运用主成分分析法求出最主要贡献的特征。
进一步的,步骤S3的具体实现过程为:
1)输入数据S={x1,x2,…,xl},投影后数据的维度是k,x代表每一条特征的矩阵,L代表省略的特征对应的矩阵,l代表特征的个数;
2)计算核矩阵:K=(kij)l×l,kij=K(xi,xj),i,j=1,2,…,l;K代表核矩阵,k 是特征之间的内积;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810598902.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医学影像图像筛选方法
- 下一篇:一种用于大数据融媒体的内容管理系统