[发明专利]一种大数据的二次特征选择方法及装置在审

申请号：	201810598902.8	申请日：	2018-06-12
公开（公告）号：	CN108829816A	公开（公告）日：	2018-11-16
发明（设计）人：	王晓宇	申请（专利权）人：	郑州云海信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南诚智商标专利事务所有限公司 37105	代理人：	王汝银
地址：	450018 河南省郑州市***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	冗余特征算法主成分分析法搜索算法次特征大数据数据集权重去除加权样本处理模块分离模块算法模块通用度高维
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了种大数据的二次特征选择方法及装置，所述的方法包括：S1：将数据集分离；S2：利用ReliefF算法得到样本的每个特征所对应的权重；S3：利用主成分分析法对各个特征加权；S4：利用搜索算法去除冗余特征。所述的装置包括：分离模块，用来将数据集分离；ReliefF算法模块，利用ReliefF算法得到样本的每个特征所对应的权重；KCPA模块，利用主成分分析法对各个特征加权；处理模块，利用搜索算法去除冗余特征。该发明能够处理高维度、包含无关和冗余特征的数据，提高了算法通用度和系统的精确度。

技术领域

本发明涉及数据处理领域，更具体地说，涉及一种大数据的二次特征选择方法及装置。

背景技术

科技的迅猛发展使得我们获得信息量爆炸式增长，如何从这些信息中的得到有价值的数据，模式分类等人工智能的科学应运而生并且逐渐成为研究热点之一。

模式分类系统为了最大获得某些事物的特征等相关的信息，将通过以下四个步骤，分别是获取某事物的特征数据，对数据进行预处理，再接着通过特征选择，最后是对特征数据进行特征评估。经过这四个步骤后将能获取某具体事物的正确分类。

然而数据的维度越来越高将会造成维数灾难，无关和冗余特征较多等特点的出现迫切使得研究人员需要在传统的算法上进行优化和创新，使得新的算法在通用性上更强并且在运行效率上更高，而对于模式分类系统中非常的重要的特征选择环节是我们得到优良分类器的重要前提。

发明内容

针对以上缺点，本发明提出了一种大数据的二次特征选择方法及装置，能够处理高维度、包含无关和冗余特征的数据，提高了算法通用度和系统的精确度。

本发明实施例提供了一种大数据的二次特征选择方法，所述的方法包括：

S1：将数据集分离；

S2：利用ReliefF算法得到样本的每个特征所对应的权重；

S3：利用主成分分析法对各个特征加权；