[发明专利]一种适用于高维大数据集的数据分类方法在审

申请号：	201710983277.4	申请日：	2017-10-20
公开（公告）号：	CN107943830A	公开（公告）日：	2018-04-20
发明（设计）人：	宋彬;张颖;张悦;郭洁	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N99/00
代理公司：	陕西电子工业专利中心61205	代理人：	田文英,王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于高维大数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机技术领域，更进一步涉及数据分类技术领域中一种适用于高维大数据集的数据分类方法。本发明可用于高维大数据的分类，以提高数据分类的准确率。

背景技术

在过去的二十年里，人类收集、存储、传输、处理数据的能力取得了飞速提升，人们积累了越来越庞大和复杂的数据，因此，能有效对数据进行分析和利用的计算机算法是现今迫切需要的。同时，高维大数据量和稀疏冗余的特征使得数据挖掘的难度不断增大，一些传统的机器学习算法已经不能取得较好的效果或难以适用于当前的场景，这导致了高维大数据的挖掘具有很大的挑战性，也具有很大的提升空间。

浪潮电子信息产业股份有限公司在其申请的专利文献“一种基于随机森林加权距离的大规模高维数据分类方法”(申请号：201510272419.7，公开号：CN 104915679 A)中公开了一种大规模高维数据的分类方法。该方法首先对训练样本利用随机森林算法计算各维度特征的重要性，用维度特征重要性数值来加权标准化距离，在此基础上利用k近邻算法进行分类。该方法存在的不足之处是：k近邻算法用于大规模高维数据集时计算量过大，算法复杂度高，另外，对于现实场景下的高维稀疏数据集，传统随机森林算法收敛速度和分类精度表现不佳，导致该算法的准确率下降。

毛林、陆全华和程涛在其发表的论文“基于高维数据的集成逻辑回归分类算法的研究与应用”(科技通报,2013年12期)中提出一种大规模高维数据的分类方法。该方法首先对全部特征随机抽取多个特征集，并针对各个特征集构建多个逻辑回归模型。最后针对多个逻辑回归模型结果，利用集成学习方法进行最终预测。该方法存在的不足之处是：由于高维大数据集特征的冗余性和稀疏性，随机的特征抽取很难选到有用的特征的问题，导致多数基分类器性能不佳，算法准确率不理想，且直接进行集成学习使得基学习器相似性高，容易过拟合。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种适用于高维大数据集的数据分类方法，在保证高维大数据下算法收敛速度的同时尽可能的提高分类精度。

实现本发明目的的具体思路是：依据高维稀疏数据集的特点，优化传统随机森林算法的特征选择方式，提高基决策树的分类能力及整体算法的性能。

实现本发明目的的具体步骤如下：

(1)输入训练样本数据集和测试样本数据集：

(1a)输入一个包含两种及以上类别的高维大数据集，作为训练样本数据集；

(1b)输入一个包含两种及以上类别的，与训练样本数据集特征相同的待分类的高维大数据集，作为测试样本数据集；

(2)对训练样本集进行采样：

(2a)采用自助采样法，从训练样本数据集中抽取与训练集样本数量相等的样本，作为抽样样本，放入一个采样集中；

(2b)执行30次上述采样，得到30个采样集；

(3)计算特征权重：

(3a)利用基尼指数计算公式，分别计算每个采样集对应的特征集中所有特征的基尼指数；