[发明专利]一种适用于高维大数据集的数据分类方法在审
申请号: | 201710983277.4 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107943830A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 宋彬;张颖;张悦;郭洁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N99/00 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 高维大 数据 分类 方法 | ||
技术领域
本发明属于计算机技术领域,更进一步涉及数据分类技术领域中一种适用于高维大数据集的数据分类方法。本发明可用于高维大数据的分类,以提高数据分类的准确率。
背景技术
在过去的二十年里,人类收集、存储、传输、处理数据的能力取得了飞速提升,人们积累了越来越庞大和复杂的数据,因此,能有效对数据进行分析和利用的计算机算法是现今迫切需要的。同时,高维大数据量和稀疏冗余的特征使得数据挖掘的难度不断增大,一些传统的机器学习算法已经不能取得较好的效果或难以适用于当前的场景,这导致了高维大数据的挖掘具有很大的挑战性,也具有很大的提升空间。
浪潮电子信息产业股份有限公司在其申请的专利文献“一种基于随机森林加权距离的大规模高维数据分类方法”(申请号:201510272419.7,公开号:CN 104915679 A)中公开了一种大规模高维数据的分类方法。该方法首先对训练样本利用随机森林算法计算各维度特征的重要性,用维度特征重要性数值来加权标准化距离,在此基础上利用k近邻算法进行分类。该方法存在的不足之处是:k近邻算法用于大规模高维数据集时计算量过大,算法复杂度高,另外,对于现实场景下的高维稀疏数据集,传统随机森林算法收敛速度和分类精度表现不佳,导致该算法的准确率下降。
毛林、陆全华和程涛在其发表的论文“基于高维数据的集成逻辑回归分类算法的研究与应用”(科技通报,2013年12期)中提出一种大规模高维数据的分类方法。该方法首先对全部特征随机抽取多个特征集,并针对各个特征集构建多个逻辑回归模型。最后针对多个逻辑回归模型结果,利用集成学习方法进行最终预测。该方法存在的不足之处是:由于高维大数据集特征的冗余性和稀疏性,随机的特征抽取很难选到有用的特征的问题,导致多数基分类器性能不佳,算法准确率不理想,且直接进行集成学习使得基学习器相似性高,容易过拟合。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种适用于高维大数据集的数据分类方法,在保证高维大数据下算法收敛速度的同时尽可能的提高分类精度。
实现本发明目的的具体思路是:依据高维稀疏数据集的特点,优化传统随机森林算法的特征选择方式,提高基决策树的分类能力及整体算法的性能。
实现本发明目的的具体步骤如下:
(1)输入训练样本数据集和测试样本数据集:
(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;
(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;
(2)对训练样本集进行采样:
(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;
(2b)执行30次上述采样,得到30个采样集;
(3)计算特征权重:
(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;
(3b)计算每个特征的基尼指数的倒数:
(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;
(4)用轮盘赌法选择特征:
(4a)按照下式,计算所有采样集中每一个特征的累积权重值:
其中,q(i)表示第D个采样集中第i个特征的累积权重值,Σ表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值;
(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数;
(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值,若是,则执行步骤(4d),否则,执行步骤(4e);
(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中;
(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间,若是,则执行步骤(4g),否则,执行步骤(4f);
(4f)用当前特征的下一个特征作为当前特征,执行步骤(4e);
(4g)将当前特征放入当前采样集的特征子集中;
(4h)按照下式,计算当前采样集的特征子集的容量:
k=log2n
其中,k表示当前采样集的特征子集的容量,log2·表示以2为底的对数操作,n表示采样集的特征总数;
(4i)判断当前特征子集中的特征总数是否等于特征子集的容量,若是,执行步骤(5),否则,执行步骤(4b);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710983277.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置