[发明专利]一种适用于高维大数据集的数据分类方法在审
申请号: | 201710983277.4 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107943830A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 宋彬;张颖;张悦;郭洁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N99/00 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 高维大 数据 分类 方法 | ||
1.一种适用于高维大数据集的数据分类方法,其特征在于,包括如下步骤:
(1)输入训练样本数据集和测试样本数据集:
(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;
(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;
(2)对训练样本集进行采样:
(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;
(2b)执行30次上述采样,得到30个采样集;
(3)计算特征权重:
(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;
(3b)计算每个特征的基尼指数的倒数:
(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;
(4)用轮盘赌法选择特征:
(4a)按照下式,计算所有采样集中每一个特征的累积权重值:
其中,q(i)表示第D个采样集中第i个特征的累积权重值,∑表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值;
(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数;
(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值,若是,则执行步骤(4d),否则,执行步骤(4e);
(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中;
(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间,若是,则执行步骤(4g),否则,执行步骤(4f);
(4f)用当前特征的下一个特征作为当前特征,执行步骤(4e);
(4g)将当前特征放入当前采样集的特征子集中;
(4h)按照下式,计算当前采样集的特征子集的容量:
k=log2n
其中,k表示当前采样集的特征子集的容量,log2·表示以2为底的对数操作,n表示采样集的特征总数;
(4i)判断当前特征子集中的特征总数是否等于特征子集的容量,若是,执行步骤(5),否则,执行步骤(4b);
(5)构建基决策树:
采用主流方法CART决策树算法,构建30个与采样集及其特征子集对应的基决策树;
(6)获得随机森林模型在测试集上的分类结果:
(6a)利用集成公式,对30个基决策树进行集成,得到高维大数据集的随机森林模型公式;
(6b)将测试样本集输入到高维大数据集的随机森林模型中进行分类,得到分类结果;
(6c)输出分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710983277.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置