[发明专利]一种适用于高维大数据集的数据分类方法在审

专利信息
申请号: 201710983277.4 申请日: 2017-10-20
公开(公告)号: CN107943830A 公开(公告)日: 2018-04-20
发明(设计)人: 宋彬;张颖;张悦;郭洁 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06N99/00
代理公司: 陕西电子工业专利中心61205 代理人: 田文英,王品华
地址: 710071 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种适用于高维大数据集的数据分类方法,本发明主要解决现有方法在处理高维大数据集时很难选取有效特征,因而收敛速度慢且准确率低的问题。其实现步骤是1、输入训练样本数据集和测试样本数据集;2、对训练样本集进行采样;3、计算特征权重;4、用轮盘赌法选择特征;5、构建基决策树;6、获得随机森林模型在测试集上的分类结果。本发明将轮盘赌法应用于特征选择,在保证特征随机扰动的同时,使有用特征被抽取的概率更大,可应用于高维大数据集的分类。
搜索关键词: 一种 适用于 高维大 数据 分类 方法
【主权项】:
一种适用于高维大数据集的数据分类方法,其特征在于,包括如下步骤:(1)输入训练样本数据集和测试样本数据集:(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;(2)对训练样本集进行采样:(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;(2b)执行30次上述采样,得到30个采样集;(3)计算特征权重:(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;(3b)计算每个特征的基尼指数的倒数:(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;(4)用轮盘赌法选择特征:(4a)按照下式,计算所有采样集中每一个特征的累积权重值:q(i)=Σj=1iW(D,j)]]>其中,q(i)表示第D个采样集中第i个特征的累积权重值,∑表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值;(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数;(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值,若是,则执行步骤(4d),否则,执行步骤(4e);(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中;(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间,若是,则执行步骤(4g),否则,执行步骤(4f);(4f)用当前特征的下一个特征作为当前特征,执行步骤(4e);(4g)将当前特征放入当前采样集的特征子集中;(4h)按照下式,计算当前采样集的特征子集的容量:k=log2n其中,k表示当前采样集的特征子集的容量,log2·表示以2为底的对数操作,n表示采样集的特征总数;(4i)判断当前特征子集中的特征总数是否等于特征子集的容量,若是,执行步骤(5),否则,执行步骤(4b);(5)构建基决策树:采用主流方法CART决策树算法,构建30个与采样集及其特征子集对应的基决策树;(6)获得随机森林模型在测试集上的分类结果:(6a)利用集成公式,对30个基决策树进行集成,得到高维大数据集的随机森林模型公式;(6b)将测试样本集输入到高维大数据集的随机森林模型中进行分类,得到分类结果;(6c)输出分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710983277.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top