[发明专利]一种适用于高维大数据集的数据分类方法在审

申请号：	201710983277.4	申请日：	2017-10-20
公开（公告）号：	CN107943830A	公开（公告）日：	2018-04-20
发明（设计）人：	宋彬;张颖;张悦;郭洁	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N99/00
代理公司：	陕西电子工业专利中心61205	代理人：	田文英,王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于高维大数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种适用于高维大数据集的数据分类方法，其特征在于，包括如下步骤：

(1)输入训练样本数据集和测试样本数据集：

(1a)输入一个包含两种及以上类别的高维大数据集，作为训练样本数据集；

(1b)输入一个包含两种及以上类别的，与训练样本数据集特征相同的待分类的高维大数据集，作为测试样本数据集；

(2)对训练样本集进行采样：

(2a)采用自助采样法，从训练样本数据集中抽取与训练集样本数量相等的样本，作为抽样样本，放入一个采样集中；

(2b)执行30次上述采样，得到30个采样集；

(3)计算特征权重：

(3a)利用基尼指数计算公式，分别计算每个采样集对应的特征集中所有特征的基尼指数；

(3b)计算每个特征的基尼指数的倒数：

(3c)对每个特征的基尼指数的倒数进行归一化处理，得到各特征的权重值；

(4)用轮盘赌法选择特征：

(4a)按照下式，计算所有采样集中每一个特征的累积权重值：

q(i)=Σj=1iW(D,j)]]>

其中，q(i)表示第D个采样集中第i个特征的累积权重值，∑表示求和操作，W(D,j)表示第D个采样集中第j个特征的权重值；

(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数；

(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值，若是，则执行步骤(4d)，否则，执行步骤(4e)；

(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中；

(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间，若是，则执行步骤(4g)，否则，执行步骤(4f)；

(4f)用当前特征的下一个特征作为当前特征，执行步骤(4e)；

(4g)将当前特征放入当前采样集的特征子集中；

(4h)按照下式，计算当前采样集的特征子集的容量：

k＝log₂n

其中，k表示当前采样集的特征子集的容量，log₂·表示以2为底的对数操作，n表示采样集的特征总数；

(4i)判断当前特征子集中的特征总数是否等于特征子集的容量，若是，执行步骤(5)，否则，执行步骤(4b)；

(5)构建基决策树：

采用主流方法CART决策树算法，构建30个与采样集及其特征子集对应的基决策树；

(6)获得随机森林模型在测试集上的分类结果：

(6a)利用集成公式，对30个基决策树进行集成，得到高维大数据集的随机森林模型公式；

(6b)将测试样本集输入到高维大数据集的随机森林模型中进行分类，得到分类结果；

(6c)输出分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710983277.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载