[发明专利]高维数据的分类算法在审

专利信息
申请号: 201610218204.1 申请日: 2016-04-08
公开(公告)号: CN107273909A 公开(公告)日: 2017-10-20
发明(设计)人: 李臻 申请(专利权)人: 上海市玻森数据科技有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 上海申新律师事务所31272 代理人: 夏海天
地址: 上海市宝山区月罗*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出高维数据的分类算法本发明提供了高维数据的分类算法包含有随机森林算法、Fores Texter算法、GW‑SRF算法,层次树中每个节点都能进行学习和多类标预测,父节点学习的预测类标可以传递和继承给子节点,节点间的类标传递模式能够有效地对多类标数据进行分类,并且自动发现类标之间的关系。在多类标数据上的实验结果表明ML‑Tree算法的分类结果明显优于传统算法,设计新颖,是一项很好的设计方案,很有市场推广前景,而且感观性能优。
搜索关键词: 数据 分类 算法
【主权项】:
高维数据的分类算法:其特征在于:本发明提供了高维数据的分类算法:包含有随机森林算法、Fores Texter算法、GW‑SRF算法;随机森林是一种决策树集成学习模型,随机森林的算法流程可以描述如下:1).首先用Bagging抽样方法对训练数据集X进行可放回的采样(Sample withreplacement),得到K个数据子集{X1,X2,...,XK};2).对于每一个训练数据子集Xk,使用CART[91]方法构建一个决策树,对于决策树的每个节点,随机从属性空间S中选择p个属性(p≤N)作为一组属性子集(属性子空间),然后根据这p个属性,计算其所有的分裂点的Gini值,其中,最好的分裂点(即最大的Gini准则)将选取作为决策树节点的分裂点,该分裂过程一直迭代直到能够满足停止条件:即所有训练样本都属于同一个类别,或者所有属性都是相同的值,或者训练数据集包含的样本数已经少于设定的阀值nmin;3).随机森林中的K个决策树h1(X1),h1(X1),h1(X1),h1(X1)都按不剪枝的方式构建,随机森林的分类输出类别由K个决策树集成在一起输出的类别的众数而定;在理论分析方面,Breiman提出了随机森林的误差界,该误差界是由多样性Correlation(ρ)和强度Strength(s)两个因素决定的,假设X代表训练数据集Y代表学习类标,随机森林的树的数目为K,基于从训练集X抽样得到的Xk构建的第k个决策树为hx(Xk),给定xi∈X,xi关于类别j的out‑of‑bag值为Q(xi,j)=Σk=1KI(hx(xi)=j;x∉Xk)Σk=1KI(x∉Xk)]]>其中I(·)是指示函数,Q(xi,j)代表的是没有包含样本xi的决策树中将xi划分为类标j的比例,根据Q(xi,j),随机森林的强度可以定义如下:s=1nΣi=1n(Q(xi,yi)-maxj≠yiQ(xi,j))]]>其中n代表样本数,yi代表xi的真实类标,随机森林的相关性可以定义如下:其中以及这里,代表除了正确的类别外得到最多票数的类别,根据随机森林的强度s以及相关度ρ,可以估计其out‑of‑bag误差界c/s2,计算公式为c/s2=ρ/s2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市玻森数据科技有限公司,未经上海市玻森数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610218204.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top