[发明专利]高维数据的分类算法在审
申请号: | 201610218204.1 | 申请日: | 2016-04-08 |
公开(公告)号: | CN107273909A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 李臻 | 申请(专利权)人: | 上海市玻森数据科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海申新律师事务所31272 | 代理人: | 夏海天 |
地址: | 上海市宝山区月罗*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出高维数据的分类算法本发明提供了高维数据的分类算法包含有随机森林算法、Fores Texter算法、GW‑SRF算法,层次树中每个节点都能进行学习和多类标预测,父节点学习的预测类标可以传递和继承给子节点,节点间的类标传递模式能够有效地对多类标数据进行分类,并且自动发现类标之间的关系。在多类标数据上的实验结果表明ML‑Tree算法的分类结果明显优于传统算法,设计新颖,是一项很好的设计方案,很有市场推广前景,而且感观性能优。 | ||
搜索关键词: | 数据 分类 算法 | ||
【主权项】:
高维数据的分类算法:其特征在于:本发明提供了高维数据的分类算法:包含有随机森林算法、Fores Texter算法、GW‑SRF算法;随机森林是一种决策树集成学习模型,随机森林的算法流程可以描述如下:1).首先用Bagging抽样方法对训练数据集X进行可放回的采样(Sample withreplacement),得到K个数据子集{X1,X2,...,XK};2).对于每一个训练数据子集Xk,使用CART[91]方法构建一个决策树,对于决策树的每个节点,随机从属性空间S中选择p个属性(p≤N)作为一组属性子集(属性子空间),然后根据这p个属性,计算其所有的分裂点的Gini值,其中,最好的分裂点(即最大的Gini准则)将选取作为决策树节点的分裂点,该分裂过程一直迭代直到能够满足停止条件:即所有训练样本都属于同一个类别,或者所有属性都是相同的值,或者训练数据集包含的样本数已经少于设定的阀值nmin;3).随机森林中的K个决策树h1(X1),h1(X1),h1(X1),h1(X1)都按不剪枝的方式构建,随机森林的分类输出类别由K个决策树集成在一起输出的类别的众数而定;在理论分析方面,Breiman提出了随机森林的误差界,该误差界是由多样性Correlation(ρ)和强度Strength(s)两个因素决定的,假设X代表训练数据集Y代表学习类标,随机森林的树的数目为K,基于从训练集X抽样得到的Xk构建的第k个决策树为hx(Xk),给定xi∈X,xi关于类别j的out‑of‑bag值为Q(xi,j)=Σk=1KI(hx(xi)=j;x∉Xk)Σk=1KI(x∉Xk)]]>其中I(·)是指示函数,Q(xi,j)代表的是没有包含样本xi的决策树中将xi划分为类标j的比例,根据Q(xi,j),随机森林的强度可以定义如下:s=1nΣi=1n(Q(xi,yi)-maxj≠yiQ(xi,j))]]>其中n代表样本数,yi代表xi的真实类标,随机森林的相关性可以定义如下:其中以及这里,代表除了正确的类别外得到最多票数的类别,根据随机森林的强度s以及相关度ρ,可以估计其out‑of‑bag误差界c/s2,计算公式为c/s2=ρ/s2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市玻森数据科技有限公司,未经上海市玻森数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610218204.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置