[发明专利]一种基于VFDT-Boosting-3WD的数据分类方法在审
申请号: | 201910891816.0 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110598798A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 胡燕祝;王松 | 申请(专利权)人: | 胡燕祝 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/28;G06F16/2458;G06N20/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类结果 基础分类 数据集 算法 机器学习领域 分类准确率 风险决策 工作基础 集成学习 局部节点 全局节点 数据分类 数据挖掘 初始化 簇结构 多节点 权重和 样本集 组分类 权重 协同 挖掘 分析 | ||
本发明涉及基于VFDT‑Boosting‑3WD的数据分类方法,属于数据挖掘与机器学习领域,其特征在于采用如下步骤:(1)确定数据集;(2)确定数据集的微簇结构;(3)确定算样本集初始化权重和第一个基础分类器;(4)依次建立第t个基础分类器,并改变对应权重;(5)确定组分类器模型;(6)确定最小风险决策规则。本发明将VFDT算法与Boosting算法与3WD结合的方式,利用VFDT算法中建立在多节点、多步骤协同工作基础上,在局部节点采用微簇挖掘技术,在全局节点利用集成学习方法,然后输入到Boosting框架中,提高了分类准确率,将最终分类结果结合3WD理论,使得分类结果更加具有分析和处理的价值。
技术领域
本发明涉及机器学习与数据挖掘领域,主要是一种对数据进行分类的方法。
背景技术
目前针对数据分类问题,已有众多经典算法可以实现平衡数据的良好分类效果,但是精度提升的同时,模型时间消耗相对较长。而有的模型精简了算法模型的复杂度,但是其分类结果的准确率较低,效果不佳。经典的机器学习分类任务在研究学习中,对数据的要求较高,因此必须对原始数据加以处理,提高数据质量以便于分析。然而,随着数据库系统的普及和因特网服务的扩张,企业或者个人可用的数据正在膨胀,已有的技术很难满足大数据时代的数据分析需求,因此需要探索新数据分类方法来支撑大数据的应用。数据的分类问题是一个多步骤协作工作的系统,既有节点级的局部分析处理,又有全局性的模式发现,而且不同的阶段所要解决问题的侧重点。因此,如何能够快速并准确的对数据进行分类是目前较为难以解决的问题,需采用合适的方法,完成多步骤协的数据分类问题。
在常用的数据分类的方法中,VFDT算法多使用在数据稳态分布的情况,并不能完全适应所有类型的数据分类。Boosting算法把多个较弱的分类器结合起来,其结果优于一个强的分类器,且自带了特征选择,降低了分类时需要计算的特征数量,也在一定程度上解决了高维数据难以理解的问题,然而它对异常值比较敏感,这可能会影响分类的准确率。而3WD的决策准确率受前端分类器准确率的影响较大,在数据分类问题中,与一个性能较好的分类器结合,可以达到较好的分类效果。因此,将三种方法结合,利用VFDT 和Boosting结合解决了多种类型数据特征的提取和异常值问题,最后采用3WD方法判断,为预测结果增加可信度的判据,使得预测结果更加具有分析和处理的价值,提高了分类的准确率。三种方法优势互补,降低失误率,满足了数据分类对数据质量和分类精确度的要求。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种精确、高效的数据分类方法,其具体流程及算法如图1和图2所示。
技术方案实施步骤如下:
(1)确定数据集T:
T={x1,x2,…,xn}
其中,x为数据特征,m表示数据维度。
(2)确定数据集的微簇结构M:
M=<n,c,s,d,f>
其中,n为样本个数,c表示数据的中心点,s为数据平方和统计,d表示方差统计值,f表示数据的类标识。
(3)确定算样本集初始化权重和第一个基础分类器h1(x):
式中,n为样本个数,为初始化权重。
(4)依次建立第t个基础分类器,并改变对应权重:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡燕祝,未经胡燕祝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910891816.0/2.html,转载请声明来源钻瓜专利网。