[发明专利]基于平衡二叉树集成剪枝策略的压缩机故障分类方法有效
申请号: | 202010458446.4 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111626418B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 邓晓衡;蔚永;黑聪;刘梦杰 | 申请(专利权)人: | 中南大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N20/20 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 王丹 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 平衡 二叉 集成 剪枝 策略 压缩机 故障 分类 方法 | ||
本发明提供了一种基于平衡二叉树的集成剪枝策略,所述方法包括如下步骤:S1、基分类器集成池初始化:对大数据集进行切分形成众多子数据集,再针对每一个子数据集进行训练和测试工作,形成初始的完整分类器池;S2、构建平衡二叉树,形成最终的子集成;S3、使用保留下来的最佳子集成进行新数据样本的预测与分类。本发明解决了易产生拟合现象,难以剔除测试精度太高或太低的基分类器,泛化性能不高的技术问题。
技术领域
本发明涉及集成学习技术领域,特别涉及一种基于平衡二叉树集成剪枝策略的压缩机故障分类方法。
背景技术
集成学习解决了单分类器在海量数据训练和学习过程中所面临的诸多问题,但是由于集成学习由多个单分类器组成集成池完成预测或分类任务,所以对计算机硬件资源提出来较高的要求,解决这一问题的常见方式是使用集成剪枝策略思想在保证集成学习最终预测或分类精度不降低甚至提高的情况下,尽可能的缩小所使用的单分类器个数。
目前流行的集成剪枝策略有基于聚类算法的集成剪枝策略,该方法是通过将集成池中各基分类器的测试精度作为数据点完成聚类任务,然后选择最多数据点的组成的对应的基分类器组成的子集合作为最终集成完成任务;基于优化问题的集成剪枝策略,主要是将集成池中各个基分类器的测试结果作为一个优化问题去寻找最佳子集成,基于强化学习的集成剪枝策略主要是通过强化算法一次又一次的试探性寻找最佳子集成,基于顺序的集成剪枝策略主要是通过对各个基分类器的精度进行排序得到最佳子集成。
传统的基于顺序的集成剪枝可能会造成过拟合现象的产生,本文针对这一策略进行了改进,利用平衡二叉树的特性完成对集成池中部分测试精度太高或者测试精度太低的基分类器的剔除工作,最终保留泛化性能较好的部分基分类器作为最终子集成。
发明内容
本发明提供了一种基于平衡二叉树集成剪枝策略的压缩机故障分类方法,其目的是为了解决背景技术中易产生拟合现象,难以剔除测试精度太高或太低的基分类器,泛化性能不高的问题。
为了达到上述目的,本发明的实施例提供的基于平衡二叉树集成剪枝策略的压缩机故障分类方法,其特征在于,包括如下步骤:
S1、基分类器集成池初始化:对大数据集进行切分形成众多子数据集,再针对每一个子数据集进行训练和测试工作,形成初始的完整分类器池;
S2、构建平衡二叉树,形成最终的子集成:根据基分类器池中的基分类器的精度构建一个平衡二叉树,这个平衡二叉树上的各个节点即表示的是集成池中各基分类器的训练精度,通过设置边界剪枝函数,剔除平衡二叉树的左下枝和右下枝的部分叶子节点,保留中间主干部分节点形成最终的子集成;
S3、使用保留下来的最佳子集成进行新数据样本的预测与分类。
其中,所述S1中,使用人工神经网络ANN作为基分类器完成训练和测试工作,并得到初始基分类器池和各基分类器的训练精度。
其中,所述S2中,根节点表示的基分类器的精度在整个集成池中的基分类器精度中排在中间位置,左下枝的各个叶子节点所代表的基分类器在集成池中各基分类器精度排序中处于末尾位置,右下肢的各叶子节点表示的基分类器精度在集成池中的精度排序中处于前列位置。
其中,所述S2中,统计根节点左、右枝叶子节点数,设定剪枝阙值,根据剪枝阙值进行节点剔除。
其中,分别以平衡二叉树的左枝和右枝的节点的平均值作为左剪枝阈值和右剪枝阈值,左枝剪枝阈值和右枝剪枝阈值分别如下:
其中,所述S1中,所述大数据包括正常情况下的数据集及异常情况下的数据集。
其中,所述正常情况下的数据集与所述异常情况下的数据集的数量比范围为100:1-1000:1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010458446.4/2.html,转载请声明来源钻瓜专利网。