[发明专利]一种断路器不平衡监测数据集过采样方法有效
申请号: | 202110081933.8 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112800917B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 万书亭;陈磊;李少鹏;豆龙江 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N20/00;G01R31/327 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 071003 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 断路器 不平衡 监测 数据 采样 方法 | ||
本发明公开了一种断路器不平衡监测数据集过采样方法,包括以下内容:采集断路器不平衡监测数据,获取监测样本数据集S;根据所述监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将样本数量最多的状态类别作为多数类别,其余类别均作为少数类别;按照顺序依次对所述少数类别进行过采样,直至所有的所述少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样。
技术领域
本发明涉及机器学习技术领域,更具体的说是涉及一种断路器不平衡监测数据集过采样方法。
背景技术
近年来,基于机器学习技术的断路器智能故障诊断得到了广泛的研究与关注。该诊断方法可以根据所监测的信号自动的诊断断路器是否故障,并提前预警。该诊断方法的核心是依赖于令人满意的监测数据集来训练诊断模型,以确保高诊断性能。一个令人满意的数据集不仅意味着有足够的监测数据和较少的噪声,还意味着不同的状态类别有着相当的样本数量。
然而,在实际应用中,高压断路器在其整个寿命期的大部分时间内都处于正常运行状态,因此缺乏足够数量的故障样本数据,这就导致了监测数据的类别不平衡问题。而传统的机器学习技术往往偏向于多数类别(正常状态),以保证分类准确率,受此影响,少数类别(故障类别)的诊断结果可能较差。假设存在一个仅包含正常状态和一种故障状态的断路器监测数据集,正常状态样本数量为90,故障样本数量为10,也就是不平衡比为9:1。即使所有样本都被归为正常状态,也就是说故障样本全部被错误分类,分类准确率仍高达90%。但这是没有意义的,因为在断路器故障诊断中,应该更关注于故障的识别准确率。因此,迫切需要提高在断路器监测数据类别不平衡情况下的故障识别准确率。
在机器学习领域,数据重采样(包括过采样和欠采样)通常用于解决数据不平衡问题,即通过生成少数类别新样本或删除多数类别样本来平衡数据。一般来说,过采样比欠采样表现更好,这是由于欠采样可能会删除一些重要样本,从而导致机器学习性能的下降。SMOTE是最经典的过采样技术。它在随机选取的少数类样本与其同类近邻之间生成新样本。然而,SMOTE在生成新样本时没有考虑原始数据的分布,有增加噪声样本和无效生成的风险。虽然一些改进算法,如Borderline-SMOTE和ADASYN相继被提出,但是它们一方面存在算法容易退化为SMOTE的问题。另一方面在生成新样本时仅从少数类别与其同类近邻中生成新样本,当少数类别样本较少时,可能会导致大量的无效新样本被生成。
因此,如何提出一种效果好准确率高的断路器不平衡监测数据集过采样方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种断路器不平衡监测数据集过采样方法,用于通过新的机器学习的方法解决现有技术中断路器监测数据的类别不平衡问题的问题。
为了实现上述目的,本发明采用如下技术方案:
一种断路器不平衡监测数据集过采样方法,包括以下内容:
采集断路器不平衡监测数据,获取监测样本数据集S;
根据所述监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将数量最多的状态类别作为多数类别,其余类别均作为少数类别;
按照顺序依次对所述少数类别进行过采样,直至所有的所述少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样;
所述过采样的步骤包括:
S1.确定每一个所述少数类别需要生成的新样本数量;对于每一个所述少数类别,将当前待生成新样本的少数类别设为正类别,所有其余的类别均设为负类别;
S2.从当前正类别数据集Sp中去除噪声样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110081933.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置