[发明专利]一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法有效
申请号: | 201710849226.2 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107728476B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 葛志强;陈革成 | 申请(专利权)人: | 浙江大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法,该方法先从有标签样本取出一部分作为测试样本,剩余作为训练样本,采用k‑means将正常工况类别分割为子类,并与故障工况类别数据混合,形成N个训练子集,并使用SVM‑tree的方法训练出SVM‑forest,并利用测试样本对对SVM‑forest进行测试,选择对故障工况错分率最高的L棵树,保留一部分对分类效果影响较大的数据,然后根据选择分类算法对测试集中的少数类和剩下的多数类训练出一个分类器T,并使用临时测试样本测试T的分类效果,直到效果达到要求。本发明的敏感数据提取方法通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。 | ||
搜索关键词: | 一种 基于 svm forest 平衡 数据 提取 敏感数据 方法 | ||
【主权项】:
一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即步骤二:使用k‑means聚类方法,将正常工况类别X1分为N个子集,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;步骤三:对步骤二中的N个训练子集分别使用SVM‑tree方法,得到包含N棵SVM‑tree的SVM‑forest;步骤四:使用临时测试样本集Q对步骤三中的每棵SVM‑tree进行测试,计算出每棵SVM‑tree对于所有故障工况类别的错分率;步骤五:对每种故障工况类别的所有的SVM‑tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集步骤六:选取一个分类算法对新形成的训练样本集进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710849226.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种电缆三维模型审查系统及方法
- 下一篇:一种含有BGA芯片的单板设计方法