[发明专利]一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法有效

申请号：	201710849226.2	申请日：	2017-09-20
公开（公告）号：	CN107728476B	公开（公告）日：	2020-05-22
发明（设计）人：	葛志强;陈革成	申请（专利权）人：	浙江大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 svm forest 平衡数据提取敏感数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法，其特征在于，包括以下步骤：

步骤一：收集建模用的有标签样本，对其进行预处理和归一化，所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据，分为C个故障工况类别和1个正常工况类别，按类别取出10％～20％的样本作为临时测试样本集Q，剩余的80％～90％作为训练样本集，即X_l＝[X₁；X₂；...；X_i；...；X_C+1]，其中，X_i表示每个类别的样本集X_i＝[x₁；x₂；...；x_ni],i＝1,2...C+1，其中X_i∈R^m×ni，n_i为训练样本数，m为过程变量数，R为实数集；记录所述的有标签训练样本集X_l＝[X₁；X₂；...；X_C+1]的所有数据的标签信息，标记正常工况标签为1，故障工况标签依次为2,...,C+1，则每个类别的标签信息为

Y_i＝[i,i,...i],i＝1,2,...,C+1，完整的标签集为Y_l＝[Y₁；Y₂；...；Y_C+1]；其中，正常工况类别n₁的数据多于故障工况类别的数据，每个故障工况类别的数据量相等，各个工况数据量的差别用不平衡度为u表征，即

步骤二：使用k-means聚类方法，将正常工况类别X₁分为N个子集，N取10～20，X₁＝[X₁₁；X₁₂；...；X_1N]，将这N个子集分别与故障工况类别数据组成N个训练子集，其中，N的取值为考虑不平衡度和计算复杂度的经验值；

(1)随机选取N个样本值作为初始均值向量即令每个向量x_Na＝[q_a1,...,q_am]，其中a＝1,2,...,N；

(2)分别按下式计算每个样本与N个均值向量的欧式距离，第j个样本与第a个均值向量之间的欧氏距离为

其中j＝1,2,...,n₁；将d_ja最小的样本x_j的簇标记记为a；

(3)重新计算每个簇的均值向量，并对这N个均值向量重复步骤(1)和(2)；直到均值向量不再变化，得出N个簇，即N个子类X₁＝[X₁₁；X₁₂；...；X_1N]；再将其分别与故障工况类[X₂；...；X_C+1]构成N个训练子集r_a，r_a＝[X_1a；X₂；...；X_C+1]，其中a＝1,2,...,N；

步骤三：对步骤二中的N个训练子集分别使用SVM-tree方法，得到包含N棵SVM-tree的SVM-forest；

(1)对于训练子集r₁＝[X₁₁；X₂；...；X_C+1]，通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点，得到与类别对应的中心点集为O＝[o₁,o₂,...,o_C+1]；

(2)将训练样本集进行拆分：使用k-means聚类方法，将中心点集O分为2个子集O₁,O₂，则，分别属于O₁,O₂包含的中心点所对应的类别的训练样本子集为D₁,D₂；

(3)构建树的根节点：使用SVM在D₁,D₂之间构建超平面，则树的两个分支为D₁,D₂；

(4)分别对D₁,D₂对应的节点重复(2)和(3)的操作，再对D₁,D₂分别得到的分支对应的节点重复(2)和(3)的操作，以此类推，直到每一个叶节点都只包含一个类别停止，完成SVM-tree的构建；

对其他的训练子集r_a，重复(1)～(4)，构建出包含N棵树的SVM-forest；

步骤四：使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试，计算出每棵SVM-tree对于所有故障工况类别的错分率；

将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中，得到该测试样本的标签，并计算每棵树对于各个故障工况类别的错分率；

步骤五：对每种故障工况类别的所有的SVM-tree的错分率进行排序，并按照故障类别分别选取前棵树，取整，L取值为取整；若取出的树有重复，则按照错分率顺延再往后取树，直到得到L棵不同的树，并保留这些树所对应的正常工况类别的训练样本，形成一个新的正常工况类别训练样本集

(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序；

(2)按照故障工况类别分别选取前棵树，取整，若取出的树有重复，则按照错分率顺延再往后取树，直到得到L棵不同的树；

(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集并与故障工况类别训练样本集重新构成一个新的训练样本集

步骤六：选取SVM-tree分类算法对新形成的训练样本集进行训练，得到一个分类器，并用临时测试集Q对得到的分类器进行测试，得到正确率P；

选取一个分类算法，用训练出一个分类器，并使用临时测试样本集Q测试该分类器的分类效果，如果达到要求，则停止计算，如果还未达到要求，则重复上述算法，直到P接近或者达到要求；

步骤七：当P达到要求时停止计算，如果P还未达到要求，则重复步骤二至六，直到P达到要求，则此时的训练样本集为所需要的敏感数据集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710849226.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法有效

专利文献下载