[发明专利]基于Gap度量下的工业化工数据预处理的分类方法在审
申请号: | 202010813199.5 | 申请日: | 2020-08-13 |
公开(公告)号: | CN111985550A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 鲍中新;文成林;姚博 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gap 度量 工业 化工 数据 预处理 分类 方法 | ||
1.基于Gap度量下的工业化工数据预处理的分类方法,其特征在于该方法包括以下步骤:
步骤1、数据预处理:
X1步,将工业系统采集到的化工葡萄酒数据集构造成多维变量系统数据矩阵Xn;
X2步,设构造的样本数据矩阵Xn∈Rm×n如下
其中,行向量xi(j)=[x1(j) x2(j) … xm(j)]T,i=1,2,…,m,j=1,2,…,n表示不同类别的样本数据中的,列向量属于同一个类别,但是具有不同特征的数据;对数据集矩阵Xn进行均值化处理得到;
这里,lm=[1,1,…,1]T∈Rm×1,bn是Xn的各变量样本中心向量;
X3步,将数据矩阵Xn投影到黎曼球上,计算每个样本距离样本中心的Gap度量,Gap度量变换后的矩阵记为X*
其中Gap度量变换的公式如下
和表示两个实数xi(c),bn(c)在直径为1的黎曼球上的球面投影;
变换后的数据矩阵为
步骤2、PCA降维:
Y1步,利用变换后的数据矩阵X*,计算样本相关矩阵R
Y2步,求样本矩阵R的s个特征值和及其所对应的单位特征向量
求解R的特征方程
|R-λI|=0 (7)
得到R的m个特征值
λ1≥λ2≥....≥λm
求方差贡献率达到预定值的主成分个数s,
通常s的取值使得累计方差贡献率达到规定的百分比以上;
Y3步,求前s个特征值对应的单位特征向量
ai=(a1i,a2i,...ami)T,i=1,2,...,s (9)
Y4步,求s个样本的主成分,以s个单位特征向量为系数进行线性变换,求出s个样本的主成分
Y5步,计算第s个主成分ys与原变量xi的相关系数ρ(ys,xi),以及s个主成分yi对应对原变量xi的贡献率μi;其中计算公式如下:
其中σii是随机变量xi的方差,是协方差矩阵上面的对角元素;
Y6步,计算n个样本的s个主成分值
将样本数据代入(10)可以得到n个样本的主成分值,第j个样本xj=(x1j,x2j,...,xmj)T的第i主成分的值是
步骤3、KNN分类:
Z1步,将进行PCA降维后的数据划分为训练样本集和测试样本集,在训练样本集中找到k-近邻,计算测试样本每一个样本x(k)k=1,2...,n;与训练样本之间的欧氏距离,并找到距离他最近的k个样本
di,j=||x(i)-x(j)||2,i≠j (13)
x(i)和x(j)分别表示两个样本,i,j=1,2...,n;
Z2步,统计计算k个近邻中属于各类的概率
以上k表示k个近邻,kα表示k个近邻中属于α类的样本个数,α=1,2,...,c,其中c为样本中类别的个数;
Z3步,计算类别,对于一个新的样本x(k),根据上式计算其k个近邻并计算p(α),将p(α)从大到小进行排序,pmax(α)所属的类就是测试样本中的类;
Z4步,首先对测试样本集中每个集合赋予已知的类别,然后根据KNN算法求解出预测的类别,最后统计分类准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010813199.5/1.html,转载请声明来源钻瓜专利网。