[发明专利]基于Gap度量下的工业化工数据预处理的分类方法在审

申请号：	202010813199.5	申请日：	2020-08-13
公开（公告）号：	CN111985550A	公开（公告）日：	2020-11-24
发明（设计）人：	鲍中新;文成林;姚博	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 gap 度量工业化工数据预处理分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Gap度量下的工业化工数据预处理的分类方法。本发明的核心思想是将从工业化工系统采集到的Wine数据集构造成多维变量系统矩阵。然后通过Gap度量算法投影到黎曼球上，计算每个样本距离样本中心的Gap度量。变换后的数据矩阵再利用主成分分析(PCA)进行特征提取与降维，之后再运用机器学习中K近邻算法对降维后的数据进行分类。通过运用上述所提出方法进行仿真实现，具有较好的数据分类效果和分类准确率，从而验证了本发明的有效性。

技术领域

本发明属于工业化工领域，具体涉及一种基于Gap度量下的工业化工数据预处理的分类方法

背景技术

近些年，随着信息物理系统技术和人工智能技术的快速发展，复杂的现代工业化工系统采集到的数据复杂度和精度也越来越高，从复杂系统中采集到的数据变量的相关性也越来越高，样本特征的维数和种类也越来越大，因此带来了维数“灾难”，因此在如何最大提取这些数据中的重要信息和将这些数据按照类别进行分类就显得愈来愈重要。

在工业化工系统采集到的系统变量数据中，因为系统中各个变量的量纲并不相同，所以我们需要对原先数据进行标准化来消除量纲的的影响。在数据预处理过程中因为传统的标准化方法会忽视量纲对系统变量多样性的影响，几何角度成为均匀分布等问题。这就加大了数据压缩和特征提取的难度。较难提取信息量大的主元，所以对导致对数据分类的效果不太好。因此保持采集到的工业化工数据相关性和最大特征性是预处理方法的关键。

发明内容

为了针对传统数据预处理技术中的缺点和不足，本发明的目的是在Gap度量下数据预处理能保持采集到的数据变量的相关性。该分类方法针对工业化工系统采集到的复杂高维度数据预处理，可提高分类准确率。

为了达到上述目的，本发明通过以下的技术方案实现：基于Gap度量下的工业化工数据预处理的分类方法，其核心技术方法包括四个阶段：数据预处理阶段，PCA降维阶段，KNN分类阶段，仿真测试阶段。

其中，所述预处理阶段包括如下的步骤：

X1步，将工业系统采集到的化工葡萄酒数据集构造成多维变量系统数据矩阵X_n；

X2步，设构造的样本数据矩阵X_n∈R^m×n如下

其中，行向量x_i(j)＝[x₁(j) x₂(j) … x_m(j)]^T,i＝1,2,…,m,j＝1,2,…,n表示不同类别的样本数据中的，列向量属于同一个类别，但是具有不同特征的数据。对数据集矩阵X_n进行均值化处理得到。

这里，l_m＝[1,1,…,1]^T∈R^m×1，b_n是X_n的各变量样本中心向量。

X3步，将数据矩阵X_n投影到黎曼球上，计算每个样本距离样本中心的Gap度量，Gap度量变换后的矩阵记为X^*

其中Gap度量变换的公式如下

和表示两个实数x_i(c),b_n(c)在直径为1的黎曼球上的球面投影。

变换后的数据矩阵为