[发明专利]一种基于PCA-DBN的热连轧数据特征提取方法在审
申请号: | 201911166983.5 | 申请日: | 2019-11-25 |
公开(公告)号: | CN111178368A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 武凯;杨光浩;张湧;宋敏;宋向荣;朱玲;刘新忠 | 申请(专利权)人: | 北京金自天正智能控制股份有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100070 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pca dbn 热连轧 数据 特征 提取 方法 | ||
本发明公开了一种基于PCA‑DBN的热连轧数据特征提取方法,属于轧钢自动化控制技术领域。首先将热连轧生产过程中产生的大量数据作为原始数据集,采用最小‑最大归一化方法将原始数据进行线性变换处理,得到规范化数据集SO。然后通过主成分分析PCA技术对规范化数据集SO进行特征降维,得到特征子集F1;对特征子集F1中的数据采用KMO检验法进行相关性检验;若KMO检验结果大于0.7,则采用深度置信DBN网络对特征子集F1进行二次特征提取,得到特征数据集F2。本发明提高了运算效率和结果的准确性。
技术领域
本发明涉及一种基于PCA(Principal Component Analysis,主成分分析)-DBN(Deep Belief Network,深度置信网络)的热连轧数据特征提取方法,属于轧钢自动化控制技术领域。
背景技术
在热连轧生产过程中,会产生大量的数据,数据日积累量甚至达到TB级,这些数据中蕴涵着大量宝贵的信息,犹如有价的“矿床”有待挖掘。但是,对这些海量数据进行诊断和预报非常困难,运算时间较长,甚至会导致“维度灾难”。
因此,需要海量数据进行特征提取,去除冗余和不相关的特征。通过有效地管理这些数据并分析提取其价值,实现巨大的经济和社会价值。
在利用数据对生产过程进行诊断和预报时,通常存在大量特征变量可用于对所选特征(输出)建模的输入特征。但是,其中很大一部分输入特征变量对输出没有影响。另外,在建模时考虑太多变量的缺点是模型中有太多的自由参数,这些与分析问题无关的数据导致不能建立一个好的模型。为了提高运算效率和输出结果的准确性,需要找到与输出特征相关性比较大的特征变量。因此需要通过特征提取来筛选对分析问题有用的特征变量。
发明内容
为了解决上述问题,本发明提出一种基于PCA-DBN的热连轧数据特征提取方法,能快速的对海量数据进行筛选,节约人力物力和时间,提高了运算效率和结果的准确性。
所述的基于PCA-DBN的热连轧数据特征提取方法,包括以下几个步骤:
步骤一、将热连轧生产过程中产生的大量数据作为原始数据集;
原始数据集中包括若干特征;每个特征包括若干样本;
步骤二、采用最小-最大归一化方法将原始数据进行线性变换处理,得到规范化数据集SO。
针对特征A中的每个样本x,通过最小-最大标准化映射成在区间(0,1)中的值x′,公式为:
Amin表示特征A的所有样本中的最小样本值;Amax表示特征A的所有样本中的最大样本值。
将每个特征中的所有样本进行标准化映射后的数据集合,组合成规范化数据集SO。
步骤三、通过主成分分析PCA技术对规范化数据集SO进行特征降维,得到特征子集F1;
特征子集F1的元素为规范化数据集SO中对方差贡献最大的数据;
步骤四、对特征子集F1中的数据采用KMO(Kaiser-Meyer-Olkin)检验法进行相关性检验;并判断KMO检验结果是否大于0.7,如果是,进入步骤五,否则,特征子集F1中的数据不合格,结束算法。
步骤五、采用深度置信DBN网络对特征子集F1进行二次特征提取,得到特征数据集F2,作为最终的提取特征。
具体过程如下:
首先对特征子集F1进行数据分组,组成训练集和测试集;
然后,搭建DBN网络,并利用训练集进行训练,利用测试集进行测试;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金自天正智能控制股份有限公司,未经北京金自天正智能控制股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911166983.5/2.html,转载请声明来源钻瓜专利网。