[发明专利]基于连续MapReduce的分布并行PCA过程监测建模方法有效
申请号: | 201910421442.6 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110110814B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 葛志强;张鑫宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连续 mapreduce 分布 并行 pca 过程 监测 建模 方法 | ||
本发明公开了一种基于连续MapReduce的分布并行PCA过程监测建模方法,属于工业过程监测与控制领域。该方法给出了基于MapReduce的分布并行设计方案,其中包括利用三次MapReduce实现大规模数据的标准化,基于事先标记矩阵相乘所需元素的方法,通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵,最后在计算T2和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘,通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解,并行地完成运算,能够有效地提升PCA过程监测模型的建模速度。
技术领域
本发明属于工业过程监测与控制领域,涉及一种基于连续MapReduce的分布并行PCA过程监测建模方法。
背景技术
在工业生产过程中由于机器自身老化等原因或外界因素的干扰往往会出现生产故障,而故障最直观的体现即为质量变量的变化。质量变量的波动会直接影响到所生产的产品上,导致产品的质量会大幅度下降,会对工业企业造成很大的损失,因此进行工业生产过程故障监测是十分必要的。
而基于数据驱动的故障监测方法目前十分常用,由于故障发生后质量变量在数据上会发生相应的变化,如果能够基于正常的质量变量数据建立故障监测模型,并形成监测指标的控制限,即可通过观测过程数据对应的监控指标是否超限来判断过程是否发生故障。而目前使用最为普遍的基于数据驱动的故障监测模型时主元分析模型(PCA),它主要的思路是先利用数据协方差矩阵特征值分解的策略提取正常数据的主元及投影向量,再利用主元和数据的重构误差构建主元空间T2和残差空间SPE以及对应的控制限,对于待监测的样本同样计算两项指标T2和SPE,若超过控制限,则说明发生故障。
目前随着现代工业和计算机技术的不断发展,工业过程中能够积累的数据越来越多,逐渐形成了一系列的工业大数据问题,传统的基于数据驱动的过程监测模型不论在时间上还是效果上都很难在大规模数据上应用,其中便包括用于过程监测的PCA模型,有上述介绍可知PCA模型主要是先将数据标准化,再通过对数据协方差矩阵的特征值分解而获得投影向量,最后利用投影向量与每个样本相乘而获得主元的,因此在上述步骤中,数据的标准化需要先计算均值,标准差,再逐次地对每条样本进行处理,若在大量数据情况下会十分耗时;而在计算协方差矩阵时采用的是将标准化后的数据矩阵相乘的思路,同样在计算两个规模十分庞大的矩阵乘法时也会产生很大的时间开销;然而在特征值分解阶段,由于协方差矩阵的阶数是单条样本的变量数,一般变量的个数会远小于样本个数,因此该阶段的时间开销不会很大;接下来利用提取出的特征向量组成投影矩阵计算每个样本对应的T2统计量时,以及根据主元和投影矩阵计算样本重构值时,由于仍要逐条地将投影矩阵与样本进行相乘或者与每条样本的主元相乘,因此在数据量很大时计算会比较耗时。
发明内容
针对现有在大规模数据下PCA过程监测建模的不足,本发明提出了一种基于连续MapReduce的分布并行PCA过程监测建模方法,该方法针对PCA过程监测建模过程中4个连续的较为耗时的步骤,包括数据标准化,协方差矩阵计算,计算样本主元,计算样本重构值,分别提供了基于MapReduce的分布并行设计方案,由于模型主要耗时的部分均采用了分布并行思路的设计,因此在总体上能够较为明显地节省PCA在大规模数据下的建模时间。
本发明是通过以下技术方案实现的:一种基于连续MapReduce的分布并行PCA过程监测建模方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910421442.6/2.html,转载请声明来源钻瓜专利网。