[发明专利]基于连续MapReduce的分布并行PCA过程监测建模方法有效

专利信息
申请号: 201910421442.6 申请日: 2019-05-21
公开(公告)号: CN110110814B 公开(公告)日: 2021-05-04
发明(设计)人: 葛志强;张鑫宇 申请(专利权)人: 浙江大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于连续MapReduce的分布并行PCA过程监测建模方法,属于工业过程监测与控制领域。该方法给出了基于MapReduce的分布并行设计方案,其中包括利用三次MapReduce实现大规模数据的标准化,基于事先标记矩阵相乘所需元素的方法,通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵,最后在计算T2和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘,通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解,并行地完成运算,能够有效地提升PCA过程监测模型的建模速度。
搜索关键词: 基于 连续 mapreduce 分布 并行 pca 过程 监测 建模 方法
【主权项】:
1.一种基于连续MapReduce的分布并行PCA过程监测建模方法,其特征在于,所述分布并行PCA过程监测建模方法包括以下步骤:(1)收集历史工业过程中正常数据样本集和故障数据样本集,正常数据样本集中共有n个样本,每个样本具有m个过程变量,正常数据样本集表示为S_normal(x)={xi|i=1,2,…,n},其中xi为变量,共有m个列,xi∈R1×m;并用S_normal(xi)表示正常样本集中第i个样本,故障数据样本集与正常数据样本集具有相同的形式,表示为S_fault(x)={xi|i=1,2,…,nt},nt为故障数据样本集中的样本个数。(2)基于MapReduce框架将步骤(1)中的得到的正常数据样本集和故障数据样本集进行分布式标准化,具体过程为:(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中,分布存储的块数为K。(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(xi)>,在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,得到样本各个变量的均值向量μ∈R1×m;(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果平方,再将平方后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)‑μ)2>,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,得到样本各个变量的标准差向量σ∈R1×m;(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差向量,再将计算后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)‑μ)/σ>,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的正常数据样本集S_std_normal;(2.5)利用正常数据样本集的均值和标准差求得(S_fault(xi)‑μ)/σ,形成的标准化后的故障数据样本集为S_std_fault;(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X(n×m),并利用MapReduce计算协方差矩阵值rij,具体过程为:(3.1)将矩阵X(n×m)和矩阵XT(m×n)存储在分布式文件系统中,每个矩阵分布存储的块数为K。(3.2)在Map阶段,将矩阵XT(m×n)中的每个元素值bij的key值标记为[i,k](k=1,…,m),而value值,按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,bij],所形成的键值对为<[i,k],[b:j,bij]>;(3.3)在相同的Map阶段,再将矩阵X(n×m)中的每个元素值aij的key值标记为[k,j](k=1,…,m),而value值按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,aij],所形成的键值对为<[k,j],[a:i,aij]>;(3.4)在Reduce阶段,Reducer将具有相同key值的元素值aij和bij聚集在一起,对于key值为[i,j]的所有键值对,将具有不同矩阵标记mt而具有相同位置标记lt的元素值相乘,再将不同位置标记lt的乘积结果相加即为协方差矩阵值rij(4)计算协方差矩阵R(m×m)的特征值和特征向量:(5)利用方差贡献率η选择主元个数k,其中η为0.85,并确定主元对应特征值构成的对角矩阵Λ(6)将特征值从大至小排序,并选择前k个特征值对应的特征向量组成投影矩阵P:(7)基于MapReduce框架计算每个样本的T2统计量,T2i=xi‑1PTxiT,具体过程为:(7.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;(7.2)在Map阶段将在不同数据块中的每个样本xi并行地按照上式与投影矩阵P和对角矩阵Λ相乘,再将计算后的值的key标注为1,从而可形成键值对<1,xi‑1PTxiT>;(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的T2统计量。(8)基于MapReduce框架计算每个样本的重构值及SPE统计量,具体过程为:(8.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;(8.2)在Map阶段将在不同数据块中的每个样本的主元Ti并行地按照上式与投影矩阵P相乘,再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPEi,并将所计算出的残差平方和的key标注为1,形成键值对(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的SPE统计量;(9)计算T2和SPE统计量的控制限:所述计算T2控制限的公式为,其中n为样本个数,k为主元个数,Fk,n‑k,α为服从自由度为k和n‑k的F分布,α为置信度:所述计算SPE控制限的公式为:其中表示协方差矩阵的特征值,α表示显著性水平,cα是正态分布在显著性水平为α下的临界值;(10)将故障数据样本集的统计量T2与控制限T2i,lim比对,统计量SPE与控制限SPEi,lim比对,只要有一个统计量超过控制限,即为故障;若两个统计量均没有超过控制限,即为正常样本。(11)将实时数据样本输入,重复步骤(2)‑(10),直至完成对所有数据样本的监测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910421442.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top