[发明专利]基于连续MapReduce的分布并行PCA过程监测建模方法有效
申请号: | 201910421442.6 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110110814B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 葛志强;张鑫宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连续 mapreduce 分布 并行 pca 过程 监测 建模 方法 | ||
1.一种基于连续MapReduce的分布并行PCA过程监测建模方法,其特征在于,所述分布并行PCA过程监测建模方法包括以下步骤:
(1)收集历史工业过程中正常数据样本集和故障数据样本集,正常数据样本集中共有n个样本,每个样本具有m个过程变量,正常数据样本集表示为S_normal(x)={xi|i=1,2,…,n},其中xi为变量,共有m个列,xi∈R1×m;并用S_normal(xi)表示正常样本集中第i个样本,故障数据样本集与正常数据样本集具有相同的形式,表示为S_fault(x)={xi|i=1,2,…,nt},nt为故障数据样本集中的样本个数;
(2)基于MapReduce框架将步骤(1)中的得到的正常数据样本集和故障数据样本集进行分布式标准化,具体过程为:
(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中,分布存储的块数为K;
(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对1,S_normal(xi),在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,得到样本各个变量的均值向量μ∈R1×m;
(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果平方,再将平方后的值的key标注为1,从而可形成键值对1,(S_normal(xi)-μ)2,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,得到样本各个变量的标准差向量σ∈R1×m;
(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差向量,再将计算后的值的key标注为1,从而可形成键值对1,(S_normal(xi)-μ)/σ,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的正常数据样本集S_std_normal;
(2.5)利用正常数据样本集的均值和标准差求得(S_fault(xi)-μ)/σ,形成的标准化后的故障数据样本集为S_std_fault;
(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X(n×m),并利用MapReduce计算协方差矩阵值ruv,具体过程为:
(3.1)将矩阵X(n×m)和矩阵XT(m×n)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(3.2)在Map阶段,将矩阵XT(m×n)中的每个元素值buv的key值标记为[u,k](k=1,…,m),而value值,按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:v,buv],所形成的键值对为[u,k],[b:v,buv];
(3.3)在相同的Map阶段,再将矩阵X(n×m)中的每个元素值auv的key值标记为[k,v](k=1,…,m),而value值按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:u,auv],所形成的键值对为[k,v],[a:u,auv];
(3.4)在Reduce阶段,Reducer将具有相同key值的元素值auv和buv聚集在一起,对于key值为[u,v]的所有键值对,将具有不同矩阵标记mt而具有相同位置标记lt的元素值相乘,再将不同位置标记lt的乘积结果相加即为协方差矩阵值ruv即
(4)计算协方差矩阵R(m×m)的特征值和特征向量:
(5)利用方差贡献率η选择主元个数z,其中η为0.85,并确定主元对应特征值构成的对角矩阵Λ
(6)将特征值从大至小排序,并选择前z个特征值对应的特征向量组成投影矩阵P:
(7)基于MapReduce框架计算每个样本的T2统计量,T2i=xiPΛ-1PTxiT,具体过程为:
(7.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(7.2)在Map阶段将在不同数据块中的每个样本xi并行地按照上式与投影矩阵P和对角矩阵Λ相乘,再将计算后的值的key标注为1,从而可形成键值对1,xiPΛ-1PTxiT;
(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的T2统计量;
(8)基于MapReduce框架计算每个样本的重构值及SPE统计量,具体过程为:
(8.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(8.2)在Map阶段将在不同数据块中的每个样本的主元Ti并行地按照上式与投影矩阵P相乘,再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPEi,并将所计算出的残差平方和的key标注为1,形成键值对1,
(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的SPE统计量;
(9)计算T2和SPE统计量的控制限:
所述计算T2控制限的公式为,其中n为样本个数,z为主元个数,Fz,n-z,α为服从自由度为z和n-z的F分布,α为置信度:
所述计算SPE控制限的公式为:
其中表示协方差矩阵的特征值,α表示显著性水平,cα是正态分布在显著性水平为α下的临界值;
(10)将故障数据样本集的统计量T2与控制限T2i,lim比对,统计量SPE与控制限SPEi,lim比对,只要有一个统计量超过控制限,即为故障;若两个统计量均没有超过控制限,即为正常样本;
(11)将实时数据样本输入,重复步骤(2)-(10),直至完成对所有数据样本的监测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910421442.6/1.html,转载请声明来源钻瓜专利网。