[发明专利]基于分布并行局部建模机制的岭回归软测量建模方法有效
申请号: | 201910421409.3 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110188433B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 葛志强;张鑫宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布并行局部建模机制的岭回归软测量建模方法,属于工业过程预测与控制领域。该岭回归软测量建模方法是通过建立训练样本集和测试样本集,基于MapReduce框架将训练样本集和测试样本集进行分布式标准化,基于MapReduce框架选取局部训练样本集,建立岭回归模型,并对测试样本预测,重复分布式标准化和对测试样本预测,直至完成所有样本的预测。该岭回归软测量建模方法能够有效地提升基于局部建模机制的岭回归模型的软测量建模速度,解决工业过程中大规模数据下局部建模的不足的问题。 | ||
搜索关键词: | 基于 分布 并行 局部 建模 机制 回归 测量 方法 | ||
【主权项】:
1.一种基于分布并行局部建模机制的岭回归软测量建模方法,其特征在于,所述岭回归软测量建模方法包括以下步骤:(1)建立训练样本集,训练样本集中共有n个样本,每个样本具有m个易于测量的过程变量,以及一个需要被估计的质量变量;训练样本集表示为:S_train(x,y)={(xi,yi)|i=1,2…,n},其中xi为自变量,共有m个列,xi∈R1×m,yi为因变量,共有1个列,yi∈R1,R代表维度;并用S_train(x)表示样本中的过程变量,S_train(y)表示样本中的质量变量,其余样本集合表示方法相同;模型的测试样本集与训练样本集具有相同的形式,表示为S_test(x,y)={(xi,yi)|i=1,2,…,nt},nt为测试样本集中的样本个数。(2)基于MapReduce框架将步骤(1)中的所得到的训练样本集和测试样本集中的xi部分进行分布式标准化:(2.1)将训练样本集S_train(x)存储在分布式文件系统中,分布存储的块数为K。(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_train(xi)>,在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,即可得到样本各个变量的均值向量μ∈R1×m;(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果进行平方,再将平方后的值的key标注为1,从而可形成键值对<1,(S_train(xi)‑μ)2>,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,即可得到样本各个变量的标准差向量σ∈R1×m;(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差向量,再将计算后的值的key标注为1,从而可形成键值对<1,(S_train(xi)‑μ)/σ>,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的训练样本S_std_train(xi);(2.5)测试样本的标准化只需通过下式利用训练样本的均值向量和标准差向量即求得(S_test(xj)‑μ)/σ,所形成的标准化后的测试样本集为S_std_test(xj);(3)基于MapReduce框架分布并行地为每个测试样本选取局部训练样本集:(3.1)将标准化后的训练样本集S_std_train(xi)分布地存储在分布式文件系统中,并自然形成K个数据块;(3.2)在MapReduce中的Map阶段对K个数据块中的样本进行无放回的采样,并形成新的K个数据块;(3.3)导入某个测试样本S_std_test(xj),(j=1,2,…,nt),并行地计算每个数据块中训练样本与该测试样本的欧式距离dij,计算公式如下,其中nk为第k个数据块中训练样本数量:dij=||S_std_test(xj)‑S_std_train(xi)||,(i=1,2,…,nk) (1)(3.4)再在该Map阶段下对欧式距离dij进行升序排序,排序后的距离可写为dsortij,(i=1,2,…,nk);(3.5)确定每个测试样本用于局部建模的训练样本数为M(M<nk),在Map中将K个数据块中的dsortij,(i=1,2,…,nk)按照原先的顺序均等地划分为M份(最后一份的样本数为nk%M),并为每个样本确定一个份数号p(p=1,2,…,M),并将每个样本的key值确定为它隶属的份数号,所形成的键值对为<p,dsortij∈p>。(3.6)在Reduce阶段中将具有相同key值的键值对合并在一个数据块中,共可以形成p块,而p等于1的数据块所对应的dsortij值最小,也就是用于对该测试样本局部建模的训练样本集S_std_train(p)_local。(4)基于步骤(3)中测试样本S_std_test(xj)所选择的局部训练样本集S_std_train(p)_local建立岭回归模型,并对该测试样本进行预测,所得预测值为ypj(j=1,2,…,nt)(5)将实时训练样本集输入,重复步骤(3)和步骤(4),直至对所有测试样本均完成预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910421409.3/,转载请声明来源钻瓜专利网。