[发明专利]基于半监督集成学习的金霉素发酵过程软测量建模方法有效
申请号: | 202110447724.0 | 申请日: | 2021-04-25 |
公开(公告)号: | CN112989711B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 金怀平;李友维 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/12 |
代理公司: | 昆明科众知识产权代理事务所(普通合伙) 53218 | 代理人: | 蒋晗 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 集成 学习 金霉素 发酵 过程 测量 建模 方法 | ||
1.一种基于半监督集成学习的金霉素发酵过程软测量建模方法,其特征在于,包括以下步骤:
(1)收集金霉素发酵过程数据D,构建用于软测量建模的数据库,通过对金霉素发酵过程的机理分析,确定与预测变量y相关的辅助变量X,辅助变量X即输入量,X={x1,x2,...,xM};所收集数据包括有标签数据集与无标签数据集,有标签数据集为同时包含预测变量与输入变量的数据集,而无标签数据集即为仅包含输入变量的数据集;
(2)基于Z-Score方法对样本集D进行归一化处理,进而得到有标签数据集L∈RN×Q、无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数,同时,将有标签数据集L划分成为训练集Ltrain、验证集Lvalidate及测试集Ltest;
(3)考虑到金霉素发酵过程的强非线性,选择集成极限学习机作为基模型,由于其属于参数模型,参数不同,对应模型也有所差异,其隐层权重参数由随机初始化产生,因此可由同一训练集Ltrain构建出M个具有多样性的初始模型,分别记为EELM1,EELM2,···,EELMM;
(4)将未标记的伪标记估计转换为一个优化问题,将所有未标记样本的伪标记作为决策变量,并采用进化优化算法对其进行优化求解,而获得优化完毕的伪标记样本;
(5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充,并将进行等量划分,分别送入不同的基模型中,并进行训练,进一步提升基模型准确性与多样性;
(6)将基模型进行集成,在Stacking集成框架下,采用PLS融合局部预测输出,最终获得半监督集成学习软测量模型,并对新样本进行预测并输出预测结果;
(7)收集新的金霉素发酵过程在线测量数据,并进行归一化处理;
(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出,并将结果反归一化后作为最终预测结果,根据预测结果最终实现对金霉素发酵过程的监测和控制;
所述步骤(4)获得基于进化优化的伪标签数据的具体过程为:
1)将无标记数据集U中的样本进行随机排序,并将其划分为M个样本子集,分别记为U1,U2,···UM,利用进化优化算法对数据集U={xu,1,···,xu,K}进行伪标记优化,优化目标描述如下:
min[f(x)]
其中,f(x)为待优化问题的目标函数;x为待优化的决策变量;ub和lb分别为变量x的上限约束和下限约束;
2)利用训练集Ltrain建立高斯过程回归模型GPR,利用该模型对无标记数据集U={xu,1,···,xu,K}进行预测进而得到对数据集U的估计输出yu={yu,1,···,yu,K}和预测方差σ2={σ2u,1,···,σ2u,K},x的上限为ub=yu+3σ,下限为lb=yu-3σ;
3)将步骤(3)中建立的M个集成极限学习机EELM模型作为初始基模型;
4)确定目标函数f(x),所提方法中f(x)由四个部分组成,分别为单模型精度RMSEindividual、集成模型精度RMSEensemble、训练误差RMSEindividual2、平滑度SMOOTH;其中,单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM后分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,集成模型精度为EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差,训练误差为仅用优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,平滑度为图拉普拉斯正则项,因此优化目标可表示为:
f(x)=RMSEindividual1+λ1*RMSEensemble+λ2*RMSEindividual2+λ3*SMOOTH (12)
其中,0≤λ1,λ2,λ3≤1分别为集成模型精度、训练误差、平滑度的平衡系数;
所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下:
①单模型精度RMSEindividual1与训练误差RMSEindividual2分别是由不同训练数据,单模型精度RMSEindividual1为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM,训练误差RMSEindividual2仅为优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差,总体都是均方根误差的计算,其计算方式分别为:
其中,NL为有标记训练样本的数目,为由有标记数据集L加上优化得到的伪标记样本子集Ui共同训练出的EELMi对第j个有标记训练样本的预测值,yL,j为第j个有标记训练样本的预测变量的实际值,为由有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM分别对第j个有标记训练样本的预测值的简单平均得到的值,为仅由优化得到的伪标记样本子集Ui训练出的EELMi对第j个有标记训练样本的预测值;
②平滑度定义为图拉普拉斯正则项,构造有标记样本L与无标记样本U混合之后的数据的图模型,用wij表示图模型中两个节点之间的连接权重,平滑度的具体计算方式为:
SMOOTH=fTLf (16)
其中,f表示有标记样本与伪标记样本的输出标记部分,表示为f=[y1,y2,···,yN,yu,1,yu,2,···,yu,K],L表示图拉普拉斯矩阵,其计算方式为L=D-W,D为一个对角矩阵,其主对角线上的元素为:
其中,W为一个矩阵,其中的各元素表示为:
其中,N、K分别为有标记样本数、伪标记样本数,L、D及W的矩阵维度均为(N+K)*(N+K);
5)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为初始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110447724.0/1.html,转载请声明来源钻瓜专利网。