[发明专利]基于半监督集成学习的金霉素发酵过程软测量建模方法有效

申请号：	202110447724.0	申请日：	2021-04-25
公开（公告）号：	CN112989711B	公开（公告）日：	2022-05-20
发明（设计）人：	金怀平;李友维	申请（专利权）人：	昆明理工大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N3/12
代理公司：	昆明科众知识产权代理事务所(普通合伙) 53218	代理人：	蒋晗
地址：	650500 云南***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督集成学习金霉素发酵过程测量建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于半监督集成学习的金霉素发酵过程软测量建模方法，其特征在于，包括以下步骤：

(1)收集金霉素发酵过程数据D，构建用于软测量建模的数据库，通过对金霉素发酵过程的机理分析，确定与预测变量y相关的辅助变量X，辅助变量X即输入量，X＝{x₁,x₂,...,x_M}；所收集数据包括有标签数据集与无标签数据集，有标签数据集为同时包含预测变量与输入变量的数据集，而无标签数据集即为仅包含输入变量的数据集；

(2)基于Z-Score方法对样本集D进行归一化处理，进而得到有标签数据集L∈R^N×Q、无标签数据集U∈R^K×J，其中，N和Q分别表示有标签数据的样本个数和过程变量个数，K和J分别表示无标签数据的样本个数和辅助变量个数，同时，将有标签数据集L划分成为训练集L_train、验证集L_validate及测试集L_test；

(3)考虑到金霉素发酵过程的强非线性，选择集成极限学习机作为基模型，由于其属于参数模型，参数不同，对应模型也有所差异，其隐层权重参数由随机初始化产生，因此可由同一训练集L_train构建出M个具有多样性的初始模型，分别记为EELM₁,EELM₂,···,EELM_M；

(4)将未标记的伪标记估计转换为一个优化问题，将所有未标记样本的伪标记作为决策变量，并采用进化优化算法对其进行优化求解，而获得优化完毕的伪标记样本；

(5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充，并将进行等量划分，分别送入不同的基模型中，并进行训练，进一步提升基模型准确性与多样性；

(6)将基模型进行集成，在Stacking集成框架下，采用PLS融合局部预测输出，最终获得半监督集成学习软测量模型，并对新样本进行预测并输出预测结果；

(7)收集新的金霉素发酵过程在线测量数据，并进行归一化处理；

(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出，并将结果反归一化后作为最终预测结果，根据预测结果最终实现对金霉素发酵过程的监测和控制；

所述步骤(4)获得基于进化优化的伪标签数据的具体过程为：

1)将无标记数据集U中的样本进行随机排序，并将其划分为M个样本子集，分别记为U₁,U₂,···U_M，利用进化优化算法对数据集U＝{x_u,1,···,x_u,K}进行伪标记优化，优化目标描述如下：

min[f(x)]

其中，f(x)为待优化问题的目标函数；x为待优化的决策变量；ub和lb分别为变量x的上限约束和下限约束；

2)利用训练集L_train建立高斯过程回归模型GPR，利用该模型对无标记数据集U＝{x_u,1,···,x_u,K}进行预测进而得到对数据集U的估计输出y_u＝{y_u,1,···,y_u,K}和预测方差σ²＝{σ²_u,1,···,σ²_u,K}，x的上限为ub＝y_u+3σ，下限为lb＝y_u-3σ；

3)将步骤(3)中建立的M个集成极限学习机EELM模型作为初始基模型；

4)确定目标函数f(x)，所提方法中f(x)由四个部分组成，分别为单模型精度RMSE_individual、集成模型精度RMSE_ensemble、训练误差RMSE_individual2、平滑度SMOOTH；其中，单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M后分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，集成模型精度为EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差，训练误差为仅用优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，平滑度为图拉普拉斯正则项，因此优化目标可表示为：

f(x)＝RMSE_individual1+λ₁*RMSE_ensemble+λ₂*RMSE_individual2+λ₃*SMOOTH (12)

其中，0≤λ₁,λ₂,λ₃≤1分别为集成模型精度、训练误差、平滑度的平衡系数；

所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下：

①单模型精度RMSE_individual1与训练误差RMSE_individual2分别是由不同训练数据，单模型精度RMSE_individual1为有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M，训练误差RMSE_individual2仅为优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差，总体都是均方根误差的计算，其计算方式分别为：

其中，N_L为有标记训练样本的数目，为由有标记数据集L加上优化得到的伪标记样本子集U_i共同训练出的EELM_i对第j个有标记训练样本的预测值，y_L,j为第j个有标记训练样本的预测变量的实际值，为由有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M分别对第j个有标记训练样本的预测值的简单平均得到的值，为仅由优化得到的伪标记样本子集U_i训练出的EELM_i对第j个有标记训练样本的预测值；