[发明专利]基于缺失数据填充的MSWI过程二噁英排放软测量方法在审

申请号：	202210606547.0	申请日：	2022-05-31
公开（公告）号：	CN114970353A	公开（公告）日：	2022-08-30
发明（设计）人：	汤健;徐雯;夏恒;乔俊飞	申请（专利权）人：	北京工业大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06K9/62;G06F119/02
代理公司：	北京鑫瑞森知识产权代理有限公司 11961	代理人：	马云华
地址：	100020 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于缺失数据填充 mswi 过程二噁英排放测量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于缺失数据填充的MSWI过程二噁英排放软测量方法，其特征在于，具体包括以下步骤：

S1，缺失类型识别：根据原始MSWI过程数据中缺失数据的不同情况进行分类，将过程数据识别为随机分布、时间维度和特征维度缺失3种类型；

S2，缺失数据填充：先基于专家经验规则，对随机分布和时间维度的缺失数据进行填充，然后采用基于约简特征多模型集成的方法，对特征维度缺失数据的填充，得到填充数据集；

S3，基于填充数据的软测量建模：建立基于填充数据集的DFR-clfc模型得到DXN排放浓度预测值。

2.根据权利要求1所述的基于缺失数据填充的MSWI过程二噁英排放软测量方法，其特征在于，步骤S1，根据原始MSWI过程数据中缺失数据的不同情况进行分类，将过程数据识别为随机分布、时间维度和特征维度缺失3种类型，具体包括：

S101，随机分布的数据缺失情况：

数据缺失的随机发生与自身特征、其他特征的取值以及时间无关，缺失的数据随机分布在不同的特征之间，随机分布的数据缺失情况，可表示如下：

S102，时间维度的数据缺失情况：

在某一时刻，所有变量均出现缺失的情况，即缺失行向量，表示如下：

S103，特征维度的数据缺失情况：

过程数据中缺失某个特征值，即缺失列向量，描述如下：

其中，以上公式中的NaN表示缺失数据，N为样本个数，M为特征维数。

3.根据权利要求1所述的基于缺失数据填充的MSWI过程二噁英排放软测量方法，其特征在于，步骤S2，先基于专家经验规则，对随机分布和时间维度的缺失数据进行填充，然后采用基于约简特征多模型集成的方法，对特征维度缺失数据的填充，得到填充数据集，具体包括：

S201，先基于专家经验规则，对随机分布和时间维度的缺失数据进行填充，其结果如下：

其中，为含有M-M′个特征的不含缺失值的数据，为待填充数据；

S202，特征维度缺失数据的填充以为输入，采用基于约简特征多模型集成策略获得填充值其包含基于互信息MI约简特征、基于多子模型预测填充值和基于BLR集成填充值3部分，以对缺失特征的填充为例，首先经约简特征得到待填充特征的相关性集合处理后得到的数据集如下：

其中，为待填充特征，为的相关性集合；

将其用于构建基于RF、GBDT和BPNN算法的子模型，相应的预测输出记为和接着，组合上述预测值构建基于BLR的融合模型，即：

其中，由预测输出以及待填充特征组成；

最后，将其输出作为第m′个缺失特征的最终填充值。

4.根据权利要求1所述的基于缺失数据填充的MSWI过程二噁英排放软测量方法，其特征在于，步骤S3中，建立基于填充数据集的DFR-clfc模型得到DXN排放浓度预测值，具体包括：

S301，针对输入层森林模型，采用Bootstrap和RSM随机采样训练集D_fill，构建基于J个DT的I个子森林模型相应地，第i个子森林模型的预测均值通过下式计算：

其中，为第i个子森林模型的预测值，为该子森林模型中J个DT的预测均值；

S302，通过kNN方法重新选择k_kNN个的近邻值形成输入层中第i个子森林模型的回归向量上述步骤重复I次后得到输入层森林模型的层回归向量相应地，中间层森林模型的输入为：

其中，为输入层森林模型的增强回归向量，f_FeaCom(·)为组合函数，为输入层森林模型的层回归向量，k_kNN为选择的近邻值的个数，X_fill为训练集中D_fill中的过程变量；

中间层森林模型含有L-2层子森林模型，其第λ(λ＝2,3,…,L-1)层的输入表示为：

其中，是第λ-1层的输出特征向量，y_DXN为DXN的排放浓度，N为样本个数，M_λ＝M+(k_kNN×I)×(λ-1)为特征数量；

每层的增强回归向量采用跨层全连接的方式得到，表示为:

其中，获取方式与输入层相同；

因此，第λ层森林模型生成输出特征向量的过程如下：

其中，为第λ层森林模型的层回归向量；

进一步，第L层输出层森林模型的输入表示为：

其中，M_L＝M+(k_kNN×I)×(L-1)表示特征的数量；

基于D_fill,L构建包含J个DT的I个子森林模型其中，第i个子森林模型的预测值向量为为第L层中第i个子森林模型的J个DT得到的预测值，第i个子森林模型的平均预测值为

最后，DFR-clfc模型的输出为DXN排放浓度预测值

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210606547.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载