[发明专利]一种原料油及重馏分油中氢含量的预测方法及其系统在审
申请号: | 202310005398.7 | 申请日: | 2023-01-04 |
公开(公告)号: | CN116029434A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 颜学峰;林茂强;杨建东;林宸雨 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/04;G06N3/045;G06N3/048;G06N3/08 |
代理公司: | 上海申浩律师事务所 31280 | 代理人: | 龚敏 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 原料 馏分 油中氢 含量 预测 方法 及其 系统 | ||
1.一种原料油及重馏分油中氢含量的预测系统,其特征在于包含以下四个模块:
该系统分为四个模块:
第一模块是特征选择模块;该模块基于皮尔逊相关性分析方法,分析各输入变量与输出变量的相关程度,挑选出与氢含量相关性较大的输入变量作为特征变量;
第二模块是数据标准化模块;该模块能消除输入变量之间量纲不同对模型结果的影响,获得可直接进行机器学习建模的数据,标准化方法使用的是最大最小标准化方法;
第三模块是模型训练模块;模型是基于栈式自编码器模型和神经网络模型的组合模型,将标准化后的特征变量作为模型输入,氢含量作为模型输出,建立基于数据驱动的原料油及重馏分油氢含量预测模型;
第四模块是模型参数寻优和模型评价模块;该模块使用逐层驱动的策略确定模型网络结构,利用交叉验证方法结合网格搜索策略进行参数寻优,同时选用均方根误差、平均绝对误差、决定系数的模型评价方法评价模型的预测能力。
2.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统,其特征在于,所述特征选择模块,选自原料油及重馏分油常规理化性质取密度、D86蒸馏曲线初馏点、10%馏出温度、20%馏出温度、30%馏出温度、40%馏出温度、50%馏出温度、60%馏出温度、70%馏出温度、80%馏出温度、90%馏出温度、终馏点,常规理化性质和对应的氢含量组成一组样本数据;基于收集的样本数据,使用皮尔逊相关分析方法,分析各常规理化性质与氢含量的皮尔逊相关系数值;若某一常规理化性质与氢含量的皮尔逊相关系数绝对值大于临界值λ(λ的取值范围为[0,1]),则挑选为建模的特征变量。
3.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统,其特征在于,所述数据标准化模块,使用最大最小标准化的方法,将挑选的建模特征变量组成的样本数据进行标准化处理,使其成为可直接进行机器学习建模的数据。
4.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统,其特征在于,所述的模型训练模块,建立一个栈式自编码器和一个神经网络模型,将二者组合起来,实现通过油品的常规理化性质预测相应的氢含量。
5.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统,其特征在于,所述的模型训练模块,栈式自编码器和神经网络模型组合方法为:将由特征变量和对应的氢含量组成的样本数据标准化处理后同时作为输入和输出训练一个栈式自编码器;然后将栈式自编码器的中间隐藏层的输出作为目标变量,将栈式自编码器的训练样本数据去掉氢含量后作为输入,训练一个神经网络模型,该神经网络模型的结构与栈式自编码器模型编码器部分结构相似,最后把神经网络模型的输出作为栈式自编码器模型解码器部分的输入,就可以获得氢含量的预测值。
6.根据权利要求5所述的原料油及重馏分油中氢含量的预测系统,其特征在于,模型的预测流程为,将标准化后的建模特征变量组成的样本数据输入到训练好的神经网络模型中,再把神经网络模型的输出输入到训练好的栈式自编码器的解码器部分进行解码,就可以仅通过常规理化性质预测原料油及重馏分油的氢含量。
7.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统,其特征在于,使用逐层驱动的策略,通过逐层训练自编码器得到栈式自编码器模型的网络结构,神经网络模型的网络结构参考栈式自编码器中编码器部分的网络结构;模型的超参数使用交叉验证结合网格搜索策略进行选择。
8.一种原料油及重馏分油中氢含量的预测方法,包括如下步骤:
步骤一,基于皮尔逊相关分析的模型特征变量选择方法;通过对样本数据氢含量和常规理化性质进行相关性分析,确定建立机器学习模型的特征变量;所述的常规理化性质包括:密度(x1)、D86蒸馏曲线的初馏点(x2)、10%馏出温度(x3)、20%馏出温度(x4)、30%馏出温度(x5)、40%馏出温度(x6)、50%馏出温度(x7)、60%馏出温度(x8)、70%馏出温度(x9)、80%馏出温度(x10)、90%馏出温度(x11)、终馏点(x12);根据算出的皮尔逊相关系数的值,并通过设定的临界值λ(λ的取值范围为[0,1]),确定建立模型所需的常规理化性质;
所述皮尔逊相关系数是一种衡量特征变量和目标变量之间关系的方法,该方法衡量的是变量之间的线性相关性;变量xi(第i个常规理化性质)和变量y(设为氢含量分析值)的皮尔逊相关系数就是用xi,y的协方差除以xi和y的标准差,是剔除了两个变量量纲影响、标准化之后的特殊协方差;协方差是度量各个维度偏离其均值的程度,协方差的值为正值说明两者是正相关的,否则是负相关的;变量xi,y的皮尔逊相关系数的计算公式如下:
结果的取值区间是[-1,1],-1表示完全负相关,1表示完全正相关,0表示没有线性相关,绝对值的大小表示相关性的强弱;
若第i个变量被挑选为模型输入变量;
步骤二,构建原料油及重馏分油氢含量预测模型样本的数据标准化处理方法,将样本数据进行标准化处理后成为适合建立机器学习模型的数据;
数据标准化使用最大最小标准化方法;是对原始数据的线性变换,将数据值映射到[0,1]之间;转换公式如下:
最大最小标准化保留了原来数据中存在的关系;
步骤三,构建原料油及重馏分油氢含量模型训练及预测模块的方法,根据常规理化报告(即密度和D86蒸馏曲线)及对应氢含量的样本,建立基于栈式自编码器的机器学习预测模型;
所述栈式自编码器的原理及模型结构:
对于一个m维的输入样本x,自编码器的编码器部分f1(·)和解码器部分f2(·)的表达式如下:
f1(·):z=δ1(W1x+b1)
f2(·):
其中,z是编码器部分输出的特征空间的向量,是最终的预测输出;δ1(·)表示神经网络中的激活函数,包括Sigmoid函数、正切函数、线性整流单元函数等;W1、W2是网络层之间的权重,b1、b2是对应层的偏置值;
自编码的目标是使输入与重构的输出尽可能相同,即假设训练集输入x包含n个样本,故自编码器的目标函数如下:
其中,表示误差函数,一般使用均方误差,即
使用油品挑选出的理化性质以及对应的氢含量组合成的输入空间[x|y]训练一个栈式自编码器,则栈式自编码器的输出中包含所需的氢含量的预测值;将栈式自编码器的中间隐藏层输出z作为目标变量,油品的理化性质x为输入空间,训练一个神经网络模型,神经网格模型的结构与栈式自编码器模型的编码器部分结构相似,最后把神经网格模型的输出作为栈式自编码器模型解码器部分的输入,就可以实现利用油品的理化性质预测氢含量;
步骤四,确定栈式自编码器模型和神经网络模型的网络结构以及进行相应的超参数选择,根据模型在验证集上的表现评价模型的预测能力;
对于栈式自编码器的网络结构的确定,采用的是逐层驱动的训练方式,即先使用输入空间训练一个自编码器作为栈式自编码器的第一层,得到对应的神经元个数,然后把第一个自编码器的中间隐藏层输出作为第二个自编码器的输入,训练出第二个自编码器作为栈式自编码器的第二层,按照这个方式继续下去,就可以得到栈式自编码器的网络结构;神经网络模型的网络结构与栈式自编码器的编码器部分网络结构相似;
在确定好栈式自编码器模型和神经网络模型的网络结构后,还需要确定网络的超参数,利用交叉验证和网格搜索策略,确定模型的最优超参数;
评价所建立的氢含量预测模型的预测性能,采取了以下的模型评价指标:
均方根误差:
平均绝对误差:
决定系数:其中
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310005398.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理