[发明专利]一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5 有效
申请号: | 201811415764.1 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109615082B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 顾锞;乔俊飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G01N15/06 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 选择性 集成 学习 空气 颗粒 pm base sub 2.5 | ||
1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,包括以下步骤:
第一步:收集数据;
第二步:设计用于PM2.5浓度预测的堆叠选择性集成学习器模型;
第三步:采用修剪技术删除三种类型的学习器中的负向基学习器以实现对各学习器的选择性集成;
第四步:对选定的正向基学习器实施堆叠技术,将正向基学习器的结果进行堆叠,以预测未来的PM2.5浓度;
第一步中:
使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14;
第四步中:
对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果;堆叠技术具体实施过程如下;
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为和从而定义一个新的合成正向基学习器集,然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值:
p=wTΦ(V)+b (14)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是模型参数的权重和偏差;
求解上述权重w、偏置b和函数Φ(v);将v设为v为由[v1,v2,v3]组成的向量,即这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
式(15)为优化问题的目标函数,式(16)为优化问题的约束条件,即在式(16)的约束下求解式(15)的最小值;其中ζ=(ζ1,ζ2,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01;
使用拉格朗日乘数法求解优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(15)、(16):
其中然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数;进一步用径向基函数(RBF)内核定义核函数为从而将v映射到更高维空间;简化后推导出:
其中ai为第i个a值,a′i为第i个a'值,i为1,2,...,u中任意正整数;通过计算求解,求得权值与偏置的最优值。
2.根据权利要求1所述的一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,
第二步中:
对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性;训练集需体现的多样性为:不同的样本、环境因素和时间因素;对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性;具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性;
Bagging的算法框架如下:
输入为S、L和NB,其中S代表用于训练的全部样本,每个样本包含12个数据,代表12个变量,L代表学习器,NB表示Bagging方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NB循环,Sn为第n次迭代从S中所提取的自举样本,为学习器L在Sn中学习的结果,记为最后,输出多元基学习器
将随机子空间方法应用于环境因素;对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器;
随机子空间的算法框架如下:
输入为FR、L和NR,其中FR代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,L代表学习器,NR表示随机子空间方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NR进行循环,为第n次迭代从F提取出的自举特征,为学习器L在中学习的结果,记为达到迭代次数后,输出多元基学习器
对于时间因素采取以下处理方式;当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器;由于该方法为一种全新的方法,现称其为包含子空间方法;
包含子空间方法的算法框架如下:
输入为FI、L和NI,其中FI代表各时刻的样本特征集,L代表学习器,NI表示包含子空间方法最大迭代次数,赋值为24,代表过去24小时,每小时所收集的样本数据;将进行中的迭代次数记为n,令n从1至NI进行循环,为第n次迭代提取出的样本,数学表达式为[FI(1),…,FI(n+1)],为学习器L在中学习的结果,记为最后输出多元基学习器
第三步中:
通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器;具体方法如下:
(1)首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值;现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵;z∈Rs,是根据分布P(z)从Rs中抽样得到的;z的预期输出为第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出如下:
上式中,r表示基学习器的总数,ωx∈[0,1],且此处令其均相等;在z上,第x个基学习器的泛化误差为Errx(z),全部学习器在z上的泛化误差定义为:
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz (4)
将第y个基学习器的泛化误差设为Erry,第x和第y个基学习器之间的相关性Corrxy表示为公式(6),y为基学习器个数范围内的任意正整数:
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(1)和(3),推导出:
其中,ωy∈[0,1],且此处令其均相等,ωx∈[0,1],且此处令其均相等,Hy(z)为第y个基学习器的实际输出,此外,通过结合式(5)-(7),得到:
首先令权重ωx、ωy均相等,将式(8)改写为:
(2)从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成;根据式(1)-(9),在删除第q个基学习器后,q为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
由式(9)-(10)推断出,如果低于则删除第q个基学习器的集成优于包含第q个基学习器的集成:
其中,为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,为第q个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811415764.1/1.html,转载请声明来源钻瓜专利网。