[发明专利]结合互补集合经验模态分解的Xgboost时间序列预测方法有效
申请号: | 201711353240.X | 申请日: | 2017-12-15 |
公开(公告)号: | CN108228978B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 胥博 | 申请(专利权)人: | 四川金网通电子科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/18;G06F111/10;G06F119/12 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 刘兴亮 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 互补 集合 经验 分解 xgboost 时间 序列 预测 方法 | ||
1.一种结合互补集合经验模态分解的Xgboost时间序列预测方法,其特征在于包括如下步骤:
步骤一:数据预处理
在对销售数据时间序列建立预测模型之前,必须处理数据中的缺失值、异常值;
当销售数据中时间序列中存在缺失值时,需要对缺失位置添加一个估计值;估计值是通过一个窗口均值滤波得到:
式(14)中,假设了xt是一个缺失值,通过处理后就等于xt为中心的一个时窗内的均值;
对于销售数据的时间序列的异常值的检查中主要分以下几个流程:(1)看每个时间序列的数据的单位是否一致;(2)相邻数据间的时间间隔大小是否都相等;(3)检查每个时间序列中是否存在非数字的数据;(4)箱型图检查一些异常大或者异常小的值;
步骤二:利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的;互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象;主要步骤是:
1)将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声;
定义μσi(t)是独立的高斯白噪声,μ为噪声的幅值,定义为:
上式中:δ是标准差函数,说明μ等于时间序列和高斯白噪声之比;
2)通过一般经验模态函数对分别混有正负高斯白噪声的ym(t)进行处理,得到两组IMF序列和余项;
3)在目标信号中假如不同高斯白噪声信号,并重复(1),(2)P次,之后进行总体平均:
则最终的本征模态函数f的通式可以表示为:
假设分解得到m个本征模态函数那么:
上式中:等号右边第二项就是分解的余项;
对任意时间序列g的互补集合经验模态分解用公式表示为:
上式中:fi是通过经验模态分解得到的m个相互正交的本征模态函数,r是余项,包含了时间序列的趋势性;把等号右边第一项定义本征模态的和可以写成:
根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合;
步骤三:利用Xgboost建立正交性因素建立回归模型
由于本征模态函数相互正交,那么可以将本征模态函数定义为一组正交基,根据这组正交基就可以张成一个线性空间α=span{f1,...,fm};任意本征模态函数的回归模型是一个含N项的数列,i=1,2,...,N,可以写成一个向量形式:那么是RN维线性空间V中的一个向量;同理每个本征模态函数也是N维线性空间中的一个向量,因此α是V的一个子空间;由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基,同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数,因此必然存在一个极大线性无关组{f1,...,fm,r1,....,rN-m},ri,...,rN-m是在V中,但不在α空间的向量,与f1,f2,...fm构成了一组基;另一方面,该N维线性空间中的标准基e为:
根据内积空间的定义,由上式的标准基知道V是一个内积空间,所以{f1,...,fm,r1,....,rN-m}是一组正交基;
由上面的结论可以将任意本征模态函数对应回归模型表示成
上式中是本征模态函数回归模型与f1,...,fm,r1,....,rN-m的内积,通过内积空间性质可以求出:
因此通过训练得到的回归模型函数与对应本征模态函数之间的误差等于:
上式中:ei是对应下标的本征模态函数与它的回归模型函数之间的误差;定义等号右边左起第三项为外空间误差;定义等号右边左起第二项为内空间误差;根据第二步骤中的本征模态之和的定义,可以知道本征模态函数之和是α空间中的一个向量,所以根据上式求得任意ei中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高,得到的模型携带的噪声信息也越低;根据以上结论及定义建立Xgboost模型;
步骤四 利用Xgboost拟合非正交特征因素影响以外的部分
根据步骤三得到一个拟合模型由于α空间是一个内积空间,每个维度都定于在实数域上,因此α是一个欧式空间;因此可以找到一个函数序列其中,满足函数序列按范数收敛:
上式中:定义范数定义为因此定义一个新的XGboost的损失函数:
上式中:k时迭代次数;同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型;模型的输出就是最终的回归模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川金网通电子科技有限公司,未经四川金网通电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711353240.X/1.html,转载请声明来源钻瓜专利网。