[发明专利]一种多变量时间序列预测方法及系统在审
申请号: | 202211602382.6 | 申请日: | 2022-12-09 |
公开(公告)号: | CN115796312A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 朱瑾鹏;任东英;吴棣;王永祥;范长伟;何若男 | 申请(专利权)人: | 北京数洋智慧科技有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06F18/214;G06F123/02 |
代理公司: | 北京鼎真知识产权代理事务所(普通合伙) 11815 | 代理人: | 洪波 |
地址: | 100195 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多变 时间 序列 预测 方法 系统 | ||
1.一种多变量时间序列预测方法,其特征在于,包括以下步骤:
收集预测内容及相关特征的历史数据,进行数据预处理并进行特征选择,得到预测数据集;
对所述预测数据集划分训练集、验证集及测试集,对基于增量学习的极限梯度提升xgboost模型进行训练;并调整模型参数,得到最优模型;
根据所述最优模型对待预测内容进行预测得到预测结果;根据沙普利加法解释SHAP对所述最优模型进行解释;
输出所述预测结果及解释结果。
2.根据权利要求1所述的一种多变量时间序列预测方法,其特征在于,所述数据预处理,包括:
若预测数据集中含有缺失值,选择业务适合的数据值进行填充;
对所述预测数据集进行离散变量数值化处理,将离散变量通过标签编码数值化;
剔除所述预测数据集中的异常值。
3.根据权利要求2所述的一种多变量时间序列预测方法,其特征在于,所述特征选择,包括:
基于可解释性的互信息进行特征选择;从两种关系出发:
基于自变量与自变量之间的相关性,在具有共线性的特征中选用一个;互信息的定义如下:
其中,p(x)表示自变量x出现的概率,p(y)表示自变量y出现的概率,p(x,y)表示x,y同时出现的概率,log的底数可以为e或2;
自变量与因变量之间的相关性越高,特征对模型预测目标更重要;具体如下:
其中,p(x)表示自变量x出现的概率,p(z)表示因变量z出现的概率,p(x,z)表示x,z同时出现的概率;log的底数为e。
4.根据权利要求1所述的一种多变量时间序列预测方法,其特征在于,所述基于增量学习的极限梯度提升xgboost模型,通过如下方式构建:
通过xgboost模型分别构建教师模型及学生模型;
loss1是教师模型和学生模型预测结果的交叉熵:
其中,教师模型分布符合X~p(x),学生模型分布符合X~q(x);
loss2是真实值和学生模型预测结果的平均绝对误差,即真实目标yi与预测值之间差值绝对值的平均值,其中n为样本总数量:
lossall是模型的总损失函数,表现为loss1与loss2的加权求和:
lossall=w1loss1+w2loss2;
其中,w1、w2为调优参数。
5.根据权利要求4所述的一种多变量时间序列预测方法,其特征在于,所述调整模型参数,包括:
根据所述训练集、验证集及测试集,调整所述xgboost模型的各项参数及调优参数以优化模型输出。
6.根据权利要求1所述的一种多变量时间序列预测方法,其特征在于,所述SHAP解释,包括:
使用基于SHAP值的模型解释方法对所述xgboost模型及预测结果进行解释;
对于每个预测样本,xgboost模型都产生一个预测值,SHAP value是所述样本中每个特征所分配到的数值。
7.根据权利要求6所述的一种多变量时间序列预测方法,其特征在于,所述SHAP解释,包括:
特征重要性排序;把一个特征对目标变量影响程度的绝对值的均值作为这个特征的重要性,得到特征重要性;
单个样本的SHAP值;随机检查其中一个样本的预测值以及其特征对预测值的影响;
对特征的总体分析;
对单个样本的SHAP值或对特征进行整体的进行可视化;
对特征建立部分依赖图;
对多个变量的交互进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数洋智慧科技有限公司,未经北京数洋智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211602382.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机固定航路的超视距测控方法
- 下一篇:一种可直接钻入底盘的泊车机器人