[发明专利]表征现金流的数据组织形式与基于多任务学习的预测方法有效
申请号: | 201910466692.1 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110264251B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 贺一丹;李梦;孔德兴 | 申请(专利权)人: | 杭州博钊科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/06;G06N3/08;G06N3/04 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310012 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表征 现金流 数据 组织形式 基于 任务 学习 预测 方法 | ||
1.一种表征现金流的数据组织形式与基于多任务学习的预测方法,其特征在于,包括以下步骤:
(1)读取电力部门销售流水和用电量的历史数据;
(2)对历史数据进行信息挖掘和统计分析,评估金额到账时间与用户支付时间的关系,得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息;按照设定的数据结构形式进行数据组织,然后按照分位数统计量对现金流数据进行分类;
具体包括以下步骤:
(2.1)统计历年所有用户的用电量水平,根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间;将使用电量超过设定值的用户作为最后1/4分位,对其用电量等级再进行细分,最后按用电量将所有用户分成M个等级;
(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计,构成输入特征的一个维度;以20%、40%、60%、80%这几个分位数以及假设的现金流最大值1×10^9作为间断点,将加总现金流数据分为5类,其类标分别为0、1、2、3、4;
(2.3)设定用户缴费到账日期的区间,将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日;通过缴费时间与到账区间的关系,评估用户所缴纳金额对最小到账日现金流的影响;
(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日,并记作预计到账日,这个日期下的用户组记为S;在这个日期下:
(2.41)对当日缴费用户的行业分布进行划分;
(2.42)统计缴费用户的上月用电量水平在M个等级中的分布,若上月用电量数据缺省,说明该用户是隔月或者当月缴费,另计入第M+1等级;
(2.43)对往年所有用户的日缴费金额进行分析,先用1/4分位数进行等级粗分,对缴费金额大于设定值的再进行细分,最后形成M+1个每日用户缴费金额的等级;实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布,作为数据结构的M+1个维度;
(2.44)因节假日、工作日的信息会影响到到账情况,故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度;
(3)建立与回归分析有关的多个任务,分类任务及匹配组成当日现金流的用户支付金额分布的任务,以此建立多维数据标签;
(4)对历史数据按时间序列均分为k个时间段,每个时间段包含多天数据;
(5)进行k次交叉检验:每次取步骤(4)中的k-1组作为训练集,利用深度卷积神经网络或者递归神经网络进行多任务学习;通过回归分析给出未来定期金额的预测,并将剩下的一组作为检验集,对模型进行性能测试;
其中,进行多任务学习的内容包括:
按照设定的数据结构形式组织数据,取线性变换归一化后的31天数据作为输入;使用多层卷积神经网络或者递归神经网络学习高维特征得到瓶颈向量,输入进多个任务子网络,均为全连接层的架构;通过回归分析输出对第31天的现金流的预测,进行回归任务训练;所述递归神经网络是基于GRU或者LSTM的递归结构的,且含多个隐藏单元;
训练初始时,设置下述两个任务的任务的权重设为0,即不参与训练:分类任务与匹配组成当日现金流的用户支付金额分布;当出现过拟合时,再将这两个任务加入全局训练;其中,使用多层卷积神经网络时,卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数;使用递归神经网络时,使用的递归结构种类和以及隐藏单元数量是超参数;
(6)重复步骤(5),采用网格法得到神经网络的最佳超参数,最终确定神经网络模型的配置,并将该神经网络模型用于电力销售金额的预测。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,所述电力部门销售流水的历史数据包括:用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额;所述用电量的历史数据是指每位用户的每月实际用电量。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,还包括对历史数据进行数据去噪和时间序列平稳化的预处理。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,构建多维数据标签时,第一个维度是经过线性变换归一化的日现金流未来期数据;第二个维度是对应日期现金流数据的分类标签见(2.2);之后的M+1个维度是日现金流数据的分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州博钊科技有限公司,未经杭州博钊科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910466692.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置