[发明专利]基于Lasso算法的异常数据检测方法及装置在审
申请号: | 202010859396.0 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111737249A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 胡若云;张宏达;李国良;柴成亮;林森;姚力;许灵杰;徐永进;林少娃;吕几凡;王庆娟 | 申请(专利权)人: | 国网浙江省电力有限公司;国网浙江省电力有限公司营销服务中心 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F17/18;G06Q10/04;G06Q50/06 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 魏亮 |
地址: | 310007*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lasso 算法 异常 数据 检测 方法 装置 | ||
1.基于Lasso算法的异常数据检测方法,其特征在于,该方法包括:
从电力大数据采集和应用系统中获取待检测数据集和训练样本集,所述待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,所述训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
以所述待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;
对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
2.根据权利要求1所述的基于Lasso算法的异常数据检测方法,其特征在于,所述日历特征包括:月份、星期、季度、是否月初第一天、是否月末最后一天、是否季度第一天、是否季度最后一天、是否周末、假期类型。
3.根据权利要求1所述的基于Lasso算法的异常数据检测方法,其特征在于,所述历史用电数据数值特征包括:当前日期往前平移5天的数值、当前日期往前平移6个天的数值、当前日期往前平移7天的数值、当前日期往前平移8天的数值、去年同期月日均数值、上个月日均数值、当前日期所对应假期类型的平均数值。
4.根据权利要求2或3所述的基于Lasso算法的异常数据检测方法,其特征在于,对训练样本集进行学习训练前,对所述训练样本集进行数据清洗,包括:
利用S-H-ESD算法识别所述训练样本集中的异常数据;
通过均值插补法对识别的异常数据进行数据修复。
5.根据权利要求4所述的基于Lasso算法的异常数据检测方法,其特征在于,利用S-H-ESD 算法识别所述训练样本集中的异常数据,包括:
S01、采用STL算法将所述训练样本集中的时序数据分解为趋势分量、周期分量和余项分量,将所述余项分量作为第一余项分量;
S02、基于所述训练样本集中时序数据的中位数和所述周期分量计算得到第二余项分量,计算公式为:
S03、计算所述第二余项分量的数据序列与中位数偏离的最远残差,作为检验统计量;
S04、计算当前样本的临界值;
S05、比较所述检验统计量和所述临界值;
S06、若所述检验统计量大于所述临界值,则标记当前样本数据为异常数据,
S07、迭代执行步骤S01-步骤S06,对所述训练样本集中每个数据进行检测。
6.根据权利要求4所述的基于Lasso算法的异常数据检测方法,其特征在于,所述均值插补法为采用异常数据相邻的前2个与后2个非异常数据的均值进行数据修复:
其中,为修复后的数据,为j日期逐日往前推移时出现的第一个及第二个非异常数据,为j日期逐日往后推移时出现的第一个及第二个非异常数据。
7.根据权利要求4所述的基于Lasso算法的异常数据检测方法,其特征在于,对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测,包括:
基于所述预测用电数据,得到实际用电数据与所述预测用电数据的数值之差;
当数值之差的绝对值大于预设阈值时,判断所述实际用电数据为异常数据;否则,判断所述实际用电数据为正常数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;国网浙江省电力有限公司营销服务中心,未经国网浙江省电力有限公司;国网浙江省电力有限公司营销服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010859396.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的业务处理方法、装置、设备及存储介质
- 下一篇:天然矿泉水处理系统