[发明专利]时序工业控制协议数据的清洗方法和装置在审
申请号: | 202310006450.0 | 申请日: | 2023-01-04 |
公开(公告)号: | CN115982145A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 李勇;李闯;孙喜民;贾江凯;李晓明;孙博;郝怡;刘丹;王明达 | 申请(专利权)人: | 国网数字科技控股有限公司;国网电商科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/2457 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 工业 控制 协议 数据 清洗 方法 装置 | ||
本申请提供一种时序工业控制协议数据的清洗方法和装置,方法包括,获得待清洗时序数据、同一数据来源的历史时序数据和最大速度约束;根据待清洗时序数据中前N个清洗窗口的数据点、最大速度约束和历史时序数据,确定当前速度约束;从待清洗时序数据的第N+1个清洗窗口开始,根据每一数据点的速度和当前速度约束逐一识别待清洗时序数据中每一数据点是否为异常数据点,并清洗识别出的异常数据点。本方案根据待清洗时序数据确定匹配的当前速度约束,并根据数据点的速度是否满足当前速度约束来识别并清洗异常数据点,即使时序数据有较大幅度的波动也能准确并清洗其中的异常数据点,提高了数据清洗的准确度。
技术领域
本发明涉及数据清洗技术领域,特别涉及一种时序工业控制协议数据的清洗方法和装置。
背景技术
随着电力系统信息化的不断发展,以传感器采集的时间序列数据(简称时序数据)为代表的电力大数据不断产生。同时,错误在时间序列中很常见,例如,传感器、终端记录器和其他设备在数据采集、数据传输和数据记录过程中受到主观和客观因素的影响,导致最终数据中存在某些数据质量问题。低质量的数据会对数据分析等监控服务造成严重影响。
因此,在时序数据中识别出异常数据,并清洗识别出的异常数据就显得尤为重要。其中,清洗异常数据,是指将异常数据替换为正常数据。
现有的数据清洗方式,一般是设置一个固定的阈值,然后每一个大于该阈值的数值确定为异常值。这种方式存在的问题是,在时间序列数据中,正常数值本身也会随着时间推移而发生较大幅度的波动,而这种方式中固定的阈值容易将正常波动范围内的数值也识别为异常值,准确度较低。
发明内容
针对上述现有技术的缺点,本发明提供一种时序工业控制协议数据的清洗方法和装置,以提高对时序数据进行数据清洗时的准确度。
本申请第一方面提供一种时序工业控制协议数据的清洗方法,包括:
获得待清洗时序数据、历史时序数据和最大速度约束;其中,所述历史时序数据和所述待清洗时序数据的数据来源相同;
根据所述待清洗时序数据中前N个清洗窗口的数据点、所述最大速度约束和所述历史时序数据,确定当前速度约束;其中,N为预设的正整数;
从所述待清洗时序数据的第N+1个清洗窗口开始,根据每一数据点的速度和所述当前速度约束逐一识别所述待清洗时序数据中每一数据点是否为异常数据点,并清洗识别出的所述异常数据点。
可选的,所述根据所述待清洗时序数据中前N个清洗窗口的数据点、所述最大速度约束和所述历史时序数据,确定当前速度约束,包括:
计算所述历史时序数据中每一数据点的速度;
统计所述历史时序数据中各个数据点的速度的平均值和标准差,并根据预设的目标置信度对应的置信区间宽度,以及所述均值和所述标准差,确定初始速度约束;
根据所述待清洗时序数据中前N个清洗窗口的数据点以及所述最大速度约束调整所述初始速度约束,获得当前速度约束。
可选的,当识别出的所述异常数据点为孤立异常点时,所述清洗识别出的所述异常数据点包括:
确定从所述孤立异常点的时间戳开始的第一清洗窗口;
根据时间戳位于所述第一清洗窗口内的其他数据点,计算得到所述孤立异常点的有限候选集;其中,所述其他数据点指代不同于所述孤立异常点的数据点;
用所述孤立异常点的有限候选集的中位数,替换所述孤立异常点,以完成对所述孤立异常点的清洗。
可选的,当识别出的所述异常数据点属于连续异常点时,所述清洗识别出的所述异常数据点包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网数字科技控股有限公司;国网电商科技有限公司,未经国网数字科技控股有限公司;国网电商科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310006450.0/2.html,转载请声明来源钻瓜专利网。