[发明专利]一种时间戳修复方法及装置在审
申请号: | 201911275484.X | 申请日: | 2019-12-12 |
公开(公告)号: | CN111061714A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 宋韶旭;龚怿焜;王建民 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时间 修复 方法 装置 | ||
本发明实施例提供一种时间戳修复方法及装置,该方法包括:基于密度异常检测算法对数据点进行异常检测,得到异常数据点集合信息;基于任意最优求解方法对异常数据点集合信息进行分析,得到目标时间戳修改信息;根据目标时间戳修改信息对异常数据点集合信息进行时间戳修复,得到修复后的时间戳属性信息。通过密度异常检测算法对数据点进行异常数据点标记,并得到异常数据点集合,针对于异常数据点进行最小时间戳修复,从而实现对于异常数据点的修复,并将修复的异常数据点从异常数据点集合信息中删除,并将其添加到正常数据点中,从而实现对于数据点的分布以及密度的改变,避免了修复后的数据和原始数据之间差距过大而导致的信息丢失的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种时间戳修复方法及装置。
背景技术
近些年来,随着信息技术的发展,各类数量不断增长。如何合理利用如此海量的数据已经成为学术界以及工业界研究的重点问题,由于各式各样的数据在其生命周期中会由于各种原因而产生偏差,导致最后获得的数据出现不一致、不完整、不准确等异常情况,而这些异常数据的存在将会不可避免地影响相关算法以及数据分析软件工具最后得到的分析结果。而在实际中,由于数据质量问题造成的损失也不容小视。
数据质量已经成为了一个重要的研究方向,将数据进行清洗从而得到高质量的数据是在进行数据分析前必不可少的流程,而现有技术中对于时序数据的异常数据修复主要是通过异常检测,再对异常数据进行平滑处理,但是这样会导致修复后数据和初始数据之间差距过大,发生信息丢失。
因此如何更有效的进行时序数据的修复已经成为业界亟待解决的问题。
发明内容
本发明实施例提供一种时间戳修复方法及装置,用以解决上述背景技术中提出的技术问题,或至少部分解决上述背景技术中提出的技术问题。
第一方面,本发明实施例提供一种时间戳修复方法,包括:
基于密度异常检测算法对数据点进行异常检测,得到异常数据点集合信息;
基于任意最优求解方法对异常数据点集合信息进行分析,得到目标时间戳修改信息;
根据所述目标时间戳修改信息对所述异常数据点集合信息进行时间戳修复,得到修复后的时间戳属性信息。
更具体的,所述密度异常检测算法包括:具有噪声的基于密度的聚类算法或局部异常因子算法。
更具体的,所述通过密度异常检测算法对数据点进行异常检测,得到异常数据点集合信息的步骤,具体包括:
通过所述局部异常因子算法的异常度计算指标方法对数据点进行异常度计算,得到各个数据点的异常度指数;
将异常度指数大于预设阈值的数据点标记为异常数据点,将所述异常数据点存入异常数据点集合,得到异常数据点集合信息。
更具体的,所述基于任意最优求解方法对异常数据点集合信息进行分析,得到目标时间戳修改信息的步骤,具体包括:
获取异常数据点集合信息中各异常数据点的时间戳属性信息;
获取修改后的异常数据点时间戳属性信息,通过任意最优求解方法对异常数据点的时间戳属性信息和修改后的异常数据点时间戳属性信息之间的差值进行分析,得到目标时间戳修改信息。
更具体的,所述根据所述修复后的时间戳属性信息进行异常数据修复的步骤,具体包括:
获取修复后的异常数据点信息;
将修复后的异常数据点信息从异常数据点中移除,并将修复后的异常数据点信息加入到正常数据点集合中,得到数据修复结果。
更具体的,所述通过所述局部异常因子算法的异常度计算指标方法对数据点进行异常度计算的步骤,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911275484.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效固废基胶凝活性激发剂
- 下一篇:润滑油流体支撑装置