[发明专利]基于记忆增强型自编码器的时序数据异常检测方法和装置在审
申请号: | 202111619238.9 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114298217A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 高洪浩;邱彬洋;许华虎;卞敏捷;冉琼慧子;吴淑萍 | 申请(专利权)人: | 上海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 记忆 增强 编码器 时序 数据 异常 检测 方法 装置 | ||
本发明涉及一种基于记忆增强型自编码器的时序数据异常检测方法和装置,方法包括:获取原始数据,处理后得到原始样本;采用编码器将原始样本编码为潜在表示;计算潜在表示与各个记忆项之间的相对距离,构成寻址向量;将寻址向量与各个记忆项分别相乘,将相乘结果相加得到新的潜在表示;采用解码器对新的潜在表示解码,得到重建样本;根据原始样本和重建样本的重建误差,实现异常检测;记忆项的训练包括:初始化记忆项,获取训练数据,并执行上述步骤,获取重建误差,计算重建损失,不断迭代训练调整记忆项中的参数。与现有技术相比,本发明能够抑制模型的过度泛化能力,增大异常数据和正常数据之间的异常分数,极大提高识别异常的准确率。
技术领域
本发明涉及自编码器领域,尤其是涉及基于记忆增强型自编码器的时序数据异常检测方法和装置。
背景技术
自编码器是异常检测算法中一种非常高效且常用的方法。其通过对整个数据集的无监督学习,利用样本本身训练模型进行重建。在异常检测任务中,一般将重建误差作为判断异常的指标。而样本量占比大的正常数据,自然对参数的影响就要比样本量占比小的要大得多。一般假设正常数据的重建误差较低,因为它们接近原样本;而对于异常数据,重建误差则较高。然而,这种假设在时间序列的异常检测任务中并不总是成立的。自编码器有时候也会很好的泛化,使得异常数据也能很好的重建。这导致异常样本也拥有同正常样本相当低的重建误差,则无法区分开来。这是因为自编码器的学习能力太强,参数容量太大,使得模型能够学习到正常样本的模式的同时,也学习到了异常的模式。这种由于泛化能力过强导致的“过度泛化”的现象在时间序列异常检测中由为常见。然而衡量模型复杂度与数据空间的量级是一个漫长而低效的过程,所以需要一个无监督、端到端、不容易过过度泛化的方法。
发明内容
本发明的目的就是为了克服上述现有技术存在自编码器对异常数据的过度泛化能力的缺陷而提供一种基于记忆增强型自编码器的时序数据异常检测方法和装置。
本发明的目的可以通过以下技术方案来实现:
一种基于记忆增强型自编码器的时序数据异常检测方法,包括以下步骤:
步骤1:获取原始数据,进行预处理后获得时序数据,对该时序数据进行归一化处理,得到原始样本;
步骤2:采用编码器将原始样本编码为潜在表示;
步骤3:分别计算所述潜在表示与预先设置并训练好的各个记忆项之间的相对距离,构成寻址向量;
步骤4:将所述寻址向量与各个记忆项分别相乘,得到新的潜在表示;
步骤5:采用解码器对所述新的潜在表示进行解码,得到重建样本;
步骤6:根据所述原始样本和重建样本之间的重建误差,进行时序数据异常检测;
所述记忆项的训练过程包括:初始化各个记忆项,获取训练数据,并依次执行步骤1-步骤6,获取重建误差,从而计算重建损失,调整各个记忆项中的参数;重复步骤1-步骤6,调整各个记忆项中的参数,进行迭代训练,直至满足预设的训练停止条件。
进一步地,步骤3还包括:对寻址向量依次进行整流和标准化操作。
进一步地,所述整流的计算表达式为:
式中,为整流后的第i条记忆项对应的寻址向量,qi为第i条记忆项对应的寻址向量,λ为预设的稀疏化阈值,N为记忆项的总数;
所述标准化的计算表达式为:
式中,q为标准化后的寻址向量,ε为预设的标准阈值。
进一步地,所述重建损失的计算表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111619238.9/2.html,转载请声明来源钻瓜专利网。