[发明专利]一种基于无监督学习的时间序列异常检测方法及系统在审

专利信息
申请号: 202011589222.3 申请日: 2020-12-28
公开(公告)号: CN112597539A 公开(公告)日: 2021-04-02
发明(设计)人: 余贤喆;梁淑云;刘胜;马影;陶景龙;王启凡;魏国富;殷钱安;周晓勇 申请(专利权)人: 上海观安信息技术股份有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06K9/62;G06N3/04;G06N3/08
代理公司: 合肥市浩智运专利代理事务所(普通合伙) 34124 代理人: 张景云
地址: 200333 上海市浦东新*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 时间 序列 异常 检测 方法 系统
【权利要求书】:

1.一种基于无监督学习的时间序列异常检测方法,其特征在于,包括以下步骤:

S01.获取服务访问记录,构建用于比较的时间序列;

S02.构建时间序列,选择设定的时间段,对用户访问服务的次数做统计,形成时间序列;

S03.异常操作时间序列检测,采用局部异常因子算法对步骤S02中的时间序列表做局部异常因子检测,采用动态时间规整距离计算序列间的距离,并根据距离计算局部异常因子;

S04.根据步骤S03中计算出的局部异常因子进行筛选,超过阈值的操作为异常操作。

2.根据权利要求1所述的一种基于无监督学习的时间序列异常检测方法,其特征在于:在步骤S03之前,还包括对所述步骤S02中的时间序列进行平滑处理的步骤。

3.根据权利要求1所述的一种基于无监督学习的时间序列异常检测方法,其特征在于:所述步骤S03中的局部异常因子算法的具体计算过程为:一个时间序列为一个样本;假设时间序列集合为S={s(1),s(2),...,s(i),...,s(j)}

其主要计算过程是:

1)计算各样本的k距离

Dk(s(i))=d(s(i),s(k=t))

其中Dk(s(i))表示样本的第k距离,d(s(i),s(k=t))表示距s(i)第k远的样本的距离,s(k=t)表示距s(i)第k远的数据样本s(t)

2)计算各样本的k距离领域

样本s(i)的第k距离以内的所有样本就是样本s(i)的k距离领域

3)计算可达距离

RDt(s(i),s(j))=max(Dk(s(i)),d(s(i),s(j)))

其RDt(s(i),s(j))表示s(i)到s(j)的可达距离,如果s(i)到s(j)的距离小于第k距离,则可达距离为第k距离Dk(s(i)),否则可达距离为真实距离d(s(i),s(j))

4)计算局部可达密度

由于整个数据集可能有多类数据,不同类的点密度不一定相同,所以利用k距离邻域计算局部可达密度

其中,表示s(i)的k距离领域sN中的第t个样本,该邻域中有N个样本。s(i)的局部可达密度LRDk(s(i)),就是s(i)的k距离领域sN所有样本到s(i)的可达距离的平均值倒数,代表sN中样本的密集程度。

5)计算局部异常因子

其中分子表示s(i)的k距离邻域中的所有样本的局部可达密度的均值,分母是s(i)的局部可达密度。通过比较s(i)的密度和其邻域的密度来判断s(i)是否是异常样本,s(i)的密度越低,LRDk(s(i))越小,LOFk(s(i))的值越大,s(i)越可能是异常样本;s(i)的密度越高,LRDk(s(i))越大,LOFk(s(i))的值越接近1或小于1,s(i)越可能是正常的样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011589222.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top