[发明专利]一种基于无监督学习的时间序列异常检测方法及系统在审
申请号: | 202011589222.3 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112597539A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 余贤喆;梁淑云;刘胜;马影;陶景龙;王启凡;魏国富;殷钱安;周晓勇 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 时间 序列 异常 检测 方法 系统 | ||
1.一种基于无监督学习的时间序列异常检测方法,其特征在于,包括以下步骤:
S01.获取服务访问记录,构建用于比较的时间序列;
S02.构建时间序列,选择设定的时间段,对用户访问服务的次数做统计,形成时间序列;
S03.异常操作时间序列检测,采用局部异常因子算法对步骤S02中的时间序列表做局部异常因子检测,采用动态时间规整距离计算序列间的距离,并根据距离计算局部异常因子;
S04.根据步骤S03中计算出的局部异常因子进行筛选,超过阈值的操作为异常操作。
2.根据权利要求1所述的一种基于无监督学习的时间序列异常检测方法,其特征在于:在步骤S03之前,还包括对所述步骤S02中的时间序列进行平滑处理的步骤。
3.根据权利要求1所述的一种基于无监督学习的时间序列异常检测方法,其特征在于:所述步骤S03中的局部异常因子算法的具体计算过程为:一个时间序列为一个样本;假设时间序列集合为S={s(1),s(2),...,s(i),...,s(j)}
其主要计算过程是:
1)计算各样本的k距离
Dk(s(i))=d(s(i),s(k=t))
其中Dk(s(i))表示样本的第k距离,d(s(i),s(k=t))表示距s(i)第k远的样本的距离,s(k=t)表示距s(i)第k远的数据样本s(t)
2)计算各样本的k距离领域
样本s(i)的第k距离以内的所有样本就是样本s(i)的k距离领域
3)计算可达距离
RDt(s(i),s(j))=max(Dk(s(i)),d(s(i),s(j)))
其RDt(s(i),s(j))表示s(i)到s(j)的可达距离,如果s(i)到s(j)的距离小于第k距离,则可达距离为第k距离Dk(s(i)),否则可达距离为真实距离d(s(i),s(j))
4)计算局部可达密度
由于整个数据集可能有多类数据,不同类的点密度不一定相同,所以利用k距离邻域计算局部可达密度
其中,表示s(i)的k距离领域sN中的第t个样本,该邻域中有N个样本。s(i)的局部可达密度LRDk(s(i)),就是s(i)的k距离领域sN所有样本到s(i)的可达距离的平均值倒数,代表sN中样本的密集程度。
5)计算局部异常因子
其中分子表示s(i)的k距离邻域中的所有样本的局部可达密度的均值,分母是s(i)的局部可达密度。通过比较s(i)的密度和其邻域的密度来判断s(i)是否是异常样本,s(i)的密度越低,LRDk(s(i))越小,LOFk(s(i))的值越大,s(i)越可能是异常样本;s(i)的密度越高,LRDk(s(i))越大,LOFk(s(i))的值越接近1或小于1,s(i)越可能是正常的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011589222.3/1.html,转载请声明来源钻瓜专利网。