[发明专利]一种异常检测方法、装置和监控设备有效
申请号: | 201710010365.6 | 申请日: | 2017-01-06 |
公开(公告)号: | CN106844576B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 阮松松;姜宁;何晓阳 | 申请(专利权)人: | 北京蓝海讯通科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/33 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 赵爱军;谢建云 |
地址: | 100191 北京市海淀区西小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异常 检测 方法 装置 监控 设备 | ||
1.一种异常检测方法,在监控设备中执行,适于对一个或多个应用服务器中的目标应用进行异常检测,该方法包括:
获取用户访问目标应用时所生成的日志文件,所述日志文件包括多条文本数据;
根据文本模式库对所述日志文件进行模式匹配,生成各条文本数据分别对应的文本模式;
根据文本模式对文本数据进行分类统计,得到统计结果,所述统计结果包括每个应用服务器所生成的日志文件中、各种文本模式在不同时段下分别对应的文本数据条数;以及
根据所述统计结果判断目标应用是否发生异常,具体包括:
根据所述统计结果确定各种文本模式所对应的文本数据条数随着时间的变化规律,所述变化规律通过文本数据条数随着时间的变化曲线来表示;
如果某个应用服务器所生成的日志文件中、具有某个文本模式的文本数据条数在某时段内不符合所述变化规律,则判定该应用服务器中的目标应用在该时段内发生异常;
其中所述文本模式库根据以下步骤生成:
获取所述目标应用的历史日志文件,所述历史日志文件中包括多条文本数据;
对历史日志文件中的每条文本数据进行分词处理;
对历史日志文件中的文本数据进行第一次遍历,统计出所有文本数据中每个单词的出现次数,并从中筛选出出现次数大于第一阈值的单词作为高频词,将高频词与该高频词的出现次数相关联的存储为高频词词典;
分别从历史日志文件中的每条文本数据中筛选出高频词,构成该条文本数据对应的高频词元组;
根据各高频词在文本数据中的出现次数,计算任意两个高频词之间的依赖度,其中任意两个高频词wi和wj之间的依赖度包括wi出现时wj出现的第一条件概率p(wj|wi),以及wj出现时wi出现的第二条件概率p(wi|wj);
对该历史日志文件中的文本数据进行第二次遍历,根据文本数据对应的高频词元组,生成每条文本数据的预选文本模式;
根据高频词之间的依赖度,对文本数据的预选文本模式进行修正,得到文本数据的修正文本模式;以及对文本数据的修正文本模式进行相似度合并,得到文本模式库。
2.如权利要求1所述的方法,其中,所述根据所述统计结果判断目标应用是否发生异常的步骤还包括:
如果某个应用服务器中所生成的日志文件中具有某个文本模式的文本数据条数,在某时段内与其他应用服务器对应的文本数据条数有明显差异,则判定该应用服务器中的目标应用在该时段内发生异常。
3.如权利要求1所述的方法,其中,所述文本数据条数在某时段内不符合所述变化规律的情况包括:
该文本模式所对应的文本数据条数在某一时段内激增或骤降;或者
出现一种新的文本模式。
4.如权利要求3所述的方法,其中,在对每条文本数据进行分词处理前,还包括步骤:
将每条文本数据中的预定类型的关键词替换为预定词,所述预定类型的关键词包括时间、日期、ip地址和数字中的至少一个。
5.如权利要求3所述的方法,其中,所述计算任意两个高频词之间的依赖度的步骤包括:
计算任意两个高频词wi和wj在同一条文本数据中出现的次数n(wi,wj);
根据p(wj|wi)=n(wi,wj)/n(wi)计算第一条件概率,以及根据p(wi|wj)=n(wi,wj)/n(wj)计算的第二条件概率;
其中,n(wi)和n(wj)分别是高频词wi和wj在所有文本数据中出现的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京蓝海讯通科技股份有限公司,未经北京蓝海讯通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710010365.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便捷式枪头装入装置
- 下一篇:一种曲面显示设备包装箱