[发明专利]基于最大频繁模式的动态规则库构建方法有效
申请号: | 201810092166.9 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108173876B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 肖如良;陈雄;蔡声镇;熊金波;倪友聪;龚平;许力 | 申请(专利权)人: | 福建师范大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福州市闽侯县*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最大 频繁 模式 动态 规则 构建 方法 | ||
本发明涉及一种基于最大频繁模式的动态规则库构建方法,包括以下步骤:输入Web日志数据集,并对其进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字;进行用户识别和会话识别,构造WASD;遍历WASD的每行,过滤出每个用户的近期访问行为,构成该用户的近期访问序列,进而由所有用户的近期访问序列构成DWASD;构造Spark运行环境变量
技术领域
本发明涉及Web服务器异常检测技术领域,特别涉及一种基于最大频繁模式的动态规则库构建方法。
背景技术
随着应用层异常检测算法的不断深入研究,针对Web服务器的异常检测已经取得一定成绩。攻击者为了更好地达到攻击目的,逃避已有的检测方法,针对Web服务器的应用层攻击方式呈现多样化、隐蔽化的趋势。而现有的Snort系统面临着需要大量的精力维护其规则库,缺乏专业知识指导建立规则的问题。WASD是分析Web用户行为的一种重要格式,一种普遍的研究方式是从WASD中挖掘出正常用户行为序列模式,再将用户行为模式与正常模式库进行比较来检测异常。
由于将正常用户行为序列模式作为规则库的构建基础,然而由于Web流量存在时效性,如有重大新闻发生的新闻网站流量数据必然比平时更具突发性,因此将完整的WASD作为数据基础,不仅不能体现当前Web流量的时效性,而且随着Web流量的增加,会导致系统的计算量上升。
序列模式挖掘是指从海量序列中挖掘出重复频率较高的模式,其关键是将时间属性融入关联模式。目前已提出许多序列模式挖掘算法,加拿大西蒙-弗雷泽大学裴健提出了一种基于序列模式增长策略的 PrefixSpan(Prefix-Projected Pattern Growth, 前缀投影模式挖掘)算法。该方法比传统的Apriori算法和广义序列模式算法有效。PrefixSpan算法由于将原始序列模式库转变为投影数据库从而节省了空间,然而需要更多的时间递归地构建投影数据库,时间效率低。
发明内容
本发明的目的在于提供一种基于最大频繁模式的动态规则库构建方法,该方法有利于降低计算量,快速有效地构建出更加具有时效性的规则库。
为实现上述目的,本发明的技术方案是:一种基于最大频繁模式的动态规则库构建方法,包括以下步骤:
(1)输入Web日志数据集,然后对Web日志数据集进行数据过滤,将时间格式转化为时间戳并获取当前时间,将IP和URL映射为数字;
(2)进行用户识别和会话识别,构造Web用户访问序列数据库WASD;
(3)遍历WASD的每行数据,其中一行数据表示一个用户的访问序列,根据用户访问行为距当前时间的远近过滤出每个用户的近期访问行为,构成该用户的近期访问序列,进而由所有用户的近期访问序列构成动态Web用户访问序列数据库DWASD;
(4)给定最小支持度阈值
(5)计算最近最小支持度
(6)第一次扫描数据库,使用countPrefix(_._1)函数对前缀进行权重计数,并使用filter过滤函数来提取频繁1项集;
(7)通过得到的频繁1项集分割搜索空间序列模式,构建各频繁1项集的投影数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810092166.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面登录方法及装置、电子设备、存储介质
- 下一篇:终端检测响应系统及方法