[发明专利]基于最大频繁模式的动态规则库构建方法有效
申请号: | 201810092166.9 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108173876B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 肖如良;陈雄;蔡声镇;熊金波;倪友聪;龚平;许力 | 申请(专利权)人: | 福建师范大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福州市闽侯县*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明涉及一种基于最大频繁模式的动态规则库构建方法,包括以下步骤:输入Web日志数据集,并对其进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字;进行用户识别和会话识别,构造WASD;遍历WASD的每行,过滤出每个用户的近期访问行为,构成该用户的近期访问序列,进而由所有用户的近期访问序列构成DWASD;构造Spark运行环境变量 |
||
搜索关键词: | 基于 最大 频繁 模式 动态 规则 构建 方法 | ||
(1)输入Web日志数据集,然后对Web日志数据集进行数据过滤,将时间格式转化为时间戳并获取当前时间,将IP和URL映射为数字;
(2)进行用户识别和会话识别,构造Web用户访问序列数据库WASD;
(3)遍历WASD的每行数据,其中一行数据表示一个用户的访问序列,根据用户访问行为距当前时间的远近过滤出每个用户的近期访问行为,构成该用户的近期访问序列,进而由所有用户的近期访问序列构成动态Web用户访问序列数据库DWASD;
(4)给定最小支持度阈值θ,构造Spark运行环境变量sc,让Master主结点分配Worker从节点读取DWASD数据集,作为各Worker从结点的file变量;
(5)计算最近最小支持度min_support;
(6)第一次扫描数据库,使用countPrefix(_._1)函数对前缀进行权重计数,并使用filter过滤函数来提取频繁1项集;
(7)通过得到的频繁1项集分割搜索空间序列模式,构建各频繁1项集的投影数据库;
(8)递归每一个频繁1项集为前缀的投影数据库,找出频繁2项集;
(9)判断是否继续产生频繁子序列,是则按步骤(7)、(8)的方法,继续递归构建频繁项集的投影数据库,否则得到所有的频繁序列模式;
(10)计算最大频繁项集,并将其保存到动态规则库矩阵变量DRB中,从而得到基于最大频繁模式的动态规则库。
2.根据权利要求1所述的基于最大频繁模式的动态规则库构建方法,其特征在于,在步骤(3)中,根据用户访问行为距当前时间的远近过滤出用户的近期访问行为的方法为:(31)计算用户访问每个页面的权重:
Wui = 1/(1+α*|tc‑tui|)
其中,Wui表示用户u访问页面i的权重,α表示时间衰减系数,tc表示当前时间,tui表示用户u访问页面i的时间戳;
(32)判断权重Wui是否大于设定的时间阈值β,是则判定该权重对应的用户访问行为为近期访问行为;
(33)重复步骤(31)‑(32),得到该用户的所有近期访问行为,进而由该用户的所有近期访问行为构成该用户的近期访问序列。
3.根据权利要求1所述的基于最大频繁模式的动态规则库构建方法,其特征在于,在步骤(5)中,最近最小支持度min_support的计算方法为:min_support = file.count()*θ
其中,file.count()是计算读入DWASD里面的数据条数,θ是最小支持度阈值。
4.根据权利要求1所述的基于最大频繁模式的动态规则库构建方法,其特征在于,在步骤(7)中,通过得到的频繁1项集分割搜索空间序列模式,构建各频繁1项集的投影数据库,具体方法为:将频繁序列数据库分为n个具有不同前缀的频繁序列的子集,分割为n空间就是各频繁1项集为前缀的投影数据库,其中n是频繁1项集的数量。5.根据权利要求1所述的基于最大频繁模式的动态规则库构建方法,其特征在于,在步骤(10)中,计算最大频繁项集的具体方法为:(101)遍历挖掘出来的频繁序列,保存到A(n)中;其中,A(n)表示频繁序列长度为n的频繁序列;
(102)遍历A(n)与A(n+1),判断这两个相邻长度里面频繁序列是否是子序列关系,删除子序列;
(103)把剩余最大频繁项集保存到DRB中;其中,DRB为动态规则库矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810092166.9/,转载请声明来源钻瓜专利网。
- 上一篇:页面登录方法及装置、电子设备、存储介质
- 下一篇:终端检测响应系统及方法