[发明专利]一种基于分布式日志的最大频繁序列模式挖掘方法有效
申请号: | 201810571573.8 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108874952B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 肖如良;陈雄;蔡声镇;陈黎飞;许力;倪友聪 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福州市闽侯县*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 日志 最大 频繁 序列 模式 挖掘 方法 | ||
1.一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,按照如下步骤实现:
步骤S1:基于Spark分布式计算框架,提取局部最大频繁序列;利用前缀投影来划分搜索空间,递归提取出局部最大频繁序列;其中,利用频繁1序列删除日志序列数据集里面非频繁项,降低扫描数据库的规模,同时利用频繁序列模式与最大频繁序列模式之间对应关系减少候选序列数;
步骤S2:提取全局最大频繁序列;将局部最大频繁序列按不同长度保存,相邻长度的序列模式进行超集检测,判断是否存在超集关系;如果存在,删除冗余序列,提取出全局最大频繁序列。
2.根据权利要求1所述的一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,在所述步骤S1中,还包括如下步骤:读取分布式数据集;过滤出频繁1序列;过滤非频繁序列;映射出投影数据库 ;遍历前缀;从投影数据中找出频繁前缀 ;构建频繁2序列,并检测是否能够继续递归挖掘。
3.根据权利要求2所述的一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,在所述过滤非频繁序列过程中,采用基于Spark内存缓存机制缓存原始日志序列数据集。
4.根据权利要求2所述的一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,在所述构建频繁2序列,并检测是否能够继续递归挖掘过程中,保存递归到最长搜索路径的序列模式,过滤掉候选频繁序列,提取出局部最大频繁序列。
5.根据权利要求1所述的一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,在所述步骤S2中,还包括如下步骤:遍历局部最大频繁序列;对不同长度频繁序列进行遍历;判断相邻长度是否存在超集关系;若存在,删除冗余序列中的子集频繁序列,提取出全局最大频繁序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810571573.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:报表数据处理方法
- 下一篇:一种数据库查询的优化方法、介质及设备