[发明专利]一种基于分布式日志的最大频繁序列模式挖掘方法有效
申请号: | 201810571573.8 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108874952B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 肖如良;陈雄;蔡声镇;陈黎飞;许力;倪友聪 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福州市闽侯县*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于分布式日志的最大频繁序列模式挖掘方法,基于Spark分布式计算框架,提取局部最大频繁序列;利用前缀投影来划分搜索空间,递归提取出局部最大频繁序列;其中,利用频繁1序列删除日志序列数据集里面非频繁项,降低扫描数据库的规模,同时利用频繁序列模式与最大频繁序列模式之间对应关系减少候选序列数;提取全局最大频繁序列;将局部最大频繁序列按不同长度保存,相邻长度的序列模式进行超集检测,判断是否存在超集关系;如果存在,删除冗余序列,提取出全局最大频繁序列。本发明提出的一种基于分布式日志的最大频繁序列模式挖掘方法,具有更高效率,并支持更大规模事件序列数据的挖掘。 | ||
搜索关键词: | 一种 基于 分布式 日志 最大 频繁 序列 模式 挖掘 方法 | ||
【主权项】:
1.一种基于分布式日志的最大频繁序列模式挖掘方法,其特征在于,按照如下步骤实现:步骤S1:基于Spark分布式计算框架,提取局部最大频繁序列;利用前缀投影来划分搜索空间,递归提取出局部最大频繁序列;其中,利用频繁1序列删除日志序列数据集里面非频繁项,降低扫描数据库的规模,同时利用频繁序列模式与最大频繁序列模式之间对应关系减少候选序列数;步骤S2:提取全局最大频繁序列;将局部最大频繁序列按不同长度保存,相邻长度的序列模式进行超集检测,判断是否存在超集关系;如果存在,删除冗余序列,提取出全局最大频繁序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810571573.8/,转载请声明来源钻瓜专利网。
- 上一篇:报表数据处理方法
- 下一篇:一种数据库查询的优化方法、介质及设备