[发明专利]一种基于分布式日志的最大频繁序列模式挖掘方法有效
申请号: | 201810571573.8 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108874952B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 肖如良;陈雄;蔡声镇;陈黎飞;许力;倪友聪 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福州市闽侯县*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 日志 最大 频繁 序列 模式 挖掘 方法 | ||
本发明涉及一种基于分布式日志的最大频繁序列模式挖掘方法,基于Spark分布式计算框架,提取局部最大频繁序列;利用前缀投影来划分搜索空间,递归提取出局部最大频繁序列;其中,利用频繁1序列删除日志序列数据集里面非频繁项,降低扫描数据库的规模,同时利用频繁序列模式与最大频繁序列模式之间对应关系减少候选序列数;提取全局最大频繁序列;将局部最大频繁序列按不同长度保存,相邻长度的序列模式进行超集检测,判断是否存在超集关系;如果存在,删除冗余序列,提取出全局最大频繁序列。本发明提出的一种基于分布式日志的最大频繁序列模式挖掘方法,具有更高效率,并支持更大规模事件序列数据的挖掘。
技术领域
本发明涉及一种基于分布式日志的最大频繁序列模式挖掘方法。
背景技术
随着云计算、物联网、大数据等技术的快速发展,分布式服务器系统已成为各种应用业务的主流环境,各类用户访问及服务提供使系统应用的可靠性要求越来越高,对用户日志或系统服务日志信息分析越来越重要。系统中的日志信息呈分布式状态。传统方法是把分布式环境下的日志信息集中到一台计算机上进行分析处理,通过挖掘频繁序列模式,以获得系统运维所需要的各种状态信息,但集中式分析与挖掘方式将消耗巨大的通信开销。同时,出于用户隐私保护和数据的安全性出发,对大规模分布式环境中各类日志数据数据不应该进行异地保存,也不应该占用网络带宽传输到同一地点以进行集中式处理。从以往的文献来看,有效地保证系统的可靠性与安全性,对日志序列分析与挖掘已经呈现出巨大的潜力。如何有效的从大规模分布式日志数据中挖掘出有用的模式,应用于日志序列分析,具有非常重要的意义。
学术界与工业界经常采用序列模式挖掘(Sequential pattern mining,SPM)去发现集群系统日志数据中隐藏的规律。SPM是指海量事件序列中挖掘出重复频率较高的序列模式,其关键是将时间属性或其他具有顺序的属性融入模型之中,是数据挖掘的一个热点研究领域。序列模式挖掘主要应用于日志序列分析、购物篮行为分析、DNA和蛋白质序列分析等。日志序列模式分析是在应用程序中挖掘用户的访问行为,以便预测用户后续可能的访问模式,可以应用于异常检测,如从日志序列数据中挖掘出正常用户行为序列模式,再将用户行为模式与正常模式库进行比较来检测异常。
但是现有的方法应用于分析大规模分布式日志数据集时,已经取得了一定的进展,但依然存在如下三个方面的问题。
问题1:在巨量的分布式日志数据中提取序列模式,目前存在的主要问题是效率非常低下,缺少有效的并行提取序列模式的方法。
问题2:现有的序列模式挖掘算法一般在发现频繁项集阶段需要维护较大候选序列,当支持度阈值较低时,运行时间代价较高,运行效率低。
问题3:现有的序列模式挖掘研究大多是研究挖掘频繁序列模式和频繁闭序列模式的方法,但这些算法在数据量大时都会挖掘出大量的频繁序列。但过多的频繁序列使用户难以理解用户或系统的行为。
发明内容
本发明的目的在于提供一种基于分布式日志的最大频繁序列模式挖掘方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于分布式日志的最大频繁序列模式挖掘方法,按照如下步骤实现:
步骤S1:基于Spark分布式计算框架,提取局部最大频繁序列;利用前缀投影来划分搜索空间,递归提取出局部最大频繁序列;其中,利用频繁1序列删除日志序列数据集里面非频繁项,降低扫描数据库的规模,同时利用频繁序列模式与最大频繁序列模式之间对应关系减少候选序列数;
步骤S2:提取全局最大频繁序列;将局部最大频繁序列按不同长度保存,相邻长度的序列模式进行超集检测,判断是否存在超集关系;如果存在,删除冗余序列,提取出全局最大频繁序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810571573.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:报表数据处理方法
- 下一篇:一种数据库查询的优化方法、介质及设备