[发明专利]基于L*算法的业务流程增量挖掘方法在审
申请号: | 201410010776.1 | 申请日: | 2014-01-09 |
公开(公告)号: | CN103778051A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 方贤文;吴俊枝;刘璐;殷志祥;方新建 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 算法 业务流程 增量 挖掘 方法 | ||
技术领域
本发明涉及基于增量日志的业务流程挖掘方法,它避免了以往挖掘方法对于新增加的日志需要重新挖掘的不足,有效适用于从不断增加的日志序列中逐步确定一个满足有效行为、经济实用的流程模型,属于业务流程挖掘领域。
背景技术
目前,很多大型企业的管理应用软件,如企业资源计划、工作流管理系统都会自动生成日志,这些日志是对实际操作流程的记录。业务流程挖掘就是利用这些日志数据,进行分析、重组,重现业务流程的真实过程,且较之与原始模型行为更有效,以达到提高运行效率的目的。
到目前为止,国内外已成功研究出了大量的过程挖掘算法,在一定程度上,它们代表了几个不同的研究方向,如基于活动间的依赖图的挖掘算法,该算法假设日志中的活动是分离的,这样便使得活动的发生有了前后顺序,进而得到活动间的依赖关系;再如面向块结构模型的挖掘算法,该算法把活动间的关系用四种块结构(顺序结构、并行结构、选择结构和循环结构)来表示;再如基于Petri网模型的挖掘算法,该算法的代表算法是α算法等等。本发明则是另寻他法,受到L*算法中的查询思想的启发从而提出了基于L*算法的业务流程优化挖掘方法。
L*算法最早是由Angluin因为学习确定性的有限自动机(DFA)提供的,后经过Rivest和Schapire改进。L*算法本质是在字母表Σ上研究一种未知语言U,而字母表Σ是由能够接受U的最小的DFA产生的。L*算法是一种查询学习方法,主要包括两种查询:一是会员身份查询,即对于字符串σ∈Σ*,是否有σ∈U?二是等价查询,即对于一个DFAC,是否有L(C)=U?为了学习这种未知语言U,L*会反馈答案“Yes/No”给这两种查询。如果反馈给等价查询的是“No”,L*期待一个反例字符串σ使得σ∈U-L(C)或者σ∈L(C)-U,对于第一种情况σ应该添加到L(C),第二种情况应将σ从L(C)中移除。本发明借鉴L*算法中的查询思想,将其运用到日志序列中相邻活动的行为轮廓关系的确定方法中。
发明内容
本发明为了丰富现有的挖掘方法,提出了一种基于L*算法的业务流程增量挖掘方法,采用L*算法查询的基本思想,将日志序列相继活动间的关系与行为轮廓的两种序关系(因为这里考察的是日志序列里的两个相继活动,故不考虑排他序关系)进行查询,建立行为轮廓,从而建立业务流程模型,然后优化选择得到最优模型。另外,在日志序列的提取问题上,为了避免同时操作大量日志序列而产生的冗余、错误等问题,本发明采用增量日志的方法。
在挖掘过程中,首先,从程序运行产生的轨迹中提取频数较大的日志序列,将提取的日志序列进行合并,避免出现重复操作,再将合并后的日志序列按照频数大小顺序排列,即优先考虑频数大的序列,以保证这些序列能被模型接受。其次,定义一个日志弱序关系集合其中x,y是日志序列中两个相继的活动,>代表它们之间的弱序关系,定义序关系集合集合U中依次是行为轮廓关系中的严格序关系和交叉序关系;观察日志序列中每相邻两个活动,经过查询确定是何种序关系。例如,一组日志W={ABCDE,ABDCE,ADBCE},在W中,字母表集合由所有的序关系组成,即根据U集合的定义,我们可知故在W·Σ中我们可找到属于严格序关系的有,(A,B),(A,D),(B,C),(C,E)和(D,E),属于交叉序关系的有(B,D),(C,D),据此,构建Petri网模型作为初始模型。然后验证增量日志序列相邻活动的序关系与初始模型的行为轮廓关系是否一致,若是,则继续验证剩余增量日志序列,若否,则做出调整再进行模型与模型间的一致性分析,然后继续验证。直到所有增量日志验证完毕,得到最优模型。
本发明的优点是采用了L*算法中查询的基本思想,且在查询过程中加入了行为轮廓的概念,利用增量日志来减少操作过程中可能会出现的问题(如堵塞、冗余等),在优化过程中沿用了行为轮廓一致性及模型间的行为轮廓一致性分析,这样得出的模型比之原始模型更加合理得当。
附图说明
图1是本发明实施方式的结构示意图。
图2是本发明日志序列处理的结构示意图。
图3是本发明基于L*算法的模型优化结构示意图。
具体实施方式
以下结合附图所述实施例对本发明作进一步的说明。
图1为本发明的整个流程系统的主要部分的示意图。如图所示,整个系统是以提取日志为开始,经过预处理,然后进行业务流程的挖掘。它主要包括三部分分别是日志序列的处理、初始模型的建立和基于L*算法的业务流程优化挖掘算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410010776.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:保健茶
- 下一篇:既有建筑后增短肢墙和钢拉杆的抗震加固施工方法