[发明专利]一种基于机器学习的流程日志活动属性残缺规则提取方法在审
申请号: | 202110257681.X | 申请日: | 2021-03-09 |
公开(公告)号: | CN113139712A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 聂富强;叶旺;孙曜 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 流程 日志 活动 属性 残缺 规则 提取 方法 | ||
本发明公开了一种基于机器学习的流程日志活动属性残缺规则提取方法。本发明包括如下步骤:步骤1、将日志数据进行预处理,首先将记录在业务流程信息管理系统中的流程日志数据提取出来,将XES格式的日志数据转换成适用于机器学习算法的CSV格式,并将流程日志数据以流程实例为单位划分为流程活动路径;步骤2、待流程日志数据进行预处理预处理后,对每条流程活动路径进行编码,将流程活动路径转换成流程特征向量;步骤3、使用机器学习中的分类回归决策树对流程特征向量进行分类,构建出一棵分类决策树。本发明能在很大程度上提高数据分析效率,为分析日志数据缺失原因提供参考。本发明提出的方法具有普适性好,准确率高,易于理解的特点。
技术领域
本发明涉及业务流程管理领域,特别是指一种基于机器学习的流程日志活动属性残缺规则提取方法。
背景技术
流程挖掘作为业务流程管理领域一项技术,主要是通过分析记录在业务流程信息管理系统中的流程日志,对现有的企业资源进行优化。业务流程挖掘研究主要分为三个层面:流程模型发现、一致性检验和模型改进。流程模型发现指在历史流程日志中挖掘出流程模型;一致性检测主要是衡量挖掘模型和原有模型的契合度;模型改进是指如何利用挖掘的模型对已知的模型、组织架构等进行改进优化。目前业务流程模型发现研究最多,业务流程模型发现有控制流、组织、案例和时间四个挖掘维度。流程模型发现的挖掘维度主要取决于流程日志中的数据维度。
流程日志是业务流程信息管理系统记录的流程实例执行历史信息。图1为流程日志片段,在流程日志中,一个流程实例(Case)往往包含多个事件(Event)(也称活动(Activity)或者任务(Task))。一个事件包含多个属性,例如流程实例的ID、事件的ID、事件的执行时间戳和活动的执行资源(活动执行人、执行角色和执行所需设备)等。现有的流程挖掘方法大多基于完备的流程日志数据,然而,由于技术原因(如系统故障、资源限制)或者人为原因(如手工记录出错)日志信息系统中通常会记录一定的数据噪声,例如数据缺失、数据记录不精确、记录了不相关的数据等。例如图1中的事件时间戳本应精确到分钟,但是由于某种原因没有记录或者记录精度不够。在数据分析中,这种现象被称为“脏进脏出”。基于质量差的数据进行业务分析只会产生无意义的结果,所以提高数据质量对业务流程挖掘有着至关重要的意义。现有提高数据质量方式主要有两种,一是在数据生成的时候,改善其捕获方式,使日志数据尽可能的记录准确;二是在获取日志数据后,对数据进行修复。修复日志数据主要是通过预测值来填补缺失值或替换不精确的值,但是预测的准确性往往不能达到理想的效果。所以,本发明主要是通过机器学习的方法对日志属性缺失值或记录不精确值规则进行提取,为方式一中分析日志数据产生噪声的原因提供支持。
流程日志中的事件属性在流程挖掘中起着关键作用,例如案例ID(Case ID)通常将流程活动根据案例进行归类;活动的执行时间戳通常用来发现流程执行路径,挖掘流程控制流结构(如流程模型中的选择、并行、循环、重复等结构);活动执行人和执行角色通常用来组织挖掘,通过挖掘的模型进行业务分析,优化组织结构等。事件属性值缺失或记录不精确都难以准确的挖掘出流程模型。所以日志事件属性的完备性决定流程挖掘的准确性。
发明内容
本发明提出了一种基于机器学习的流程日志活动属性残缺规则提取方法,旨在发现流程日志中的活动属性值缺失或记录不精确的趋势,为分析流程日志属性值缺失或记录不精确原因提供支持。
一种基于机器学习的流程日志活动属性残缺规则提取方法,包括如下步骤:
步骤1、将日志数据进行预处理,首先将记录在业务流程信息管理系统中的流程日志数据提取出来,将XES格式的日志数据转换成适用于机器学习算法的CSV格式,并将流程日志数据以流程实例为单位划分为流程活动路径集合;
步骤2、待流程日志数据进行预处理后,对每条流程活动路径进行编码,将流程活动路径转换成流程特征向量;
步骤3、使用机器学习中的分类回归决策树对流程特征向量进行分类,构建出一棵分类决策树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257681.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理