[发明专利]一种基于机器学习的流程日志活动属性残缺规则提取方法在审
申请号: | 202110257681.X | 申请日: | 2021-03-09 |
公开(公告)号: | CN113139712A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 聂富强;叶旺;孙曜 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 流程 日志 活动 属性 残缺 规则 提取 方法 | ||
1.一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于包括如下步骤:
步骤1、将日志数据进行预处理,首先将记录在业务流程信息管理系统中的流程日志数据提取出来,将XES格式的日志数据转换成适用于机器学习算法的CSV格式,并将流程日志数据以流程实例为单位划分为流程活动路径;
步骤2、待流程日志数据进行预处理预处理后,对每条流程活动路径进行编码,将流程活动路径转换成流程特征向量;
步骤3、使用机器学习中的分类回归决策树对流程特征向量进行分类,构建出一棵分类决策树。
2.根据权利要求1所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于步骤1具体实现如下:
设Case ID为364868,将Case ID为364868的流程实例转化成流程活动路径后记为trace=A,B,C,D,E,其中A,B,C,D,E均为活动类型的唯一标识;如果流程活动路径中的活动属性是完整的,那么流程活动路径也是完整的,如果流程活动路径中的活动属性含有缺失值或不精确值,那么含有属性缺失值或不精确值的活动在流程活动路径中通常用“-”表示,如果流程活动路径trace中的活动B的时间属性值缺失,则流程活动路径被记录为trace=A,-,C,D,E。
3.根据权利要求2所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于步骤2具体实现如下:
采用one-hot编码方式对流程活动路径进行编码:首先遍历预处理后流程日志数据中的每条路径的每个活动,如果发现活动属性值缺失或者记录不精确,则给该活动的紧邻的前一个活动ID增加前缀变量Vpre,给紧邻的后一个活动ID增加后缀变量Vsuf,使得在流程特征向量中将经过编码的活动和原始的活动进行区分。
4.根据权利要求3所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于前缀变量和后缀变量计算公式如下:
Vsuf=∑Typeactivity+1
Vpre=Vsuf×2
其中,Typeactivity为整个流程中的活动类型;取流程日志数据中活动类型总数N作为基变量,后缀变量为基变量加1,前缀变量为后缀变量的2倍。
5.根据权利要求1或2或3或4所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于如果一条流程活动路径中含有残缺值活动,则将该流程活动路径对应的特征向量标签值置为1,否则置0。
6.根据权利要求5所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于步骤3具体实现如下:
构建的分类决策树中叶子结点代表所以流程活动路径中包含属性残缺值的流程活动路径数目,非叶子节点代表包含属性残缺值活动的前后活动信息;非叶子节点中的“X≤Q”表示路径的决策条件,当特征X小于等于Q时,决策树向左决策;当特征X大于Q,决策树向右决策;其中Q为设定的阈值;非叶子节点中样本代表流程活动路径数量S=S1+S2,其中有S1个流程活动路径不包含残缺值,S2个流程活动路径包含残缺值;对S2个包含残缺值的流程活动路径进行分析判断,得出结论。
7.根据权利要求6所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于阈值Q的取值为0.5,采用机器学习库中的scikit-learn规范选取。
8.根据权利要求7所述的一种基于机器学习的流程日志活动属性残缺规则提取方法,其特征在于对包含残缺值的流程活动路径进行分析规则如下:
规则1:包含活动属性残缺值的流程路径在包含残缺值的活动之前是否都有同一个ID的活动执行;
规则2:包含活动属性残缺值的流程路径在包含残缺值的活动之后是否都有同一个ID的活动执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257681.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理