[发明专利]保序序列模式挖掘方法在审

专利信息
申请号: 202010544303.5 申请日: 2020-06-15
公开(公告)号: CN111581262A 公开(公告)日: 2020-08-25
发明(设计)人: 武优西;户倩;郭媛;王晓慧;赵晓倩;王珠林;崔文峰 申请(专利权)人: 河北工业大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06N5/02
代理公司: 天津翰林知识产权代理事务所(普通合伙) 12210 代理人: 胡安朋
地址: 300130 天津市红桥区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 序列 模式 挖掘 方法
【权利要求书】:

1.保序序列模式挖掘方法,其特征在于:利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度,具体步骤如下:

第一步,输入时间序列S和最小支持度阈值minsup:

输入时间序列S,确定其长度为n,该时间序列S中的每个元素分别记作元素s1、元素s2、…、元素sn,输入最小支持度阈值minsup,它是由用户所指定的、所期望的模式在时间序列S中的最小出现数;

第二步,获得模式长度为2的频繁模式集合fre2

模式长度为2的候选模式集合cand2={(1,2),(2,1)},按照如下所述的模式支持度的计算步骤,依次计算模式长度为2的候选模式集合cand2={(1,2),(2,1)}中各候选模式Pd在时间序列S中的模式支持度,当候选模式的模式支持度≥最小支持度阈值minsup,该候选模式Pd就是模式长度为2的频繁模式,并将该候选模式Pd加入到模式长度为2的频繁模式集合fre2中,由此获得模式长度为2的频繁模式集合fre2

模式支持度的计算步骤如下:

首先将当前所处理的候选模式集合中的候选模式Pd的元素按照从小到大的顺序进行排序,将排名第i的元素在候选模式Pd中的位置下标记为index[i],在候选模式Pd中有pindex[i]pindex[i+1]条件成立,其中pindex[i]为候选模式Pd中排名第i的元素,pindex[i+1]是候选模式Pd中排名第i+1的元素,1≤i≤m-1,其中m为当前所处理的候选模式Pd的模式长度,

然后将候选模式Pd按照如下公式(1)转换为二进制数字串P’,二进制数字串P’中的每个元素分别记作元素a1、…、元素ai、…、元素am-1,将时间序列S按照如下公式(2)转换为二进制数字串S’,二进制数字串S’中的每个元素分别记作元素b1、…、元素bj、…、元素bn-1,公式(1)和(2)如下所示,

公式(1)和(2)中,m为当前所处理的候选模式Pd的模式长度,m的初值为2,n为时间序列S的长度,ai为二进制数字串P’中各元素的值,其中1≤i≤m-1,将候选模式Pd中连续两个元素pi和pi+1进行比较,其中1≤i≤m-1,当pipi+1,那么ai等于1,当pipi+1,那么ai等于0;bj为二进制数字串S’中各元素的值,其中1≤j≤n-1,将时间序列S中连续两个元素sj和sj+1进行比较,其中1≤j≤n-1,当sjsj+1,那么bj等于1,当sjsj+1,那么bj等于0;

应用经典模式匹配算法在二进制数字串S’中找出二进制数字串P’的出现,每找到一个出现,就根据该出现保留时间序列S中的对应子序列作为候选子序列,并验证此候选子序列的第一个元素的位置下标l1是否满足条件满足,候选模式Pd的模式支持度加一,不满足,候选模式Pd的模式支持度不变,其中,为候选子序列中与候选模式Pd的元素pindex[i]的位置相对应的元素,为候选子序列中与候选模式Pd的元素pindex[i+1]的位置相对应的元素,1≤i≤m-1,当所有的出现被找到且所有候选子序列被验证完成,即可得到候选模式Pd的模式支持度;

第三步,生成模式长度为L+1的候选模式集合candL+1

采用模式融合方法,由模式长度为L的频繁模式集合freL生成模式长度为L+1的候选模式集合candL+1,其中,L表示当前所处理的频繁模式的模式长度,L的初始值为2,在生成候选模式集合的过程中,对于频繁模式P,它的每个元素分别为元素p1、元素p2、…、元素pL,将频繁模式P的最后一个元素pL除去,剩余的部分称为频繁模式P的前缀,记作prefix(P),频繁模式P的前缀的相对顺序记作prefixorder(P);将频繁模式P的第一个元素p1除去,剩余的部分称为频繁模式P的后缀,记作suffix(P),频繁模式P的后缀的相对顺序记作suffixorder(P),

模式融合方法有以下两种不同情况下的融合规则:

1)普通情况:对于两个模式长度都为L的频繁模式P和频繁模式Q,频繁模式P的每个元素分别为元素p1、元素p2、…、元素pL,频繁模式Q的每个元素分别为元素q1、元素q2、…、元素qL,当频繁模式P的后缀的相对顺序与频繁模式Q的前缀的相对顺序相等,但是频繁模式P的后缀和频繁模式Q的前缀不相等,那么频繁模式P和频繁模式Q能够融合为一个模式长度为L+1的候选模式,记为候选模式X,候选模式X的每个元素分别为元素x1、元素x2、…、元素xL+1,此为普通情况,其具体融合规则如下:

比较频繁模式P的第一个元素p1和频繁模式Q的最后一个元素qL的大小:

①当p1qL时,令候选模式X的第一个元素x1=p1,候选模式X的最后一个元素xL+1=qL+1,然后将频繁模式P的除第一个元素以外的其他位置的元素pu与频繁模式Q的最后一个元素qL相比较,当puqL,那么候选模式X的对应位置元素xu=pu+1,否则,xu=pu,其中2≤u≤L;

②当p1qL时,令候选模式X的第一个元素x1=p1+1,候选模式X的最后一个元素xL+1=qL,然后将频繁模式Q的除最后一个元素以外的其他位置的元素qv与频繁模式P的第一个元素p1进行比较,当qvp1,那么候选模式X的对应位置元素xv+1=qv+1,否则,xv+1=qv,其中1≤v≤L-1;

2)特殊情况:对于两个模式长度都为L的频繁模式P和频繁模式Q,频繁模式P的每个元素分别为元素p1、元素p2、…、元素pL,频繁模式Q的每个元素分别为元素q1、元素q2、…、元素qL,当不仅频繁模式P的后缀的相对顺序和频繁模式Q的前缀的相对顺序相等,而且频繁模式P的后缀和频繁模式Q的前缀也相等,那么频繁模式P和频繁模式Q能够融合为两个模式长度为L+1的候选模式,分别记为候选模式T和候选模式K,候选模式T的每个元素分别为元素t1、元素t2、…、元素tL+1,候选模式K的每个元素分别为元素k1、元素k2、…、元素kL+1,此为特殊情况,其具体融合规则如下:

在生成候选模式T时,令候选模式T的第一个元素t1=p1+1,候选模式T的最后一个元素tL+1=p1,然后将频繁模式P的除第一个元素以外的其他位置的元素pu与p1进行比较,当pup1,那么候选模式T的对应位置元素tu=pu+1,否则,tu=pu,其中2≤u≤L;

在生成候选模式K时,令候选模式K的第一个元素k1=p1,K的最后一个元素kL+1=p1+1,然后将频繁模式P的除第一个元素以外的其他位置的元素pu与p1进行比较,当pup1,那么候选模式K的对应位置元素ku=pu+1,否则,ku=pu,其中2≤u≤L;

采用上述模式融合方法,由模式长度为L的频繁模式集合freL生成模式长度为L+1的候选模式集合candL+1的具体处理方法如下:

当模式长度为L的频繁模式集合freL不为空时,首先取出频繁模式集合freL中的第一个频繁模式Pa,计算频繁模式Pa的后缀和后缀的相对顺序,然后从左到右依次遍历频繁模式集合freL中的每一个频繁模式Pb,并依次判断频繁模式Pb与频繁模式Pa是否满足上述模式融合方法中的两种情况,当满足任一情况就按照对应的融合规则进行融合生成模式长度为L+1的候选模式,然后将生成的模式长度为L+1的候选模式加入到模式长度为L+1的候选模式集合candL+1中,当遍历完所有的频繁模式Pb,对频繁模式Pa的融合处理结束,然后从频繁模式集合freL中的第一个频繁模式Pa的下一个频繁模式开始,继续重复上述步骤,直到处理完频繁模式集合freL中的最后一个频繁模式,完成生成模式长度为L+1的候选模式集合candL+1

第四步,获得模式长度为L+1的频繁模式集合freL+1

按照上述第二步所述的模式支持度的计算方法,依次计算模式长度为L+1的候选模式集合candL+1中的每个候选模式Pd的模式支持度sup(Pd,S),当候选模式Pd的模式支持度sup(Pd,S)≥最小支持度阈值minsup时,将候选模式Pd添加到模式长度为L+1的频繁模式集合freL+1中,当计算完候选模式集合candL+1中所有候选模式的模式支持度,即获得模式长度为L+1的频繁模式集合freL+1

第五步,完毕保序序列模式挖掘:

当模式长度为L+1的频繁模式集合freL+1不为空时,循环上述的第三步和第四步,直到模式长度为L+1的候选模式集合candL+1为空或模式长度为L+1的频繁模式集合freL+1为空,完毕保序序列模式挖掘。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010544303.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top