[发明专利]一次性条件下带弱通配符的自适应序列模式挖掘方法在审

专利信息
申请号: 202010544308.8 申请日: 2020-06-15
公开(公告)号: CN111581460A 公开(公告)日: 2020-08-25
发明(设计)人: 史巧硕;王晓慧;李杨;耿萌;罗岚方;陈明婕;武优西 申请(专利权)人: 河北工业大学
主分类号: G06F16/903 分类号: G06F16/903
代理公司: 天津翰林知识产权代理事务所(普通合伙) 12210 代理人: 胡安朋
地址: 300130 天津市红桥区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一次性 条件下 通配符 自适应 序列 模式 挖掘 方法
【权利要求书】:

1.一次性条件下带弱通配符的自适应序列模式挖掘方法,其特征在于:采用模式增长的方式生成候选模式去缩减空间,在计算一次性条件下带弱通配符的模式支持度时,采用了在线倒序填充策略实现模式支持度的高效计算,从而实现了一次性条件下带弱通配符的自适应序列模式挖掘,具体步骤如下:

第一步,读入序列数据库SDB,给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup:

读入序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S1、序列S2、…、序列Sk、…、序列SN,其中1≤k≤N,序列Sk中的每个字符分别记作字符s1、字符s2、…、字符sn,给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup;

第二步,处理模式长度为1的频繁模式集合fre1

将上述第一步给定的强字符集Γ中的字符加入模式长度为1的候选模式集合cand1中,计算候选模式集合cand1中每个模式的出现数,将出现数大于等于最小支持度阈值minsup的模式加入模式长度为1的频繁模式集合fre1

第三步,生成模式长度为L+1候选模式集合candL+1

采用模式拼接的方法生成候选模式集合candL+1,其中L表示频繁模式的长度,操作如下:

①当L=1时,将上述第二步处理获得的模式长度为1的频繁模式集合fre1中的字符相互组合,生成模式长度为L+1的候选模式集合candL+1

②当L1时,采用模式拼接的方法生成模式长度为L+1的候选模式集合candL+1,具体操作是:

当L1时,在生成候选模式集合candL+1的过程中,对于模式p=p1p2…pm-1pm,除去模式p的最后一个子模式pm剩余的部分称为模式p的前缀,即prefix(p)=p1p2…pm-1;除去模式p的第一个子模式p1剩余的部分称为模式p的后缀,即suffix(p)=p2…pm-1pm;当存在模式长度同为L的模式p和模式q,满足模式p的后缀与模式q的前缀相等时,采用模式拼接方法拼接为模式长度为L+1的模式r,即suffix(p)=p2p3…pL=prefix(q)=q1q2…qL-1时,模式

当模式长度为L的频繁模式集合freL不为空时,从左到右遍历频繁模式集合freL,依次取出该频繁模式集合freL中的模式pi,计算模式pi的后缀suffix(pi),从左到右寻找满足suffix(pi)=prefix(pj)条件的模式pj,对模式pi与模式pj进行模式拼接为模式长度为L+1的模式将模式r加入模式长度为L+1的候选模式集合candL+1中,对频繁模式集合freL中的所有满足suffix(pi)=prefix(pj)条件的模式pj进行拼接,直到在频繁模式集合freL中模式pj的下一个模式pk,suffix(pi)≠prefix(pk)时,对模式pi的拼接结束,从频繁模式集合freL中模式pi的下一个模式开始,继续重复上述步骤,直到最后一个模式拼接结束,模式长度为L+1的候选模式集合candL+1生成完毕;

第四步,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB):

上述第三步生成的模式长度为L+1的候选模式集合candL+1中每个模式pi为上述第三步中的当模式长度为L的频繁模式集合freL不为空时,从左到右遍历频繁模式集合freL,依次取出该频繁模式集合freL中的模式pi,序列Sk为上述第一步中的序列数据库SDB中的一个序列,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB)的操作如下:

第(4.1)步,计算模式pi在序列Sk中的模式支持度sup(pi,Sk):

计算步骤如下,

第(4.1.1)步,确定队列的个数:

读入模式pi,确定其长度为m,该模式pi的各个子模式分别记作子模式pi1、子模式pi2、…子模式pij、…子模式pim,这里(0j≤m),根据给定模式pi中的子模式数确定队列的个数,则确定队列共有m个,分别记作队列1、队列2、…、队列j、…、队列m,这里0j≤m,模式支持度sup(pi,Sk)初始化为0;

第(4.1.2)步,创建队列结点:

在一次性条件下挖掘频繁模式过程中,所有结点不可重复使用,根据上述第一步中给定的强字符集Γ、弱字符集Ω和序列Sk和上述第(4.1.1)步读入的模式pi,采用倒序匹配策略创建队列结点,创建队列结点,具体方法如下:

依次读入序列Sk中的字符,依次从模式pi最后一层即子模式pm开始做判断,判断序列Sk中的字符是否与模式pi中字符相同,结果如下:

1)序列Sk中的字符与模式pi中的字符不相同,无法创建队列结点;

2)序列Sk中的字符与模式pi中的字符相同,分下列两种情况做判断:

①在上述队列1即当j=1时,直接在队列1中创建标签为i的结点

②在上述除队列1之外的队列,即当j1时,需要同时满足以下两个条件,结点才能创建:

a)队列j和队列j-1满足numjnumj-1,其中num表示结点个数;

b)结点和上层队列对应结点满足弱通配符的要求,即间隙中的字符只能属于弱字符集Ω,当不满足间隙中的字符只能属于弱字符集Ω时,要将结点和上层队列对应结点所在的队列都删除;

当上述最后一层队列m即当j=m不为空时,代表队列中存在一组出现,模式pi的模式支持度sup(pi,Sk)加1,直至读完序列中的所有字符,找到所有的一次性出现,模式pi在序列Sk中的出现寻找完毕,模式pi的模式支持度sup(pi,Sk)计算结束;

由此完成模式pi在序列Sk中的模式支持度sup(pi,Sk)的计算;

第(4.2)步,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB):

通过如下公式(1)计算候选模式集合candL+1中的模式pi在上述第一步中读入的序列数据库SDB中的模式支持度sup(pi,SDB),

公式(1)中,sup(pi,Sk)为模式pi在序列Sk中的模式支持度,即出现数,Sk为序列数据库SDB中的第k个序列;

通过上述第(4.1)步依次计算模式pi在序列数据库SDB中序列S1、序列S2、…、序列Sk、…、序列SN的模式支持度sup(pi,S1)、sup(pi,S2)、…、sup(pi,Sk)、…、sup(pi,SN),其中1≤k≤N,然后通过上述公式(1)计算得到模式pi在上述第一步中读入的序列数据库SDB中的模式支持度sup(pi,SDB);

第五步,获得所有模式长度为L+1的频繁模式集合freL+1

通过上述第四步依次计算上述第三步生成的模式长度为L+1的候选模式集合candL+1中每个模式pi的模式支持度sup(pi,SDB),当sup(pi,SDB)≥最小支持度阈值minsup时,添加到模式长度为L+1的频繁模式集合freL+1中,并且按字母顺序排列,由此获得所有模式长度为L+1的频繁模式集合freL+1

第六步,一次性条件下带弱通配符的自适应序列模式挖掘结束:

当上述第三步生成的模式长度为L+1的候选模式集合candL+1为空或当上述第五步获得的所有模式长度为L+1的频繁模式集合freL+1为空时,频繁模式挖掘完毕,由此,一次性条件下带弱通配符的自适应序列模式挖掘结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010544308.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top