[发明专利]一次性条件下带弱通配符的自适应序列模式挖掘方法在审

申请号：	202010544308.8	申请日：	2020-06-15
公开（公告）号：	CN111581460A	公开（公告）日：	2020-08-25
发明（设计）人：	史巧硕;王晓慧;李杨;耿萌;罗岚方;陈明婕;武优西	申请（专利权）人：	河北工业大学
主分类号：	G06F16/903	分类号：	G06F16/903
代理公司：	天津翰林知识产权代理事务所(普通合伙) 12210	代理人：	胡安朋
地址：	300130 天津市红桥区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一次性条件下通配符自适应序列模式挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一次性条件下带弱通配符的自适应序列模式挖掘方法，其特征在于：采用模式增长的方式生成候选模式去缩减空间，在计算一次性条件下带弱通配符的模式支持度时，采用了在线倒序填充策略实现模式支持度的高效计算，从而实现了一次性条件下带弱通配符的自适应序列模式挖掘，具体步骤如下：

第一步，读入序列数据库SDB，给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup：

读入序列数据库SDB，确定其大小为N，该序列数据库SDB中的每个序列分别记为序列S₁、序列S₂、…、序列S_k、…、序列S_N，其中1≤k≤N，序列S_k中的每个字符分别记作字符s₁、字符s₂、…、字符s_n，给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup；

第二步，处理模式长度为1的频繁模式集合fre₁：

将上述第一步给定的强字符集Γ中的字符加入模式长度为1的候选模式集合cand₁中，计算候选模式集合cand₁中每个模式的出现数，将出现数大于等于最小支持度阈值minsup的模式加入模式长度为1的频繁模式集合fre₁；

第三步，生成模式长度为L+1候选模式集合cand_L+1：

采用模式拼接的方法生成候选模式集合cand_L+1，其中L表示频繁模式的长度，操作如下：

①当L＝1时，将上述第二步处理获得的模式长度为1的频繁模式集合fre₁中的字符相互组合，生成模式长度为L+1的候选模式集合cand_L+1；

②当L1时，采用模式拼接的方法生成模式长度为L+1的候选模式集合cand_L+1，具体操作是：

当L1时，在生成候选模式集合cand_L+1的过程中，对于模式p＝p₁p₂…p_m-1p_m，除去模式p的最后一个子模式p_m剩余的部分称为模式p的前缀，即prefix(p)＝p₁p₂…p_m-1；除去模式p的第一个子模式p₁剩余的部分称为模式p的后缀，即suffix(p)＝p₂…p_m-1p_m；当存在模式长度同为L的模式p和模式q，满足模式p的后缀与模式q的前缀相等时，采用模式拼接方法拼接为模式长度为L+1的模式r，即suffix(p)＝p₂p₃…p_L＝prefix(q)＝q₁q₂…q_L-1时，模式

当模式长度为L的频繁模式集合fre_L不为空时，从左到右遍历频繁模式集合fre_L，依次取出该频繁模式集合fre_L中的模式p_i，计算模式p_i的后缀suffix(p_i)，从左到右寻找满足suffix(p_i)＝prefix(p_j)条件的模式p_j，对模式p_i与模式p_j进行模式拼接为模式长度为L+1的模式将模式r加入模式长度为L+1的候选模式集合cand_L+1中，对频繁模式集合fre_L中的所有满足suffix(p_i)＝prefix(p_j)条件的模式p_j进行拼接，直到在频繁模式集合fre_L中模式p_j的下一个模式p_k，suffix(p_i)≠prefix(p_k)时，对模式p_i的拼接结束，从频繁模式集合fre_L中模式p_i的下一个模式开始，继续重复上述步骤，直到最后一个模式拼接结束，模式长度为L+1的候选模式集合cand_L+1生成完毕；

第四步，计算模式p_i在序列数据库SDB中的模式支持度sup(p_i,SDB)：

上述第三步生成的模式长度为L+1的候选模式集合cand_L+1中每个模式p_i为上述第三步中的当模式长度为L的频繁模式集合fre_L不为空时，从左到右遍历频繁模式集合fre_L，依次取出该频繁模式集合fre_L中的模式p_i，序列S_k为上述第一步中的序列数据库SDB中的一个序列，计算模式p_i在序列数据库SDB中的模式支持度sup(p_i,SDB)的操作如下：

第(4.1)步，计算模式p_i在序列S_k中的模式支持度sup(p_i,S_k)：

计算步骤如下，

第(4.1.1)步，确定队列的个数：

读入模式p_i，确定其长度为m，该模式p_i的各个子模式分别记作子模式p_i1、子模式p_i2、…子模式p_ij、…子模式p_im，这里(0j≤m)，根据给定模式p_i中的子模式数确定队列的个数，则确定队列共有m个，分别记作队列1、队列2、…、队列j、…、队列m，这里0j≤m，模式支持度sup(p_i,S_k)初始化为0；

第(4.1.2)步，创建队列结点：

在一次性条件下挖掘频繁模式过程中，所有结点不可重复使用，根据上述第一步中给定的强字符集Γ、弱字符集Ω和序列S_k和上述第(4.1.1)步读入的模式p_i，采用倒序匹配策略创建队列结点，创建队列结点，具体方法如下：

依次读入序列S_k中的字符，依次从模式p_i最后一层即子模式p_m开始做判断，判断序列S_k中的字符是否与模式p_i中字符相同，结果如下：

1)序列S_k中的字符与模式p_i中的字符不相同，无法创建队列结点；

2)序列S_k中的字符与模式p_i中的字符相同，分下列两种情况做判断：

①在上述队列1即当j＝1时，直接在队列1中创建标签为i的结点

②在上述除队列1之外的队列，即当j1时，需要同时满足以下两个条件，结点才能创建：

a)队列j和队列j-1满足num_jnum_j-1，其中num表示结点个数；

b)结点和上层队列对应结点满足弱通配符的要求，即间隙中的字符只能属于弱字符集Ω，当不满足间隙中的字符只能属于弱字符集Ω时，要将结点和上层队列对应结点所在的队列都删除；

当上述最后一层队列m即当j＝m不为空时，代表队列中存在一组出现，模式p_i的模式支持度sup(p_i,S_k)加1，直至读完序列中的所有字符，找到所有的一次性出现，模式p_i在序列S_k中的出现寻找完毕，模式p_i的模式支持度sup(p_i,S_k)计算结束；

由此完成模式p_i在序列S_k中的模式支持度sup(p_i,S_k)的计算；

第(4.2)步，计算模式p_i在序列数据库SDB中的模式支持度sup(p_i,SDB)：

通过如下公式(1)计算候选模式集合cand_L+1中的模式p_i在上述第一步中读入的序列数据库SDB中的模式支持度sup(p_i,SDB)，

公式(1)中，sup(p_i,S_k)为模式p_i在序列S_k中的模式支持度，即出现数，S_k为序列数据库SDB中的第k个序列；

通过上述第(4.1)步依次计算模式p_i在序列数据库SDB中序列S₁、序列S₂、…、序列S_k、…、序列S_N的模式支持度sup(p_i,S₁)、sup(p_i,S₂)、…、sup(p_i,S_k)、…、sup(p_i,S_N)，其中1≤k≤N，然后通过上述公式(1)计算得到模式p_i在上述第一步中读入的序列数据库SDB中的模式支持度sup(p_i,SDB)；

第五步，获得所有模式长度为L+1的频繁模式集合fre_L+1：

通过上述第四步依次计算上述第三步生成的模式长度为L+1的候选模式集合cand_L+1中每个模式p_i的模式支持度sup(p_i,SDB)，当sup(p_i,SDB)≥最小支持度阈值minsup时，添加到模式长度为L+1的频繁模式集合fre_L+1中，并且按字母顺序排列，由此获得所有模式长度为L+1的频繁模式集合fre_L+1；

第六步，一次性条件下带弱通配符的自适应序列模式挖掘结束：

当上述第三步生成的模式长度为L+1的候选模式集合cand_L+1为空或当上述第五步获得的所有模式长度为L+1的频繁模式集合fre_L+1为空时，频繁模式挖掘完毕，由此，一次性条件下带弱通配符的自适应序列模式挖掘结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河北工业大学，未经河北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010544308.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一次性条件下带弱通配符的自适应序列模式挖掘方法在审

专利文献下载