[发明专利]一次性条件下带弱通配符的自适应序列模式挖掘方法在审
申请号: | 202010544308.8 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111581460A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 史巧硕;王晓慧;李杨;耿萌;罗岚方;陈明婕;武优西 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一次性 条件下 通配符 自适应 序列 模式 挖掘 方法 | ||
1.一次性条件下带弱通配符的自适应序列模式挖掘方法,其特征在于:采用模式增长的方式生成候选模式去缩减空间,在计算一次性条件下带弱通配符的模式支持度时,采用了在线倒序填充策略实现模式支持度的高效计算,从而实现了一次性条件下带弱通配符的自适应序列模式挖掘,具体步骤如下:
第一步,读入序列数据库SDB,给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup:
读入序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S1、序列S2、…、序列Sk、…、序列SN,其中1≤k≤N,序列Sk中的每个字符分别记作字符s1、字符s2、…、字符sn,给定字符集Σ、强字符集Γ、弱字符集Ω和最小支持度阈值minsup;
第二步,处理模式长度为1的频繁模式集合fre1:
将上述第一步给定的强字符集Γ中的字符加入模式长度为1的候选模式集合cand1中,计算候选模式集合cand1中每个模式的出现数,将出现数大于等于最小支持度阈值minsup的模式加入模式长度为1的频繁模式集合fre1;
第三步,生成模式长度为L+1候选模式集合candL+1:
采用模式拼接的方法生成候选模式集合candL+1,其中L表示频繁模式的长度,操作如下:
①当L=1时,将上述第二步处理获得的模式长度为1的频繁模式集合fre1中的字符相互组合,生成模式长度为L+1的候选模式集合candL+1;
②当L1时,采用模式拼接的方法生成模式长度为L+1的候选模式集合candL+1,具体操作是:
当L1时,在生成候选模式集合candL+1的过程中,对于模式p=p1p2…pm-1pm,除去模式p的最后一个子模式pm剩余的部分称为模式p的前缀,即prefix(p)=p1p2…pm-1;除去模式p的第一个子模式p1剩余的部分称为模式p的后缀,即suffix(p)=p2…pm-1pm;当存在模式长度同为L的模式p和模式q,满足模式p的后缀与模式q的前缀相等时,采用模式拼接方法拼接为模式长度为L+1的模式r,即suffix(p)=p2p3…pL=prefix(q)=q1q2…qL-1时,模式
当模式长度为L的频繁模式集合freL不为空时,从左到右遍历频繁模式集合freL,依次取出该频繁模式集合freL中的模式pi,计算模式pi的后缀suffix(pi),从左到右寻找满足suffix(pi)=prefix(pj)条件的模式pj,对模式pi与模式pj进行模式拼接为模式长度为L+1的模式将模式r加入模式长度为L+1的候选模式集合candL+1中,对频繁模式集合freL中的所有满足suffix(pi)=prefix(pj)条件的模式pj进行拼接,直到在频繁模式集合freL中模式pj的下一个模式pk,suffix(pi)≠prefix(pk)时,对模式pi的拼接结束,从频繁模式集合freL中模式pi的下一个模式开始,继续重复上述步骤,直到最后一个模式拼接结束,模式长度为L+1的候选模式集合candL+1生成完毕;
第四步,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB):
上述第三步生成的模式长度为L+1的候选模式集合candL+1中每个模式pi为上述第三步中的当模式长度为L的频繁模式集合freL不为空时,从左到右遍历频繁模式集合freL,依次取出该频繁模式集合freL中的模式pi,序列Sk为上述第一步中的序列数据库SDB中的一个序列,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB)的操作如下:
第(4.1)步,计算模式pi在序列Sk中的模式支持度sup(pi,Sk):
计算步骤如下,
第(4.1.1)步,确定队列的个数:
读入模式pi,确定其长度为m,该模式pi的各个子模式分别记作子模式pi1、子模式pi2、…子模式pij、…子模式pim,这里(0j≤m),根据给定模式pi中的子模式数确定队列的个数,则确定队列共有m个,分别记作队列1、队列2、…、队列j、…、队列m,这里0j≤m,模式支持度sup(pi,Sk)初始化为0;
第(4.1.2)步,创建队列结点:
在一次性条件下挖掘频繁模式过程中,所有结点不可重复使用,根据上述第一步中给定的强字符集Γ、弱字符集Ω和序列Sk和上述第(4.1.1)步读入的模式pi,采用倒序匹配策略创建队列结点,创建队列结点,具体方法如下:
依次读入序列Sk中的字符,依次从模式pi最后一层即子模式pm开始做判断,判断序列Sk中的字符是否与模式pi中字符相同,结果如下:
1)序列Sk中的字符与模式pi中的字符不相同,无法创建队列结点;
2)序列Sk中的字符与模式pi中的字符相同,分下列两种情况做判断:
①在上述队列1即当j=1时,直接在队列1中创建标签为i的结点
②在上述除队列1之外的队列,即当j1时,需要同时满足以下两个条件,结点才能创建:
a)队列j和队列j-1满足numjnumj-1,其中num表示结点个数;
b)结点和上层队列对应结点满足弱通配符的要求,即间隙中的字符只能属于弱字符集Ω,当不满足间隙中的字符只能属于弱字符集Ω时,要将结点和上层队列对应结点所在的队列都删除;
当上述最后一层队列m即当j=m不为空时,代表队列中存在一组出现,模式pi的模式支持度sup(pi,Sk)加1,直至读完序列中的所有字符,找到所有的一次性出现,模式pi在序列Sk中的出现寻找完毕,模式pi的模式支持度sup(pi,Sk)计算结束;
由此完成模式pi在序列Sk中的模式支持度sup(pi,Sk)的计算;
第(4.2)步,计算模式pi在序列数据库SDB中的模式支持度sup(pi,SDB):
通过如下公式(1)计算候选模式集合candL+1中的模式pi在上述第一步中读入的序列数据库SDB中的模式支持度sup(pi,SDB),
公式(1)中,sup(pi,Sk)为模式pi在序列Sk中的模式支持度,即出现数,Sk为序列数据库SDB中的第k个序列;
通过上述第(4.1)步依次计算模式pi在序列数据库SDB中序列S1、序列S2、…、序列Sk、…、序列SN的模式支持度sup(pi,S1)、sup(pi,S2)、…、sup(pi,Sk)、…、sup(pi,SN),其中1≤k≤N,然后通过上述公式(1)计算得到模式pi在上述第一步中读入的序列数据库SDB中的模式支持度sup(pi,SDB);
第五步,获得所有模式长度为L+1的频繁模式集合freL+1:
通过上述第四步依次计算上述第三步生成的模式长度为L+1的候选模式集合candL+1中每个模式pi的模式支持度sup(pi,SDB),当sup(pi,SDB)≥最小支持度阈值minsup时,添加到模式长度为L+1的频繁模式集合freL+1中,并且按字母顺序排列,由此获得所有模式长度为L+1的频繁模式集合freL+1;
第六步,一次性条件下带弱通配符的自适应序列模式挖掘结束:
当上述第三步生成的模式长度为L+1的候选模式集合candL+1为空或当上述第五步获得的所有模式长度为L+1的频繁模式集合freL+1为空时,频繁模式挖掘完毕,由此,一次性条件下带弱通配符的自适应序列模式挖掘结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010544308.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光路调节装置及方法
- 下一篇:一种环保水性漆的制备方法