[发明专利]挖掘全局高效用序列模式的方法、装置及计算机存储介质在审
申请号: | 201910692048.6 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110399406A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 林浚玮;李圆法;陈伟;王巨宏 | 申请(专利权)人: | 哈尔滨工业大学(深圳);腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/901 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟 |
地址: | 518055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列模式 全局 序列数据库 挖掘 集合 链表 计算机可读存储介质 计算机存储介质 全局序列 权重 | ||
本公开提供了一种挖掘全局高效用序列模式的方法、装置及计算机可读存储介质。该方法包括:确定序列数据库中的第一类项,其中第一类项是全局序列权重效用值高于第一阈值的项;确定序列数据库中各个序列的效用值链表;根据所确定的第一类项,从序列数据库挖掘至少一个候选的全局高效用序列模式并确定第一集合,其中第一集合包括至少一个候选的全局高效用序列模式、包括各个候选的全局高效用序列模式的序列的标识以及各个候选的全局高效用序列模式在相应序列中的效用值;以及根据各个序列的效用值链表和第一集合,从至少一个候选的全局高效用序列模式中挖掘全局高效用序列模式。
技术领域
本公开涉及数据处理领域,具体地,涉及一种挖掘全局高效用序列模式的方法、装置及计算机可读存储介质。
背景技术
序列模式挖掘是数据挖掘领域的重要技术。序列模式挖掘是针对序列数据库的。序列数据库可以包括多条序列(也可以称为事务(transaction)),其中每个序列可以包括至少一个项集(itemset),每个项集包括至少一个项(item),并且项集之间存在排序顺序。以超市的购物数据为例,某用户在第一天购买了商品a和商品b,第二天购买了商品a和商品c,第三天购买了商品b。用户在这段时间的购物数据可以抽象为一条序列:<[a b],[a c],[b]>,其中a、b和c是项,[]内的项构成一个项集,多个项集按顺序排列构成了序列。高效用序列模式挖掘算法所挖掘的是效用值高于预设阈值的商品组合,即序列模式(pattern)。序列模式是不同项集的有序排列。
在挖掘高效用模式的过程中,通过计算整个数据库的总效用值来查找高效用模式的过程需要较多的计算,高效用序列模式的挖掘更是如此。因此,高效用序列模式挖掘比传统的高效用模式挖掘和频繁序列模式挖掘更加复杂。目前的分布式且并行的模式挖掘集中在高效用模式挖掘和频繁序列模式挖掘,例如,可以在Hadoop平台上进行高效用模式挖掘和频繁序列模式挖掘。因此,还不存在分布式且并行的高效用序列模式挖掘方法。
发明内容
为此,本公开提供了一种挖掘全局高效用序列模式的方法、装置及计算机可读存储介质。
根据本公开的一个方面,提供了一种用于挖掘全局高效用序列模式的方法,包括:确定序列数据库中的第一类项,其中第一类项是全局序列权重效用值高于第一阈值的项;确定所述序列数据库中各个序列的效用值链表;根据所确定的第一类项,从所述序列数据库挖掘至少一个候选的全局高效用序列模式并确定第一集合,其中所述第一集合包括所述至少一个候选的全局高效用序列模式、包括各个候选的全局高效用序列模式的序列的标识以及各个候选的全局高效用序列模式在相应序列中的效用值;以及根据各个序列的效用值链表和所述第一集合,从所述至少一个候选的全局高效用序列模式中挖掘全局高效用序列模式。
根据本公开的一个示例,其中所述确定序列数据库中的第一类项包括:确定序列数据库中各个项的全局序列权重效用值;以及将全局序列权重效用值高于第一阈值的项确定为第一类项。
根据本公开的一个示例,其中确定序列数据库中每个项的全局序列权重效用值包括:确定该项在序列数据库的各个分区的局部序列权重效用值;以及根据所确定的局部序列权重效用值确定该项的全局序列权重效用值。
根据本公开的一个示例,其中该项在所述序列数据库的每个分区的局部序列权重效用值是根据该分区中包括该项的序列的效用值确定的。
根据本公开的一个示例,其中确定序列数据库中每个序列的效用值链表包括:根据该序列中各个项的效用值和各个项在该序列中的位置,确定该序列的效用值链表。
根据本公开的一个示例,其中根据所确定的第一类项,从所述序列数据库挖掘至少一个候选的全局高效用序列模式包括:根据所确定的第一类项,从序列数据库的各个分区挖掘局部高效用序列模式;以及根据所挖掘的局部高效用序列模式确定至少一个候选的全局高效用序列模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳);腾讯科技(深圳)有限公司,未经哈尔滨工业大学(深圳);腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910692048.6/2.html,转载请声明来源钻瓜专利网。