[发明专利]一种基于数据缓冲池的Top-k高效用项集挖掘方法在审

专利信息
申请号: 202010012489.X 申请日: 2020-01-07
公开(公告)号: CN111241136A 公开(公告)日: 2020-06-05
发明(设计)人: 蒋华;路昕宇;王慧娇;王鑫;韦晓虎;刘鼎立 申请(专利权)人: 桂林电子科技大学
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/22;G06F16/2458
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 缓冲 top 高效 用项 挖掘 方法
【权利要求书】:

1.一种基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,包括如下步骤:

(1)数据挖掘运行参数初始化:设置需要被挖掘的数据库D,指定结果集数量k和利润表ptable;

(2)扫描数据库D:初次扫描事务数据库D并计算单一项的加权事务效用值,将最小阈值minUtil初始化为0并创建初始化链表I*

(3)将单一项的加权事务效用值存入初始化链表I*并按加权事务效用值升序排列;

(4)再次扫描数据库D,建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构EUCS,创建高效用项集队列;

(5)调用搜索子程序Search,将初始化链表I*、评估效用共现结构EUCS、数据缓冲池DBP和索引链表IndexList传入子程序Search;

(6)输出效用最高的前k个高效用项集,完成数据挖掘。

2.根据权利要求1所述基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,

步骤(5)所述的调用搜索子程序Search,包括如下步骤:

(5.1)在搜索子程序Search中,对于项集P的一个分支项集Px,如果索引链表IndexList(Px)中存储的项集Px效用之和SumIutil不小于最小阈值minUtil,那么将项集Px加入到高效用项集队列;

在项集Px加入之前,判断队列长度是否大于结果集数量k值,若小于k值,直接将项集Px插入队列;

若队列长度大于k值,则比较项集Px的效用值和高效用队列中的最小值,如果项集Px的效用值小于高效用队列中的最小值,则不插入队列;如果项集Px 的效用值大于高效用队列中的最小值,则删除最小值的项集,插入项集Px并将minUtil更新为高效用项集最新的最小值;

(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和SumRutil相加不小于最小阈值minUtil,那么项集Px的分支项集则可能是高效用项集;

(5.3)对于项集P的另一个分支项集Py,Py与项集Px合并使得y>x并且TWU({x,y})≥minUtil,形成新的分支项集Pxy继续执行;

(5.4)将项集P,Px,Py,数据缓冲池DBP,索引链表IndexList作为参数调用数据缓冲池构建过程。

3.根据权利要求2所述基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,步骤(5.4)所述的数据缓冲池构建过程,包括如下步骤:

(5.4.1)在数据缓冲池构建过程中,设指针PPnt,PxPnt,PyPnt分别为索引链表IndexList(P),IndexList(Px),IndexList(Py)的起始位置,指针指向数据缓冲池DBP中的元组;

(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids,那么将指针PxPnt向右移动一位;

(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids,那么将指针PyPnt向右移动一位;

(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids,并且索引链表IndexList(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止;

(5.4.5)数据缓冲池DBP的末位添加一个新元组,令Tids为PxPnt的Tids,Iutils为PxPnt的Iutils加PyPnt的Iutils减去PPnt的Iutils,Rutils为PyPnt的Rutils;

(5.4.6)PxPnt和PyPnt同时右移一位;

(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos,并且指针PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时,重复执行数据缓冲池构建过程;

(5.4.8)更新索引链表IndexList(Pxy)和数据缓冲池DBP,结束数据缓冲池构建过程;

完成数据缓冲池构建后,若索引链表IndexList(Pxy)不为空,Pxy及其分支项集将被搜索进程Search继续挖掘,不断递归此程序直到没有分支项集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010012489.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top