[发明专利]一种基于数据缓冲池的Top-k高效用项集挖掘方法在审
申请号: | 202010012489.X | 申请日: | 2020-01-07 |
公开(公告)号: | CN111241136A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 蒋华;路昕宇;王慧娇;王鑫;韦晓虎;刘鼎立 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/22;G06F16/2458 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 缓冲 top 高效 用项 挖掘 方法 | ||
本发明公开一种基于数据缓冲池的Top‑k高效用项集挖掘方法,包括如下步骤:(1)数据挖掘运行参数初始化;(2)初次扫描事务数据库并计算单一项的加权事务效用值,将最小阈值初始化为0并创建初始化链表;(3)将单一项的加权事务效用值存入初始化链表并按加权事务效用值升序排列;(4)再次扫描数据库,创建高效用项集队列;(5)调用搜索子程序Search,将初始化链表、评估效用共现结构EUCS、数据缓冲池DBP和索引链表传入子程序Search;(6)输出效用最高的前个高效用项集,完成数据挖掘。本发明方法通过数据缓冲池的方式,对已使用的数据空间进行回收,提高内存的复用率,降低高效用项集挖掘的运行时间和内存消耗。
技术领域
本发明涉及Top-k高效用项集数据挖掘,具体是一种基于数据缓冲池的Top-k高效用项集挖掘方法。
背景技术
在零售行业中,根据商品被购买次数的多寡,向决策制定者提供制定决策的数据依据是普遍现象。在现实生活中,每个商品的成本、售价、利润、重量、风险均不相同,那么仅考虑商品在交易数据库的被购买的次数并不能反映真实的情况。高效用项集挖掘(High-Utility Itemsets Mining,简称HUIM)算法不仅考虑到交易中商品出现的次数,还考虑到商品的单位利润(效用),高效用项集挖掘算法的目标是在交易数据库中发现为零售商带来可观利润的项目和项集,被发掘的项集称作高效用项集。
近年来,高效用项集挖掘算法的效率方面取得了一定成果,但由于实际应用中,最小阈值的设定不但影响着算法挖掘高效用项集的数量,而且影响着算法运行时的效率。最小阈值设定过高,使得挖掘出的结果集过少无法满足用户需求;设定过低,则产生大量结果集使得算法运行时间过长,占用大量的内存空间甚至内存溢出导致算法运行失败。用户为了确定合适的最小阈值,往往需要经验和反复测试,但每当数据集中数据的变更很有可能使之前设定的最小阈值失去意义。Top-k高效用项集挖掘算法采用挖掘前k个效用值最大的项集的方式,将设定最小阈值的问题,转变为设定所需结果集数量的问题。
Top-k高效用项集挖掘算法主要分为以TKO(mining Top-K utility itemsets inOne phase) 算法为代表的一阶段算法和以TKU(Top-K Utility itemsets mining)算法为代表的二阶段算法。先前算法在优化挖掘高效用项集时,主要关注点在改进存储效用信息数据结构。例如TKU算法通过树结构UP-tree两次扫描数据库进行挖掘,而TKO采用效用链表结构在算法第一次扫描数据库时,将关键信息存入效用链表,之后只需扫描效用链表上的信息,通过大量连接操作和递归效用链表,构建过程挖掘高效用项集。随着数据库中项的增长,项集的增加,存储效用信息的数据结构中数据量也随之增长,挖掘过程中所需要的信息和已不再需要的信息大量影响着执行速度和内存消耗。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于数据缓冲池的Top-k高效用项集挖掘方法。
实现本发明目的的技术方案是:
一种基于数据缓冲池的Top-k高效用项集挖掘方法,具体包括如下步骤:
(1)数据挖掘运行参数初始化:设置需要被挖掘的数据库D,指定结果集数量k和利润表ptable;
(2)扫描数据库D:初次扫描事务数据库D并计算单一项的加权事务效用值,将最小阈值minUtil初始化为0并创建初始化链表I*;
(3)将单一项的加权事务效用值存入初始化链表I*并按加权事务效用值升序排列;
(4)再次扫描数据库D,建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构 EUCS,创建高效用项集队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012489.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速鲁棒的摄像机绝对姿态估计方法
- 下一篇:触控显示面板
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置