[发明专利]一种基于信息熵的不确定高效用模式挖掘方法在审
申请号: | 202011281070.0 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112434031A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 唐辉军;吴一涛;林佳辉 | 申请(专利权)人: | 宁波财经学院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F17/11 |
代理公司: | 苏州中合知识产权代理事务所(普通合伙) 32266 | 代理人: | 赵路路 |
地址: | 315000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 不确定 效用 模式 挖掘 方法 | ||
本发明公开一种基于信息熵的不确定高效用模式挖掘方法,包括如下步骤:S1:获取事务数据集,利用信息熵确定事务数据集内各项集的权值;S2:根据确定的权值获取各项集的事务效用值;S3:将各项集的事务效用值分别与最小效用值进行对比,根据对比结果构建全局头表和全局树;S4:根据全局头表和全局树,采用模式迭代的方法挖掘得到全部的不确定高效用模式。本发明在现有算法的基础上,提出基于事务数据的信息熵值设置数据权值,并通过构建有效模式挖掘树得到结果的方法,本方法得到的模型种类更多,计算性能更优。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于信息熵的不确定高效用模式挖掘方法。
背景技术
高效用模式挖掘算法考虑了事务项集的利润和数量特性,这与传统的频繁模式挖掘方法有较大的不同,成为数据挖掘领域的热点问题。基于Apriori算法,Yao等人提出了挖掘高效用项集的数学模型,它将所有项进行组合候选,挖掘过程非常耗时。Liu等人提出了挖掘高效用项集的两阶段算法,在第一阶段查找所有候选项目集,在第二阶段,算法通过额外的数据集扫描从候选项集中发现实际的高实用项集。后来,Yao等人提出了两种挖掘高效用项目集的新算法:UMining和UMining_H算法。该算法基于启发式的方法利用效用上界性质进行剪枝。这两种算法可能会删除一些高效用项集,同时也会导致候选项过多。算法的性能更优,然而,该算法在第一阶段仍然生成了太多的候选数据,需要对数据集进行多次扫描。
为了克服两阶段算法第一阶段候选项过多的问题,Li等人提出了一种孤立项丢弃策略(IIDS)来减少候选项的数量,并将该策略应用于已有的两种算法中,得到了两种新的算法,分别重命名为FUM和DCG+。这两种新算法的性能都优于原算法。尽管IIDS有效地减少了候选项,但它仍然多次扫描数据集并为高实用项集生成候选项集。此后,HUP-Growth算法将树用于挖掘高效用项集,它创建HUP-Tree,将事务集映射到树中的节点。根据现有的路径,生成所有可能的项目组合并计算效用值,该算法的缺点是会产生大量的项目组合,而且HUP-Tree需要更多的空间来存储项目集和效用值。与HUP-Growth不同,IHUP算法使用IHUP树中当前项上所有节点的效用之和作为高估效用来确定候选集。与HUP-Growth算法相比,该算法减少了候选对象的数量,提高了效率。Tseng提出的基于链和树结构的高效用模式挖掘方法对IHUP进行了改进,重新构建了具有重要叶节点的树结构,与上述算法相比,减少了候选树的数量。
基于事务效用闭包属性,基于树结构之上开展挖掘时空效率改进,是目前该领域算法的主要实施过程。项集的效用是根据内部数量和利润的乘积来计算的。但是这些算法都将数据库中每个项目的重要性看作是相同的,而在现实世界的许多应用中都出现了不确定数据集,数据项具有不同的权重,这引出了不确定数据的模式挖掘问题。对数据集进行频繁项加权挖掘一直是数据挖掘领域的一个研究课题.然而,这些权重是预先确定的,如何确定这些权重,权重往往被设置为一个随机值。信息熵是测量不确定度的平均信息量,已经成功应用于数据挖掘领域,因此描述信息的内部权重是可行的。
不确定高效用模式挖掘方法仍然是该领域的热点问题,众多算法的提出,有效解决了确定性事务数据集的高效用模式挖掘方法。但当事务数据集是不确定状态下时,相关算法未必能取得较好的挖掘结果。概率权重值选择是解决这一问题的关键所在,本文在现有算法的基础上,提出一种基于信息熵的高效用模式挖掘算法,基于事务数据的信息熵值设置数据权值,并通过构建有效模式挖掘树得到结果。最后通过静态和动态时间相关数据集的实验验证,证明了基于信息熵的高效用模式挖掘算法的有效性。
发明内容
不确定高效用模式挖掘同时考虑数据项内部效用值和外部概率权重值来揭示商品特性。目前基于项或项集的出现概率来设置外部权重值是常见的一种方法。但随机概率的产生过程可能丢失那些内部效用较高的数据项,其对挖掘结果影响较大。基于信息熵的信息量内涵特性,本文提出了一种基于信息熵的高效用挖掘算法。单项和项集的权值由信息熵决定,并根据事务项的信息熵效用值构建一种信息熵高效用模式树,能在一定的时空效率下挖掘到相关高效用模式结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波财经学院,未经宁波财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011281070.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置