[发明专利]一种基于兴趣度度量的频繁模式挖掘方法在审
申请号: | 201510214209.2 | 申请日: | 2015-04-29 |
公开(公告)号: | CN104834708A | 公开(公告)日: | 2015-08-12 |
发明(设计)人: | 李涛;王丽娜;林陈;周欢乐;范文波 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210016 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 兴趣 度量 频繁 模式 挖掘 方法 | ||
技术领域
本发明涉及一种频繁模式挖掘方法,具体涉及一种基于兴趣度量的频繁模式挖掘方法。本发明属于数据挖掘领域。
背景技术
频繁项集挖掘是数据挖掘领域中一个重要研究方向,其主要用于发掘频繁出现在数据集中的模式(如项集,子序列和子结构)。由于频繁项集可以很方便地生成关联规则,便于目标系统应用,因而频繁模式挖掘一直以来都是数据挖掘研究和应用领域的热点。传统的频繁模式挖掘方法基本都是研究如何高效快速地发现频繁项集,以提高算法效率为主,它们的评价体系大多都以绝对或相对频率为依据。然而,在实际应用中,出现频率高的频繁模式未必令人感兴趣;反之,令人感兴趣的频繁模式未必出现频率就一定高。此外,单纯依赖频率指标(如支持度)会导致其他问题的出现,那就是频率指标的阈值难以确定。当阈值设置较大时,结果频繁项集会变小,难以有效发现有用的频繁模式,影响生成合理的关联规则;当阈值设置较小时,结果频繁项集变大,容易混杂无用模式,需要用户再次人工辨别,增大了用户的工作量,减少了算法的实用性。可见,仅仅依赖频率指标,难以发现合适的频繁模式结果。
目前已有的公认的频繁模式挖掘算法包括:Apriori,FP-growth以及它们的改进算法,均以频率指标为依据挖掘频繁模式,虽然在时间效率方面逐级改进,但本质上难以突破上述限制。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于兴趣度度量的频繁模式挖掘方法,以解决现有挖掘方法难以简便发现合适的频繁模式结果的技术问题。
为了实现上述目标,本发明采用如下的技术方案:
一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:
步骤一:用户指定top k结果频繁集合中的元素数量k;
步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;
步骤三:读入原始数据集中的数据;
步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;
步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤六:输出top k结果频繁集合中的内容。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤五包括:
步骤5a:从元素集合IS中取出当前位置的元素item,形成一个元素个数为1的备选频繁项集S;
步骤5b:将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew;
步骤5c:基于备选频繁项集S和备选元素集合ISNew,对备选频繁项集S进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤5d:检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤5a,否则执行步骤六。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c包括:
步骤5c1:读入备选频繁项集S和备选元素集合ISNew;
步骤5c2:初始化新的备选项集ISNewRecursive为空;初始化阈值t=-1;
步骤5c3:从备选元素集合ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成频繁项集SNew,并对所述频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中;
步骤5c4:从备选项集ISNewRecursive中逐个取出项目,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验;
步骤5c5:结束退出;
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c3包括:
步骤5c3a:初始化新的频繁项集SNew,内容与S相同;
步骤5c3b:从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中;
步骤5c3c:将SNew作为参数,计算SNew的兴趣度;
步骤5c3d:如果SNew的兴趣度大于阈值t,则执行步骤5c3e,否则直接执行步骤步骤5c3i;
步骤5c3e:将SNew更新到top k结果频繁集合中;
步骤5c3f:将项目元素i添加到备选项集ISNewRecursive集合;
步骤5c3g:将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510214209.2/2.html,转载请声明来源钻瓜专利网。