[发明专利]一种关联规则的挖掘方法和关联规则的挖掘装置在审

专利信息
申请号: 201610005402.X 申请日: 2016-01-05
公开(公告)号: CN105677837A 公开(公告)日: 2016-06-15
发明(设计)人: 刘军;陈凯;钱静;刘萍 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市科进知识产权代理事务所(普通合伙) 44316 代理人: 郝明琴
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 关联 规则 挖掘 方法 装置
【说明书】:

技术领域

发明涉及遥感影像领域,尤其涉及一种关联规则的挖掘方法和关联规则 的挖掘装置。

背景技术

关联规则挖掘是数据挖掘领域中一个非常重要的分支,主要用于从大数据 量的事务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而 言,其过程可以理解为从遥感影像中抽取不同层次的知识,分析知识之间的关 系,从而挖掘出遥感影像中隐含的潜在的规律性知识。

现有的Sampling算法、Partition算法、DIC算法等都试图减少皯交易数 据集合的搜索次数,但仍有很多缺点。Sampling算法从原数据集合中随机抽 样出一部分样本,利用样本来挖掘关联规则以减少算法的搜索次数,但是由于 数据集合中经常存在数据分布不均匀的情况,所以随机抽样根本就无法保证能 够抽取到有代表性的样本;Partition算法虽然通过对数据集合分区分别挖 掘,最后进行汇总的方法来减轻I/O的负担,事实上它是增加了CPU的负担; DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率,但与 Apriori算法在思想上没有根本不同之处,它也还是一个多趟搜索算法。这些 算法在读入交易数据时生成候选项目集,产生许多不必要的候选项目集,计算 量大。尤其对海量数据集合来说,以上算法只有在较高的最小支持度和最小可 信度下或增加其它约束后才有一定的挖掘效率,否则将会产生频繁项目集的组 合爆炸,而变得效率低下甚至超过机器的存储和计算能力。因为任何算法都必 须计算项目集及其支持度,所以真正影响算法效率的是对项目集及其支持度的 计算问题。每一次的计算不仅花费大量CPU时间,而且还牵涉I/O的请求。

也就说,现有关联规则挖掘算法由于需要多次遍历事务数据库,导致挖掘 效率低下,需要花费大量CPU时间。另外现有的Apriori、FP-Growth及其改 进算法对数据有一定的要求,即同一个事务中,项的取值不能相同,否则挖掘 算法将不能运行。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此本发 明的第一个目的在于提出一种关联规则的挖掘方法。

本发明的第二个目的在于提出关联规则的挖掘装置。

为了实现上述目的,本发明第一方面实施例的关联规则的挖掘方法,所述 挖掘方法包括以下步骤:

获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个 事务集的长度;

根据所述多维数据立方体得到1-项集和1-项频繁集;

根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项集得到k+1-项 集和k+1-项频繁集,其中k为大于且等于2的正整数;

根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁 集的所有子集以生成所述事务集的关联规则。

本发明实施例的关联规则的挖掘方法,所述挖掘方法包括以下步骤:

获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个 事务集的长度;

根据所述多维数据立方体得到1-项集和1-项频繁集;

根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到 k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;

根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁 集的所有子集以生成所述事务集的关联规则。

本发明实施例的关联规则的挖掘方法,整个关联规则挖掘过程仅遍历了 一遍事务集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方 体,但遍历后者的时间消耗要远小于遍历事务集,因此从运行速度上来说,本 发明的方法要明显快于传统的挖掘算法。

为了实现上述目的,本发明第二方面实施例的关联规则的挖掘装置,所述 挖掘装置包括:

转化模块,用于获取和扫描事务集,将所述事务集转化为多维数据立方体, 并记录下整个事务集的长度;

第一生成模块,用于根据所述多维数据立方体得到1-项集和1-项频繁集;

第二生成模块,用于根据1-项频繁集得到k-项集和k-项频繁集,以及根 据k-项频繁集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整 数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610005402.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top