[发明专利]一种关联规则的挖掘方法和关联规则的挖掘装置在审
申请号: | 201610005402.X | 申请日: | 2016-01-05 |
公开(公告)号: | CN105677837A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 刘军;陈凯;钱静;刘萍 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关联 规则 挖掘 方法 装置 | ||
技术领域
本发明涉及遥感影像领域,尤其涉及一种关联规则的挖掘方法和关联规则 的挖掘装置。
背景技术
关联规则挖掘是数据挖掘领域中一个非常重要的分支,主要用于从大数据 量的事务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而 言,其过程可以理解为从遥感影像中抽取不同层次的知识,分析知识之间的关 系,从而挖掘出遥感影像中隐含的潜在的规律性知识。
现有的Sampling算法、Partition算法、DIC算法等都试图减少皯交易数 据集合的搜索次数,但仍有很多缺点。Sampling算法从原数据集合中随机抽 样出一部分样本,利用样本来挖掘关联规则以减少算法的搜索次数,但是由于 数据集合中经常存在数据分布不均匀的情况,所以随机抽样根本就无法保证能 够抽取到有代表性的样本;Partition算法虽然通过对数据集合分区分别挖 掘,最后进行汇总的方法来减轻I/O的负担,事实上它是增加了CPU的负担; DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率,但与 Apriori算法在思想上没有根本不同之处,它也还是一个多趟搜索算法。这些 算法在读入交易数据时生成候选项目集,产生许多不必要的候选项目集,计算 量大。尤其对海量数据集合来说,以上算法只有在较高的最小支持度和最小可 信度下或增加其它约束后才有一定的挖掘效率,否则将会产生频繁项目集的组 合爆炸,而变得效率低下甚至超过机器的存储和计算能力。因为任何算法都必 须计算项目集及其支持度,所以真正影响算法效率的是对项目集及其支持度的 计算问题。每一次的计算不仅花费大量CPU时间,而且还牵涉I/O的请求。
也就说,现有关联规则挖掘算法由于需要多次遍历事务数据库,导致挖掘 效率低下,需要花费大量CPU时间。另外现有的Apriori、FP-Growth及其改 进算法对数据有一定的要求,即同一个事务中,项的取值不能相同,否则挖掘 算法将不能运行。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此本发 明的第一个目的在于提出一种关联规则的挖掘方法。
本发明的第二个目的在于提出关联规则的挖掘装置。
为了实现上述目的,本发明第一方面实施例的关联规则的挖掘方法,所述 挖掘方法包括以下步骤:
获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个 事务集的长度;
根据所述多维数据立方体得到1-项集和1-项频繁集;
根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项集得到k+1-项 集和k+1-项频繁集,其中k为大于且等于2的正整数;
根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁 集的所有子集以生成所述事务集的关联规则。
本发明实施例的关联规则的挖掘方法,所述挖掘方法包括以下步骤:
获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个 事务集的长度;
根据所述多维数据立方体得到1-项集和1-项频繁集;
根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到 k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;
根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁 集的所有子集以生成所述事务集的关联规则。
本发明实施例的关联规则的挖掘方法,整个关联规则挖掘过程仅遍历了 一遍事务集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方 体,但遍历后者的时间消耗要远小于遍历事务集,因此从运行速度上来说,本 发明的方法要明显快于传统的挖掘算法。
为了实现上述目的,本发明第二方面实施例的关联规则的挖掘装置,所述 挖掘装置包括:
转化模块,用于获取和扫描事务集,将所述事务集转化为多维数据立方体, 并记录下整个事务集的长度;
第一生成模块,用于根据所述多维数据立方体得到1-项集和1-项频繁集;
第二生成模块,用于根据1-项频繁集得到k-项集和k-项频繁集,以及根 据k-项频繁集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整 数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610005402.X/2.html,转载请声明来源钻瓜专利网。