[发明专利]一种处理交易事务数据库数据的方法和装置在审
申请号: | 201510894914.1 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105354336A | 公开(公告)日: | 2016-02-24 |
发明(设计)人: | 冯研 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 交易 事务 数据库 数据 方法 装置 | ||
技术领域
本发明属于数据挖掘领域,尤其涉及一种处理交易事务数据库数据的方法和装置。
背景技术
关联规则的数据挖掘是从巨大的数据集中找出感兴趣规则和相关关系,这些项集常存储在交易事务数据库中。决策制定者将这些关系应用到决策支持中,例如“Beer和Diaper”这个数据挖掘的经典案例就是一个对关联规则的挖掘。关联规则是数据挖掘的核心技术之一,得到了广泛的商业和学术研究,尤其是在今天这种大数据时代,已显示出较大的发展前途。
现有的关联规则算法大致可以分为广度优先算法和深度优先算法两类,其中,广度优先算法是从下到上的搜索数据集,先是找出候选集,然后从中找出频繁集,和广度优先算法比,深度优先算法不需要生成候选集,而是基于频繁模式增长的异类算法。
在关联规则算法中,最著名的算法是由Agrawal和Srikantt于1994年提出的Apriori算法,其是一个广度优先算法。Apriori算法采取了自底向上、分层搜索策略,这意味着要找到k-(即k阶,下文同,例如,“1-”表示1阶,“2-”表示2阶,等等)项集,就需要做k次迭代。Apriori算法可以简单分为两步,其中,第一步为连接即类矩阵运算,第二步为剪枝即去掉那些没必要的中间结果。首先找出所有1-频繁项集的集合Ll,由集合Ll找出2-频繁项集的集合L2,而集合L2找出集合L3,……,如此下去,直到不能找到k-频繁项集,并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。
然而,上述现有的Apriori算法在实际应用时存在以下缺陷:
1)每计算一个k-项集都要扫描一次交易事务数据库,计算所有k-频繁项集则会重复扫描交易事务数据库,从而增加读取交易事务数据库的I/O次数;
2)因计算项过多而造成执行缓慢,运算效率低下。
发明内容
本发明的目的在于提供一种处理交易事务数据库数据的方法和装置,以提高关联规则数据挖掘的运算效率。
本发明第一方面提供一种处理交易事务数据库数据的方法,所述方法包括:
将交易事务数据库的数据分成N份以获得N个分块事务数据库,并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点,所述N为大于1的自然数;
所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵;
所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进行相“与”计算,得到所有k-频繁项集,所述k为自然数。
本发明第二方面提供一种处理交易事务数据库数据的装置,其特征在于,所述装置包括:
分割模块,用于将交易事务数据库的数据分成N份以获得N个分块事务数据库,并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点,所述N为大于1的自然数;
矩阵压缩模块,用于所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵;
频繁项集获取模块,用于所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进行相“与”计算,得到所有k-频繁项集,所述k为自然数。
从上述本发明技术方案可知,一方面,由于每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵只需要扫描一次交易数据库,此后在计算k-频繁项集时只需要扫描一次事务布尔矩阵即可,从而减少了读取交易事务数据库的I/O次数,提高了读取交易事务数据库的效率;另一方面,在计算k-频繁项集时,是N个并行处理的计算节点通过对压缩的事务布尔矩阵的行向量或列向量进行相“与”计算,直接省去现有Apriori算法的连接和裁剪两步,通过对压缩的事务布尔矩阵的行和列向量的裁剪,提高了k-频繁项集的计算效率。
附图说明
图1是本发明实施例一提供的处理交易事务数据库数据的方法的实现流程示意图;
图2是本发明实施例二提供的处理交易事务数据库数据的装置的结构示意图;
图3是本发明实施例三提供的处理交易事务数据库数据的装置的结构示意图;
图4是本发明实施例四提供的处理交易事务数据库数据的装置的结构示意图;
图5是本发明实施例五提供的处理交易事务数据库数据的装置的结构示意图;
图6是本发明实施例六提供的处理交易事务数据库数据的装置的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510894914.1/2.html,转载请声明来源钻瓜专利网。