[发明专利]基于MapReduce和数组的频繁项集挖掘方法和装置有效

申请号：	201910464665.0	申请日：	2019-05-30
公开（公告）号：	CN110175198B	公开（公告）日：	2023-05-05
发明（设计）人：	禤世丽	申请（专利权）人：	禤世丽
主分类号：	G06F16/2458	分类号：	G06F16/2458
代理公司：	北京华清迪源知识产权代理有限公司 11577	代理人：	彭伶俐;孙进华
地址：	537000 广西壮族自治区玉林市玉***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 mapreduce 数组频繁挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了基于MapReduce和数组的频繁项集挖掘方法，将数据集转换为二维数组；将二维数组分解成若干二维子数组；将若干二维子数组分配至至少两个并行执行挖掘频繁项集任务的节点上；每一节点挖掘二维子数组对应的子频繁项集并保留每个节点的非频繁项集；统计汇总各子频繁项集并合并非频繁项集，得到数据组的频繁项集。本发明只扫描一次数据库，把数据库转化为二维数组，减少数据库的扫描，缩短I/O时间；同时创造性的通过水平划分的方法将数组分解为更多的子数组，使用Hadoop平台的MapReduce编程模型，采用并行处理二维子数组的方法，即在若干节点并行的对子数组进行频繁项集的挖掘，使得本发明具有较好的加速比和可扩展性，适合对大数据集挖掘频繁项集。

技术领域

本发明实施例涉及数据挖掘及大数据技术领域，具体涉及一种基于MapReduce和数组的频繁项集挖掘方法、装置、电子设备和存储介质。

背景技术

数据挖掘领域R.Agrawa和R.Srikant提出经典的Aprior算法，已经有很多文献提出了很多改进的频繁项集挖掘算法。与Aprior算法相比，这些算法一定程度上缩短了I/O时间，适当地提高了发现频繁项集的效率，但还是不能很好的解决该算法的瓶颈问题。

目前，随着信息的飞速发展，所需要分析的海量数据也在日益增长，这样就导致现行的串行的频繁项集挖掘算法面临着两个难以解决的问题：一是受单机内存的限制，难以将表示大数据集的数据存放于内存中；二是受单机计算能力的限制，从数据库中找出所有频繁项集需要较长的计算时间。

发明内容

为此，本发明实施例提供一种基于MapReduce和数组的频繁项集挖掘方法、装置、电子设备和存储介质，以解决现有技术中由于串行的频繁项集挖掘算法而导致的频繁项集挖掘效率低下的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面提供的一种基于MapReduce和数组的频繁项集挖掘方法，包括：

扫描数据库，将数据库中的每一数据组转换为与其对应的二维数组；

根据预设定分解规则，将每一所述二维数组分解成若干二维子数组；

将若干所述二维子数组分配至至少两个并行执行挖掘频繁项集任务的节点上；