[发明专利]一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法在审

专利信息
申请号: 202111113072.3 申请日: 2021-09-23
公开(公告)号: CN113806424A 公开(公告)日: 2021-12-17
发明(设计)人: 吴海玲;裴树军;张宇 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 布尔 矩阵 二进制 编码 改进 关联 规则 apriori 算法
【权利要求书】:

1.一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,该方法包括以下步骤:

(1)扫描数据库,生成布尔矩阵,获得频繁1-项集;

(2)压缩布尔矩阵;

(3)提前预剪枝,同时建立非频繁项集的记录表;

(4)建立辅助表;

(5)更新非频繁项集记录表;

(6)缩减算法流程;

(7)压缩布尔矩阵,预剪枝,同时返回到步骤4,直到频繁k-项集个数小于k+1时,迭代结束。

2.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(1)中,扫描数据库,生成布尔矩阵,获得频繁1-项集,具体步骤为:

步骤1-1首先扫描数据库,用布尔矩阵来存储,行表示事务id,列表示项,其中矩阵中的aij的可能取值为0或1,取值为1就代表此项目存在于事务中,0就代表不存在。计算各个事务的项目数,并按这个值对矩阵进行降序排列,在矩阵最后增加2列,第1列n,n用来记录每行中“1”的个数,第2列w,w用于将事务数据库中重复出现的事务压缩为1行,从而保证矩阵存储中每1条事务信息都不重复,在矩阵最后增加1行s,s用来记录每列的和;

步骤1-2根据布尔矩阵,获得频繁1-项集。

3.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(2)中,计算各个事务的项目数,并按这个值对矩阵进行降序排列,将非频繁1-项集所在的列删除,重新计算矩阵列n的值,按降序重新排列矩阵,同时在求频繁k-项集(k≥2)时,将矩阵中的事务数小于k的行直接删除,重新计算矩阵中各列的值并重新排列矩阵。

4.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(3)中,提前预剪枝,同时建立非频繁项集的记录表,具体步骤为:

步骤3-1利用“若能生成频繁k-项集(k≥2),则频繁(k-1)-项集中每个项的个数不能小于k-1”的性质,对候选k-项集(k≥2)进行剪枝;

步骤3-2建立非频繁项集的记录表;

步骤3-3将候选k-项集(k≥2)与非频繁项集记录表进行匹配,若候选k-项集(k≥2)集合中的某一项集与记录表中的项集匹配成功,则此项集不是频繁项集,删掉此候选k-项集(k≥2),对候选k-项集(k≥2)进行二次剪枝。

5.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(4)中,建立辅助表,将候选k-项集(k≥2)编码成二进制数,编码长度为频繁1-项集的个数,将候选k-项集(k≥2)与布尔矩阵的事务id行相“与”,计算候选k-项集(k≥2)的支持度计数,根据给出的最小支持度计数,删除小于最小支持度计数的候选项集,最终得到频繁k-项集(k≥2)。

6.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(5)中,更新非频繁项集记录表,将没有达到最小阈值的项集记录到非频繁项集记录表中。

7.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(6)中,利用“若频繁k-项集中的项集个数小于k+1,则不能生成频繁(k+1)-项集”的性质,缩减算法流程。

8.根据权利要求1所述的一种基于布尔矩阵和二进制编码改进的关联规则Apriori算法,其特征在于,所述步骤(7)中,压缩矩阵,预剪枝,同时返回到步骤4,直到频繁k-项集个数小于k+1时,迭代结束,具体步骤为:

步骤7-1在求频繁k-项集(k≥2)时,将矩阵中的事务数小于k的行直接删除,重新计算矩阵中各列的值并重新排列矩阵;

步骤7-2利用“若能生成频繁k-项集(k≥2),则频繁(k-1)-项集中每个项的个数不能小于k-1”的性质,对候选k-项集(k≥2)进行一次剪枝,将候选k-项集(k≥2)与非频繁项集记录表进行匹配,若候选k-项集(k≥2)集合中的某一项集与记录表中的项集匹配成功,则此项集不是频繁项集,删掉此候选k-项集(k≥2),对候选k-项集(k≥2)进行二次剪枝;

步骤7-3返回步骤4,直到频繁k-项集个数小于k+1时,迭代结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111113072.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top