[发明专利]一种文本数据集正负关联规则挖掘方法及装置有效

专利信息
申请号: 201810292478.4 申请日: 2018-03-30
公开(公告)号: CN109062915B 公开(公告)日: 2020-11-17
发明(设计)人: 阮梦黎 申请(专利权)人: 山东管理学院
主分类号: G06F16/33 分类号: G06F16/33;G06N5/02
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 杨哲
地址: 250000*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 数据 正负 关联 规则 挖掘 方法 装置
【说明书】:

发明公开了一种文本数据集正负关联规则挖掘方法及装置,该方法包括:接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。本发明基于双阈值Apriori算法和非频繁项集,创新性的利用了非频繁项集来挖掘正负关联规则,能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。

技术领域

本发明属于文本数据关联规则挖掘的技术领域,涉及一种文本数据集正负关联规则挖掘方法及装置,尤其是涉及一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置。

背景技术

关联规则挖掘是数据挖掘的一个分支,已广泛应用于众多领域中,例如:市场分析、入侵检测、诊断决策以及电信领域。然而,如何有效地挖掘事物之间的关系已经成为数据挖掘中的一个主要研究方向。

对于文本数据集正负关联规则挖掘的方法,经典的有Apriori算法和 FP-growth算法。同时也形成多种改进方法,例如,一种基于改进型Apriori算法的正负关联规则挖掘方法(Q-Apriori)中采用矩阵结构来执行连接操作并存储项集,以此提高遍历速度。但是,这些算法没有考虑到项目的重要性,导致产生大量的无效关联规则。为此,现有的正负关联规则挖掘的方法开始对初始项集进行了加权,构建一种用来挖掘正负关联规则的方法(ACPIRCI),其利用项权值和项集剪枝技术来挖掘正负关联规则,一定程度上降低了候选项集数量和挖掘时间。

然而,现有文本数据集正负关联规则挖掘的方法存在如下问题:

在传统关联规则挖掘算法中,通常是提取出频繁出现的项集,即在事务语料库中出现的高频特征。因此,许多可以提供重要信息的非频繁项集将会被算法忽略。这些项集尽管具有较低的支持度,但他们仍能提供潜在的高置信度的重要负关联规则,而这些负关联规则有时不能通过频繁项集进行观测。因此,对于建立一个可信的决策支持系统来说,发掘潜在的负关联规则是十分重要的。

频繁项集传统上被用于产生正关联规则,然而,繁项集中的部分项集也可能是负相关的,因此可以挖掘出负关联规则。另一方面,非频繁项集常常被忽略,或者仅仅用于生成负关联规则。然而,非频繁项集中常常具有潜在有效且重要的正相关规则,甚至具有高置信度和强正相关的项集间关系。

综上所述,现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,尚缺乏行之有效的解决方案。

发明内容

针对现有技术中存在的不足,解决现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,本发明提出了一种文本数据集正负关联规则挖掘方法及装置,具体为一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,不仅可以捕捉频繁项集之间的负相关关系,还能够提取非频繁项集之间的正相关关系,且能够大大降低项集和规则数量。

本发明的第一目的是提供一种基于双阈值Apriori算法和非频繁项集的文本数据集关联规则挖掘方法。

为了实现上述目的,本发明采用如下一种技术方案:

一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法,该方法包括:

接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;

根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;

分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东管理学院,未经山东管理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810292478.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top