[发明专利]一种文本数据集正负关联规则挖掘方法及装置有效
申请号: | 201810292478.4 | 申请日: | 2018-03-30 |
公开(公告)号: | CN109062915B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 阮梦黎 | 申请(专利权)人: | 山东管理学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N5/02 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 杨哲 |
地址: | 250000*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据 正负 关联 规则 挖掘 方法 装置 | ||
本发明公开了一种文本数据集正负关联规则挖掘方法及装置,该方法包括:接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。本发明基于双阈值Apriori算法和非频繁项集,创新性的利用了非频繁项集来挖掘正负关联规则,能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。
技术领域
本发明属于文本数据关联规则挖掘的技术领域,涉及一种文本数据集正负关联规则挖掘方法及装置,尤其是涉及一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置。
背景技术
关联规则挖掘是数据挖掘的一个分支,已广泛应用于众多领域中,例如:市场分析、入侵检测、诊断决策以及电信领域。然而,如何有效地挖掘事物之间的关系已经成为数据挖掘中的一个主要研究方向。
对于文本数据集正负关联规则挖掘的方法,经典的有Apriori算法和 FP-growth算法。同时也形成多种改进方法,例如,一种基于改进型Apriori算法的正负关联规则挖掘方法(Q-Apriori)中采用矩阵结构来执行连接操作并存储项集,以此提高遍历速度。但是,这些算法没有考虑到项目的重要性,导致产生大量的无效关联规则。为此,现有的正负关联规则挖掘的方法开始对初始项集进行了加权,构建一种用来挖掘正负关联规则的方法(ACPIRCI),其利用项权值和项集剪枝技术来挖掘正负关联规则,一定程度上降低了候选项集数量和挖掘时间。
然而,现有文本数据集正负关联规则挖掘的方法存在如下问题:
在传统关联规则挖掘算法中,通常是提取出频繁出现的项集,即在事务语料库中出现的高频特征。因此,许多可以提供重要信息的非频繁项集将会被算法忽略。这些项集尽管具有较低的支持度,但他们仍能提供潜在的高置信度的重要负关联规则,而这些负关联规则有时不能通过频繁项集进行观测。因此,对于建立一个可信的决策支持系统来说,发掘潜在的负关联规则是十分重要的。
频繁项集传统上被用于产生正关联规则,然而,繁项集中的部分项集也可能是负相关的,因此可以挖掘出负关联规则。另一方面,非频繁项集常常被忽略,或者仅仅用于生成负关联规则。然而,非频繁项集中常常具有潜在有效且重要的正相关规则,甚至具有高置信度和强正相关的项集间关系。
综上所述,现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,尚缺乏行之有效的解决方案。
发明内容
针对现有技术中存在的不足,解决现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,本发明提出了一种文本数据集正负关联规则挖掘方法及装置,具体为一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,不仅可以捕捉频繁项集之间的负相关关系,还能够提取非频繁项集之间的正相关关系,且能够大大降低项集和规则数量。
本发明的第一目的是提供一种基于双阈值Apriori算法和非频繁项集的文本数据集关联规则挖掘方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法,该方法包括:
接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东管理学院,未经山东管理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810292478.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用户推荐方法和装置,存储介质和服务器
- 下一篇:数据统计系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置