[发明专利]基于不确定数据的约束频繁闭项集挖掘算法在审
申请号: | 201710984829.3 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107748781A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 李孝忠;牛浩浩;连春月 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 300222 天津市河*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不确定 数据 约束 频繁 闭项集 挖掘 算法 | ||
技术领域
本发明属于数据挖掘技术领域,涉及频繁项集挖掘算法,尤其是一种基于不确定数据的约束频繁闭项集挖掘算法。
背景技术
数据挖掘是从数据中获取有价值的潜在信息,目的在于将海量的数据转换成有用的知识,并用知识对未来进行指引。因此,数据挖掘通常也被称为数据库中的知识发现KDD(Knowledge Discovery in Databases)。
目前,数据挖掘领域已有许多针对各类需求的算法,其中,关联规则挖掘是一种经典而常见的挖掘方法,旨在寻找数据库中有意义的关联。在关联规则挖掘过程中,最重要的一步是找到所需要的频繁项集,此领域目前已有许多与此相关的经典算法。然而,在实际情况中,很多数据的产生都带有不确定性,导致原有的频繁项集挖掘算法无法直接应用于不确定数据中。因此,不确定数据库的频繁项集挖掘算法研究已成为一个热点,并且已取得一定成果,如由确定数据挖掘算法Apriori,FP-growth发展而来的U-Apriori,UF-growth,以及基于此的一系列改进算法。然而随着数据的大量增加,频繁项集呈指数级增长,挖掘所有的频繁项集有过多冗余,有些甚至是毫无意义的。而最大频繁项集虽然在很大程度上减少了冗余项集,然而其并不包含项集支持度信息。频繁闭项集很好地解决了这个问题,频繁闭项集在不丢失所需信息的前提下,数量级远小于频繁项集的数量,并包含了所有频繁项集的支持度信息。
除此之外,当关联规则挖掘算法应用于实际生活中时,可能由于实际存在的各种问题及决策要求,挖掘过程需要有一定的限制条件,此条件可能要求对数据库进行预处理,并且影响了原有的数据挖掘算法效率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、效率高且能够满足不用用户需求的基于不确定数据的约束频繁闭项集挖掘算法。
一种基于不确定数据的约束频繁闭项集挖掘算法,包括以下步骤:
步骤1、选取数据库;
步骤2、根据简洁反单调约束条件对数据库进行处理得到简洁反单调约束条件下的必选数据库,根据简洁非反单调约束条件对数据库进行处理得到简洁非反单调约束条件下的必选数据库和可选数据库;
步骤3、使用频繁概率方法,对简洁反单调约束条件下的必选数据库进行频繁闭项集挖掘,对简洁非反单调约束条件下的必选数据库和可选数据库进行频繁项集挖掘;
步骤4、在简洁非反单调约束条件下,对步骤3频繁项集挖掘的频繁项集进行剔除或结合。
进一步,在步骤2中,根据简洁反单调约束条件对数据库进行处理是按照按照约束对数据库进行剪枝实现的,根据简洁非反单调约束条件对数据库进行处理是按照约束对数据进行划分实现的。
进一步,在步骤4中,对频繁项集进行结合时,是由必选项向可选项进行结合实现的。
本发明的优点和积极效果是:
本发明设计合理,其结合实际生活中不同的需求,采用基于频繁概率方法,对数据库进行频繁闭项集挖掘,能够尽可能高效而全面地达到在不同需求下进行数据挖掘的目的;在商品数据库中,能满足决策者对数据挖掘所提出的不同要求,并按照其要求进行数据的信息提取工作,提高了挖掘效率。
具体实施方式
以下对结合实施例对本发明做进一步详述:
一种基于不确定数据的约束频繁闭项集挖掘算法,包括以下步骤:
步骤1:选取商品数据库。
在本实施例中,所选取的商品数据库共包含5条交易,6种商品,如表1及表2所示。
表1商品数据库
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710984829.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种回路自带过流保险装置
- 下一篇:查询语句处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置