[发明专利]基于增量式关联规则技术的动态大数据模型高效建立方法在审
申请号: | 201410168643.7 | 申请日: | 2014-04-24 |
公开(公告)号: | CN103927373A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 程道华;刘盛强;张庆;彭清冲;况培;田洁;李方林 | 申请(专利权)人: | 湖北航云端科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 430074 湖北省武汉市东湖新技术开发*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增量 关联 规则 技术 动态 数据模型 高效 建立 方法 | ||
技术领域
本发明涉及计算机数据挖掘领域,特别是一种适用于动态数据处理的基于增量式关联规则技术的动态大数据模型高效建立方法。
背景技术
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘能从大量的、不完全随机的数据中提取隐含在其中的人们事先不知道的潜在有用信息。数据挖掘主要从数据泛化的角度进行数据总结。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
Internet的迅猛发展将人类带入了信息社会和网络经济时代,对企业发展和个人生活都产生了深刻的影响。云计算、物联网等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来。数据从简单的处理对象开始转变为一种基础性资源,如何更好的管理和利用大数据已经成为普遍关注的话题。面对庞大的数据库,每次扫描挖掘都要耗费很长时间,特别是当大数据时代来临,扫描代价过高,让人无法容忍。另一方面事务数据库一直在更新变化产生很多新的数据,如何在变化更新的数据库上进行数据的高效挖掘也成为如今数据挖掘领域的研究热点,因此需要高效的算法来挖掘数据关联规则对数据进行有效的更新,维护和管理。
在数据挖掘处理理论和技术方面,工业界和学术界从不同的角度对服务推荐系统进行了大量研究。例如IBM、Oracle和Microsoft等公司从90年代初就成立了从事数据挖掘和知识发现方面的研究机构,并获得了大量的研究成果。事务数据库关联规则挖掘算法大致可分为两类:采用广度遍历解空间的方法和采用深度遍历的方法。最典型的利用广度遍历的方法是R.Agrawal等在“Fast algorithms for mining association rules”中提出的Apriori算法(Proc.20th Int.Conf.Very Large Data Bases,VLDB.1215:487-499,1994)。Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法,其核心思想是利用候选集找到频繁项集。J.Han等在“Mining frequent patterns without candidate generation”中提出的FP_growth算法是采用深度遍历的单层关联规则挖掘算法(ACM SIGMOD Record.29(2):1-12,2000)。S.Rao等人在“Implementing Improved Algorithm Over APRIORI Data Mining Association Rule Algorithm1”中将Apriori算法的基础上进行了改进,将Apriori算法与FP_growth算法结合起来,在数据库更新时利用FP_growth算法挖掘新增数据库,从而避免反复扫描数据库,降低了扫描代价(International Journal of Computer Science and Technology.3(1),2012)。随着大数据时代的到来,事务数据库越来越庞大,数据库也在不断变化更新,而数据库的更新意味着有新的事务添加到数据库中,在支持度和置信度阈值不变的条件下,关联规则更新问题则可以简化为寻找新的频繁项目集,为了减少处理数据时所需的代价,因此需要更高效的数据挖掘模型来进行数据处理。
发明内容
本发明旨在克服现有技术中存在的不足,提供一种基于增量式关联规则技术的动态大数据模型高效建立方法,利用增量式挖掘方法有效处理大规模数据库的更新,减少计算资源浪费。
本发明公开了一种基于增量式关联规则技术的动态大数据模型高效建立方法,包括以下步骤:
步骤1:利用关联规则挖掘算法—Apriori算法为初始事务数据库TDB创建初始增量式头表结构XH-struct。
扫描事务数据库两次即可建立增量式的头表结构XH-struct,当频繁项读入内存时,有相同首相的将通过指针域链接成一个队列,XH中的指针域指向队列的队首。在XH-struct中,项目集按照字典顺序进项排序,增量式头表结构XH-struct的头表记为XH,XH中的每一项都含有三个属性:{ID,Sup,Poi},ID是项目编号,Sup是项目的支持度,Poi是指针域,XH中包含了所有的项,即频繁项和不频繁项,因为当数据库更新时,有新增数据库,原来的不频繁项可能变为频繁项,所以在我们的方法中将其保留在头表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北航云端科技有限公司,未经湖北航云端科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410168643.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触控面板
- 下一篇:触摸屏、显示面板及显示装置