[发明专利]一种基于垂直分解的并行频繁闭序列挖掘方法有效
申请号: | 201611091669.1 | 申请日: | 2016-12-01 |
公开(公告)号: | CN106599122B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 赵宇海;印莹;王国仁;李晨光;毕天驰 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 21109 沈阳东大知识产权代理有限公司 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 垂直 分解 并行 频繁 序列 挖掘 方法 | ||
本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,属于数据挖掘领域,该方法采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列;再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可缩短挖掘时间;本发明提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度;本发明采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法;充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本方法获得较高的加速比。
技术领域
本发明属于数据挖掘领域,具体涉及一种基于垂直分解的并行频繁闭序列挖掘方法。
背景技术
现代社会,信息技术的发展日新月异,大量的数据存在于社会发展中的各个领域,其中最大的需求就是将这些数据转变有效的规则或知识,这使得数据挖掘备受社会各方面的关注。从应用方向来讲,数据挖掘可用于市场分析、客户保全、欺诈检测、产品控制和科学探索等多方面,而且随着数据挖掘技术的发展,数据挖掘将会应用于越来愈多的领域,并将发挥重大的作用。数据挖掘是一门交叉学科,其融合了多种理论和技术,包括有人工智能、数据库技术、模式识别、机器学习、数理统计、信息检索以及数据可视化等众多学科,这些学科的快速发展对数据挖掘技术的发展起到了重要的推动作用。数据挖掘是通过一系列统计分析和处理,从海量的信息中找出对我们有意义的信息,这些信息影响着我们的决策。
数据挖掘是在一些限制条件下,借助于某些特定领域的知识发现算法,从大规模数据中挖掘有用信息。在整个数据挖掘领域中,频繁序列模式挖掘是其中的一个有重大研究意义的分支,它一般意义上是指发现某一时间段内出现频率较高的子序列。Agrawal和Srikant1995年在文献[7]中提出了序列模式的概念。挖掘序列模式时为了分析消费者的交易序列。序列模式挖掘是数据挖掘中的一个重要组成部分,它与传统的关联规则不同,序列模式挖掘带有时间信息,比如说城市交通数据序列、信用卡消费序列、大型超市客户的购物序列等。这些数据中包含了大量的商业价值。
现有的挖掘算法,都是在单一计算机上进行操作的,而且这些算法并没有减少算法的时间复杂度。现有的一种序列挖掘算法,是PrefixSpan算法,通过产生投影数据库来进行序列挖掘,这种算法不需要产生任何的候选模式。
现有的挖掘算法按照序列模式的研究过程这个标准可划分为四类;基本的挖掘算法、增量式更新算法、多维度多层次挖掘和周期模式挖掘算法。基本挖掘算法大部分都是基于Apriori性质的,如AprioriAll、AprioriSome、DynamicSome到后来的GSP和SPADE算法等,2000年韩家炜等提出了数据投影算法FreeSpan和PrefixSpan提高了挖掘效率。这些方法都是在单一计算机上进行操作的,这些方法无法对大数据进行处理,序列挖掘算法时间复杂度都是由数据的列数决定,但是原来的算法并没有考虑如何所见列数,这种计算消耗大量内存,而且耗费时间。
发明内容
针对现有技术的不足,本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,以达到通过减少数据的列数来减少算法的时间复杂度的目的。
一种基于垂直分解的并行频繁闭序列挖掘方法,包括以下步骤:
步骤1、对原始数据库扫描,将数据按行进行水平分片处理,并分别发送至不同的处理器中;
步骤2、对每个处理器中的数据进行垂直分解;具体为:
在每个处理器上,并行执行以下操作:
执行一条数据与数据集中的所有数据进行两两相交,获得任意两条数据之间的公共子序列,即候选模式集;
步骤3、将获得的所有公共子序列进行合并和去重操作,得到挖掘前的候选模式集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611091669.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于物联网的数据处理方法及系统
- 下一篇:一种运动音乐播放方法及系统