[发明专利]一种基于并行化关联规则算法的教育云应用统计方法有效
申请号: | 201510066472.1 | 申请日: | 2015-02-09 |
公开(公告)号: | CN104573124B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 袁东风;王宏宾;刘萍 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南金迪知识产权代理有限公司37219 | 代理人: | 吕利敏 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 关联 规则 算法 教育 应用 统计 方法 | ||
技术领域
本发明涉及一种基于并行化关联规则算法的教育云应用统计方法,属于计算机统计的技术领域。
背景技术
近年来,随着互联网和云计算技术的发展,数据产生的速度和规模大大超过以往。海量数据中蕴含着大量的价值,如何快速有效的利用数据,这是大数据时代我们面临的一大挑战。教育云平台是云计算技术向教育领域的迁移,包括了教育信息化所必需的一切硬件计算资源,这些资源经过虚拟化之后,向用户提供一个平台,以云应用的形式提供教育云服务。教育云平台通过在SaaS(Software as a service)层部署教育云应用,通过网页浏览器或其他客户端软件来接入,远程服务器上的应用通过网络来运行。随着教育云应用的不断丰富,远程服务器端产生的数据量也在迅速增加。
数据挖掘方法作为处理和利用数据的有效途径,诞生于上世纪90年代,由于当时数据量在规模和复杂度方面不大,传统的数据挖掘算法完全可以处理。但是随着大数据时代的到来,有限的存储资源和计算资源,再加上算法本身对海量数据处理的适应性,形成了数据挖掘的瓶颈。其中,关联规则挖掘是数据挖掘领域一项很重要的方法。关联规则挖掘的主要思想是随着数据量的增加,数据项之间一定存在着某种关联关系,因此算法主要实现的就是对这种关联规则的挖掘。目前,常用的关联规则挖掘相关算法有:Apriori算法、FPTree算法、Eclat算法以及决策树分类等,它们往往只面向小规模数据量的处理,而且处理系统相对单一,并不能适应大规模集群系统的关联规则分析。由于传统数据挖掘方法本身计算量很大,在运算过程中会产生大量中间结果,需要频繁扫描数据库,大大增加了系统I/O消耗,随着数据量的增大,有限的内存很难进行海量数据的处理,随着数据量的爆炸式增长,传统方法很难满足用户需求。
现有的技术中也存在并行化关联分析方法,中国专利CN103914528A的发明专利申请“一种关联分析算法的并行化方法”,该发明申请公开了一种针对经典关联规则分析算法Apriori的优化,但该方法主要是基于分布式系统自有的文件分发机制对原始数据进行处理,本质上仍需频繁扫描原始数据的一部分,在性能方面并不能达到很好的效果。
中国专利CN101799810A,该专利公开了一种关联规则挖掘方法及其系统。方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。该专利所述方法是关联规则算法在分布式框架下的执行,而本发明首先基于并行化架构对原始数据进行数据建模,建模后的数据再依据MapReduce框架进行迭代,得到频繁项集和关联规则,并针对教育云这一应用场景进行图形化展示,运行效率更高。
中国专利申请CN103150163A,该专利公开了一种基于MapReduce模型的并行关联方法。该方法首先对数据进行预处理,设置最小支持度和最小置信度;然后经特殊处理1项集,求得第1项集和第2项集;然后配置第k项集,执行后再统计出k项集的计数,通过主进程读取第k个任务的输出,计算支持度,获得频繁k项集和k+1项候选集,并设置k=k+1,开始循环,直至k+1项候选集为空。该专利所述方法是关联规则算法的一般步骤在分布式框架MapReduce下的执行,而本发明创新性地对原始数据进行建模,然后对分布式框架的输入输出进行了设置,通过迭代计算,得到关联规则,算法运行效率更高。
现有技术中还没有一种基于MapReduce框架通过数据预处理和数据建模对数据的关联规则进行挖掘的方法。因此,开发出一种适用于大数据信息挖掘处理的规则算法是当前的热点和难点。
发明内容
针对现有技术的不足,本发明具体提出了一种基于并行化关联规则算法的教育云应用统计方法。
本发明的技术方案如下:
发明概述:
一种基于并行化关联规则算法的教育云应用统计方法,首先获取教育云应用的访问情况,对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式文件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写Map函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得到访问者对教育云应用的访问情况。
发明详述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510066472.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:指令的处理方法、指令的处理装置和终端
- 下一篇:语音识别方法和装置