[发明专利]一种基于并行化关联规则算法的教育云应用统计方法有效

专利信息
申请号: 201510066472.1 申请日: 2015-02-09
公开(公告)号: CN104573124B 公开(公告)日: 2018-04-10
发明(设计)人: 袁东风;王宏宾;刘萍 申请(专利权)人: 山东大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南金迪知识产权代理有限公司37219 代理人: 吕利敏
地址: 250100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于并行化关联规则算法的教育云应用统计方法,首先对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式文件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写Map函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得到访问者对教育云应用的使用情况,进行特色推荐。本发明的技术方案大大减少了扫描数据项集的次数,降低了系统I/O消耗。
搜索关键词: 一种 基于 并行 关联 规则 算法 教育 应用 统计 方法
【主权项】:
一种基于并行化关联规则算法的教育云应用统计方法,首先获取教育云应用的访问情况,对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式文件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写Map函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得到访问者对教育云应用的访问情况,具体步骤如下:步骤一、从教育云服务器获取日志信息数据并定时上传到集群节点的分布式文件系统HDFS中;步骤二、以存储在HDFS中的日志信息数据作为源数据,进行数据库数据建模;步骤二的具体步骤如下:2‑1)建立教育云应用和访问者访问路径的对应关系:建立如表1所示的应用名称与访问路径映射表,对应关系为:{(01,高中教学,/union/senior/index.html),(02,初中教学,/union/junior/index.html),(03,小学教育,/union/primary/index.html),(04,儿童教育,/union/child/index.html),(05,网络磁盘,/union/disk/index.html),(06,在线影音,/union/media/index.html),(07,在线编辑,/union/edit/index.html),(08,在线考试,/union/test/index.html)};表1应用名称与访问路径映射表ID应用名称访问路径01高中教学/union/senior/index.html02初中教学/union/junior/index.html03小学教育/union/primary/index.html04儿童教育/union/child/index.html05网络磁盘/union/disk/index.html06在线影音/union/media/index.html07在线编辑/union/edit/index.html08在线考试/union/test/index.html2‑2)以存储在HDFS中的日志信息数据作为源数据,日志信息数据逐行存储,每一行记录了访问者访问教育云平台的信息,每一行的格式为<remotehost,ident,authuser,date,request,status,bytes,referrer,agent>,其中remotehost为访问主机地址或者已解析的域名,ident为标示符,authuser为授权访问者,用于记录访问者进行身份验证时提供名字,date为日期时间,request为请求资源的URL,包括请求类型、请求资源、协议版本号,status为状态码,表示服务器的响应状态,bytes为传输的字节数,referrer为来源页面的URL,表示浏览者在访问该页面之前所浏览的页面,agent为访问者的详细信息;编写shell脚本,使用awk命令分割每一行,获取每行的<remotehost,date,request,referrer>四个字段,再存入分布式文件系统HDFS中;2‑3)基于分割所获取的字段生成访问序列:基于字段date获取同一时间段的记录<remotehost,request,referrer>,其中request和referrer字段根据表1所示的应用名称与访问路径映射表映射为相应的ID,然后基于字段remotehost进行排序,同一remotehost视为同一访问者;2‑4)针对每个访问者的访问序列生成数据项集;每行的访问序列的格式为<referrer,request>,其中referrer为来源页面的URL,request为请求资源的URL;基于MapReduce进行单表连接步骤三、源数据经过建模之后,以数据项集文件的形式存储在HDFS中,每一行代表一个访问者的点击流序列;在进行频繁项集和关联规则挖掘之前,采用二进制表示法,将数据项集转换成布尔矩阵,布尔矩阵存储在分布式文件系统HDFS中;步骤四、关联规则挖掘:基于MapReduce对传统的挖掘方法进行并行化优化,具体步骤为:4‑1)扫描存储在分布式文件系统HDFS中的布尔矩阵,生成频繁项集;4‑2)生成关联规则:由频繁项集生成关联规则;步骤五、根据步骤四的步骤4‑1)生成的频繁项集,以图形化形式向访问者展示教育云应用的使用情况。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510066472.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top