[发明专利]一种基于并行化关联规则算法的教育云应用统计方法有效
申请号: | 201510066472.1 | 申请日: | 2015-02-09 |
公开(公告)号: | CN104573124B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 袁东风;王宏宾;刘萍 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南金迪知识产权代理有限公司37219 | 代理人: | 吕利敏 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 关联 规则 算法 教育 应用 统计 方法 | ||
1.一种基于并行化关联规则算法的教育云应用统计方法,首先获取教育云应用的访问情况,对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式文件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写Map函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得到访问者对教育云应用的访问情况,具体步骤如下:
步骤一、从教育云服务器获取日志信息数据并定时上传到集群节点的分布式文件系统HDFS中;
步骤二、以存储在HDFS中的日志信息数据作为源数据,进行数据库数据建模;
步骤二的具体步骤如下:
2-1)建立教育云应用和访问者访问路径的对应关系:建立如表1所示的应用名称与访问路径映射表,对应关系为:{(01,高中教学,/union/senior/index.html),(02,初中教学,/union/junior/index.html),(03,小学教育,/union/primary/index.html),(04,儿童教育,/union/child/index.html),(05,网络磁盘,/union/disk/index.html),(06,在线影音,/union/media/index.html),(07,在线编辑,/union/edit/index.html),(08,在线考试,/union/test/index.html)};
表1应用名称与访问路径映射表
2-2)以存储在HDFS中的日志信息数据作为源数据,日志信息数据逐行存储,每一行记录了访问者访问教育云平台的信息,每一行的格式为<remotehost,ident,authuser,date,request,status,bytes,referrer,agent>,其中remotehost为访问主机地址或者已解析的域名,ident为标示符,authuser为授权访问者,用于记录访问者进行身份验证时提供名字,date为日期时间,request为请求资源的URL,包括请求类型、请求资源、协议版本号,status为状态码,表示服务器的响应状态,bytes为传输的字节数,referrer为来源页面的URL,表示浏览者在访问该页面之前所浏览的页面,agent为访问者的详细信息;编写shell脚本,使用awk命令分割每一行,获取每行的<remotehost,date,request,referrer>四个字段,再存入分布式文件系统HDFS中;
2-3)基于分割所获取的字段生成访问序列:基于字段date获取同一时间段的记录<remotehost,request,referrer>,其中request和referrer字段根据表1所示的应用名称与访问路径映射表映射为相应的ID,然后基于字段remotehost进行排序,同一remotehost视为同一访问者;
2-4)针对每个访问者的访问序列生成数据项集;每行的访问序列的格式为<referrer,request>,其中referrer为来源页面的URL,request为请求资源的URL;基于MapReduce进行单表连接
步骤三、源数据经过建模之后,以数据项集文件的形式存储在HDFS中,每一行代表一个访问者的点击流序列;在进行频繁项集和关联规则挖掘之前,采用二进制表示法,将数据项集转换成布尔矩阵,布尔矩阵存储在分布式文件系统HDFS中;
步骤四、关联规则挖掘:基于MapReduce对传统的挖掘方法进行并行化优化,具体步骤为:
4-1)扫描存储在分布式文件系统HDFS中的布尔矩阵,生成频繁项集;
4-2)生成关联规则:由频繁项集生成关联规则;
步骤五、根据步骤四的步骤4-1)生成的频繁项集,以图形化形式向访问者展示教育云应用的使用情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510066472.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:指令的处理方法、指令的处理装置和终端
- 下一篇:语音识别方法和装置