[发明专利]基于统计频率和关联规则的异常学生挖掘方法在审
申请号: | 201710834420.3 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107578181A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 邓晓衡;郑静益;沈海澜;龙芳;黄戎;陈凌驰 | 申请(专利权)人: | 中南大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/20 |
代理公司: | 长沙永星专利商标事务所(普通合伙)43001 | 代理人: | 周咏,米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 频率 关联 规则 异常 学生 挖掘 方法 | ||
技术领域
本发明具体涉及一种基于统计频率和关联规则的异常学生挖掘方法。
背景技术
随着国家经济技术的发展和人们生活水平的提高,教育已经成为我国发展的重中之重。近些年信息化和网络化建设的浪潮遍及了各个行业,激增的数据量在各大应用系统中不断积淀。面对海量的数据,虽然数据库可以进行一些常规的数据查询和统计功能,但是却无法进行更深层次的数据分析与挖掘,存储如此巨量的数据甚至会直接影响数据库的性能和正常运行。为了应对“信息爆炸而知识贫乏”的状态,数据挖掘的平台技术和方法不断涌现。现今使用的最多的大数据存储平台是Hadoop的组件HDFS和基于内存的计算框架Spark。
异常学生挖掘是根据已完成学业的学生的各科考试成绩挖掘出存在各种不同学业问题的学生。标记出存在问题的异常学生后,通过一卡通数据可以分析这些异常学生平时的生活习惯,如消费情况、图书馆借阅情况和门禁记录等,进而通过数据刻画异常学生的生活情况,并以此来分析当前在校学生的生活数据,对预测可能存在学业问题的学生作出提醒。随着高校的扩招和一卡通系统数据的积累,学校的教务系统中沉淀了海量已毕业学生的学生成绩数据。当前的高校学生学业成绩管理通常由辅导员人工完成,只是对学生的挂科情况进行提醒和处理,具有极大地滞后性,如果能综合已毕业学生的数据,分析存在学业问题的学生的日常行为模式,将其建立模型,用于分析当前在校学生日常行为,就可以在其出现学业问题之前予以提醒和纠正,而高校对于已经毕业的学生数据,没有进行细致的分类,很难从成绩数据中看出哪些学生曾经存在过学业问题。面对这一情况,相关数据挖掘技术在这方面的应用就不断出现,其中,比较常用的就是使用离群点检测算法,挖掘和大多数学生相比存在明显异常的学生,并以此来引导制定教学方案、对学生进行预警,目的是能够提高教学质量降低留级退学情况的发生。
现如今常用的离群点检测算法包括基于统计的离群点检测方法、基于距离的离群点检测方法、基于密度的离群点检测方法、基于聚类的离群点检测方法和基于偏移的离群点检测方法,这些方法作为通用的离群点挖掘方法,除了各自存在的缺陷之外,最大的问题是不能有针对性的对特定的场景进行高效的挖掘,大学学生从成绩来看中大致存在两类不同的异常学生,一类是全局型异常学生,该类学生大部分课程成绩均不理想,另一类是偏科型异常学生,对于特定类型的课程存在问题,除了这两类离群点外,还存在大量的噪声数据(学生考试中发挥失常等因素导致成绩数据不能准确反映学生实际水平),严重影响算法的准确性。
发明内容
本发明目的在于提供一种预测准确、预测效果好、算法简单可靠的基于统计频率和关联规则的异常学生挖掘方法。
本发明提供的这种基于统计频率和关联规则的异常学生挖掘方法,包括如下步骤:
S1.获取待分析学生的成绩数据,并构建学生-成绩矩阵X;矩阵中的元素Xij表示学生i在课程j中的成绩;
S2.根据步骤S1建立的学生-成绩矩阵X,针对每一列数据Xj进行数据清洗后得到矩阵X',并统计X'中每一列数据Xj'中的离群点数据并进行标记,从而得到学生-课程异常矩阵A;
S3.根据步骤S2中得到的学生-课程异常矩阵A,统计每个学生存在的异常科目占其所修科目的比重,并与事先设定的第一阈值进行比较,从而划分出全局型异常学生;
S4.对往届学生的成绩数据进行关联规则挖掘,从而获得学生各课程成绩之间的关联关系;
S5.根据步骤S4得到的各课程成绩之间的关联关系,对所有学生的异常科目进行分组合并;
S6.对步骤S5得到的分组合并后的学生的异常科目集合,计算其关联规则信息熵,并与事先设定的第二阈值进行比较,从而划分出偏科型异常学生;
S7.根据步骤S3和步骤S6得到的全局型异常学生和偏科型异常学生,采用专家经验法对学生进行分类,从而挖掘得到最终的异常学生。
步骤S1所述的构建学生-成绩矩阵X,具体为采用如下步骤构建矩阵:
1)搭建大数据存储框架HDFS存储学生的考试成绩;
2)搭建大数据内存计算框架Spark,通过SparkSQL对数据进行清洗,从而得到学生-成绩矩阵X。
所述的通过SparkSQL对数据进行清洗,具体为去掉分数字段出现的字符数据、大于100和小于0的数值型数据,以及学生ID无法关联到学籍表的学生的数据。
步骤S2所述的构建学生-课程异常矩阵A,具体为采用如下步骤构建矩阵:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710834420.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理