[发明专利]基于统计频率和关联规则的异常学生挖掘方法在审

申请号：	201710834420.3	申请日：	2017-09-15
公开（公告）号：	CN107578181A	公开（公告）日：	2018-01-12
发明（设计）人：	邓晓衡;郑静益;沈海澜;龙芳;黄戎;陈凌驰	申请（专利权）人：	中南大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/20
代理公司：	长沙永星专利商标事务所(普通合伙)43001	代理人：	周咏,米中业
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于统计频率关联规则异常学生挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明具体涉及一种基于统计频率和关联规则的异常学生挖掘方法。

背景技术

随着国家经济技术的发展和人们生活水平的提高，教育已经成为我国发展的重中之重。近些年信息化和网络化建设的浪潮遍及了各个行业，激增的数据量在各大应用系统中不断积淀。面对海量的数据，虽然数据库可以进行一些常规的数据查询和统计功能，但是却无法进行更深层次的数据分析与挖掘，存储如此巨量的数据甚至会直接影响数据库的性能和正常运行。为了应对“信息爆炸而知识贫乏”的状态，数据挖掘的平台技术和方法不断涌现。现今使用的最多的大数据存储平台是Hadoop的组件HDFS和基于内存的计算框架Spark。

异常学生挖掘是根据已完成学业的学生的各科考试成绩挖掘出存在各种不同学业问题的学生。标记出存在问题的异常学生后，通过一卡通数据可以分析这些异常学生平时的生活习惯，如消费情况、图书馆借阅情况和门禁记录等，进而通过数据刻画异常学生的生活情况，并以此来分析当前在校学生的生活数据，对预测可能存在学业问题的学生作出提醒。随着高校的扩招和一卡通系统数据的积累，学校的教务系统中沉淀了海量已毕业学生的学生成绩数据。当前的高校学生学业成绩管理通常由辅导员人工完成，只是对学生的挂科情况进行提醒和处理，具有极大地滞后性，如果能综合已毕业学生的数据，分析存在学业问题的学生的日常行为模式，将其建立模型，用于分析当前在校学生日常行为，就可以在其出现学业问题之前予以提醒和纠正，而高校对于已经毕业的学生数据，没有进行细致的分类，很难从成绩数据中看出哪些学生曾经存在过学业问题。面对这一情况，相关数据挖掘技术在这方面的应用就不断出现，其中，比较常用的就是使用离群点检测算法，挖掘和大多数学生相比存在明显异常的学生，并以此来引导制定教学方案、对学生进行预警，目的是能够提高教学质量降低留级退学情况的发生。

现如今常用的离群点检测算法包括基于统计的离群点检测方法、基于距离的离群点检测方法、基于密度的离群点检测方法、基于聚类的离群点检测方法和基于偏移的离群点检测方法，这些方法作为通用的离群点挖掘方法，除了各自存在的缺陷之外，最大的问题是不能有针对性的对特定的场景进行高效的挖掘，大学学生从成绩来看中大致存在两类不同的异常学生，一类是全局型异常学生，该类学生大部分课程成绩均不理想，另一类是偏科型异常学生，对于特定类型的课程存在问题，除了这两类离群点外，还存在大量的噪声数据(学生考试中发挥失常等因素导致成绩数据不能准确反映学生实际水平)，严重影响算法的准确性。

发明内容

本发明目的在于提供一种预测准确、预测效果好、算法简单可靠的基于统计频率和关联规则的异常学生挖掘方法。

本发明提供的这种基于统计频率和关联规则的异常学生挖掘方法，包括如下步骤：

S1.获取待分析学生的成绩数据，并构建学生-成绩矩阵X；矩阵中的元素X_ij表示学生i在课程j中的成绩；

S2.根据步骤S1建立的学生-成绩矩阵X，针对每一列数据X_j进行数据清洗后得到矩阵X'，并统计X'中每一列数据X_j'中的离群点数据并进行标记，从而得到学生-课程异常矩阵A；

S3.根据步骤S2中得到的学生-课程异常矩阵A，统计每个学生存在的异常科目占其所修科目的比重，并与事先设定的第一阈值进行比较，从而划分出全局型异常学生；

S4.对往届学生的成绩数据进行关联规则挖掘，从而获得学生各课程成绩之间的关联关系；

S5.根据步骤S4得到的各课程成绩之间的关联关系，对所有学生的异常科目进行分组合并；

S6.对步骤S5得到的分组合并后的学生的异常科目集合，计算其关联规则信息熵，并与事先设定的第二阈值进行比较，从而划分出偏科型异常学生；

S7.根据步骤S3和步骤S6得到的全局型异常学生和偏科型异常学生，采用专家经验法对学生进行分类，从而挖掘得到最终的异常学生。

步骤S1所述的构建学生-成绩矩阵X，具体为采用如下步骤构建矩阵：

1)搭建大数据存储框架HDFS存储学生的考试成绩；