[发明专利]基于加权深度森林的成人学位英语等级预测方法有效
申请号: | 201910349379.X | 申请日: | 2019-04-28 |
公开(公告)号: | CN110175700B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 夏正新 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62;G06Q50/20 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 深度 森林 成人 学位 英语等级 预测 方法 | ||
本发明提供了一种基于加权深度森林的成人学位英语等级预测方法,其包括如下步骤:数据采集,从大学网络教育数据库提取已有学位英语成绩的本科学生的相关数据;数据预处理,去除异常无效的数据后作为训练样本集和测试样本集;构建深度森林,输入训练样本集及测试样本集;使用训练样本集训练子树,得到当前子树的类概率向量;根据样本间隔及样本多样性来构建每一级森林中每棵子树的权重,再对各个子树的预测概率向量进行加权求和,找出整个森林的预测结果,从而提高成人学位英语等级的预测准确率。
技术领域
本发明涉及一种基于加权深度森林的成人学位英语等级预测方法。
背景技术
目前,已有较多的专家和学者针对学业成绩预测做了相关研究,但大部分研究都是预测成绩的影响因素与学生的学分绩点,并未根据历届以及在校各级学生的课程成绩数据对在校学生的具体课程成绩进行有效的预测,无法提供针对性的指导意见。学位英语考试成绩是获得学位的必要条件,同时又是统考大学英语免试的条件之一,对于网络教育本科学生非常重要。
深度森林(Deep Forest,DF)与深度神经网络都是通过多级结构进行表征学习,但深度森林以其简单的训练模型以及不依赖于大量数据进行训练的特点弥补了深度神经网络的缺点,并逐渐被应用于工程实践中。可参考文献1:Zhou Z H,Feng J.Deep Forest:Towards An Alternative to Deep Neural Networks[J].arXiv preprint arXiv:1702.08835.2017。因此,可以通过深度森林来实现成人学位英语的等级预测。
深度森林由多粒度扫描(Multi-Grained Scanning)和级联森林两个部分组成。其中,多粒度扫描通过滑动窗口技术获取多个特征子集,以增强级联森林的差异性。级联森林则是将决策树组成的森林通过级联方式实现表征学习。深度森林沿用了深度学习对样本特征属性的逐层处理机制,利用多级结构实现表征学习。与深度学习不同之处主要表现在以下几个方面。首先,深度森林的级数是随着训练的不断深入自动调节的;其次,深度森林具有很少的超参数且对超参数不敏感;再次,深度森林具有较低的训练开销,既适用于大规模数据集也适用于小规模数据集;最后,其结构适用于并行处理。
多粒度扫描主要处理高维数据和图像数据。整个多粒度扫描结构如图1所示,假设长度为n的一维特征向量,若使用长度为m的窗口进行滑动且每次滑动一个单位长度,将产生n-m+1个具有m维特征向量的数据子集;类似的,对于一个n×n的二维图像数据,若使用m×m的窗口进行滑动,每次滑动一个单位长度,将产生(n-m+1)2个具有m×m特征向量的数据子集。这些数据集将分别输入到1个完全随机森林和1个随机森林。对于c个类别的分类问题,经过两个不同的随机森林分类后,长度为n的一维特征向量将产生长度为2c(n-m+1)的类向量;类似的,对于一个n×n的二维图像数据,将产生长度为2c(n-m+1)2的类向量。随后,这些类向量将被拼接到原始的样本的特征空间里,作为后面级联森林的输入特征。
级联森林主要由随机森林和完全随机树森林两种森林组成。森林之间通过层级方式形成级联结构。级联森林结构和森林中树的结构分别如图2、3所示。对于每一级森林,首先,训练样本通过k折交叉验证,训练其中各棵子树,与此同时,每棵子树对每个训练样本给出一个预测的类概率向量;其次,将测试样本输入训练得到的森林,每棵子树对每个测试样本也给出一个预测的类概率向量;再次,森林对所有子树预测的类概率向量按训练样本和测试样本分别计算平均类概率向量;最后,该级的所有森林将所有样本上的平均类概率向量与样本的原始特征向量拼接后作为下一级森林的输入特征。每级结束预测后,会在验证集上对预测结果进行评估,以决定是否扩展下一级。如果不再扩展,则在已扩展的级中,找出最优评估结果所对应的级,将所有森林在测试样本上的平均类概率向量算术平均后,取概率最高的类向量作为整个深度森林的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349379.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理