[发明专利]基于加权深度森林的成人学位英语等级预测方法有效
申请号: | 201910349379.X | 申请日: | 2019-04-28 |
公开(公告)号: | CN110175700B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 夏正新 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62;G06Q50/20 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 深度 森林 成人 学位 英语等级 预测 方法 | ||
1.一种基于加权深度森林的成人学位英语等级预测方法,其特征在于,包括如下步骤:
步骤1:数据采集,从大学网络教育数据库提取已有学位英语成绩的本科学生的相关数据;
步骤2:数据预处理,去除异常无效的数据后作为训练样本集和测试样本集;
步骤3:构建深度森林,输入训练样本集及测试样本集,所述深度森林包括多粒度扫描与级联森林;所述多粒度扫描可通过获取多个特征子集产生相应类向量,所述类向量被拼接到原始的样本的特征空间里,作为后面级联森林的输入特征;所述级联森林包括随机森林和完全随机树森林,森林之间通过层级方式形成级联结构,所述训练样本集用于训练所述深度森林,所述测试样本集用于评估所述深度森林;
步骤4:使用训练样本集训练子树,得到当前子树的类概率向量;所述子树的权重根据样本的最小绝对间隔和样本被正确分类的分类器个数来构建;
步骤5:根据样本间隔及样本多样性来构建每一级森林中每棵子树的权重,再对各个子树的类概率向量进行加权求和,从而找出整个森林的预测结果;
给定一个包含M棵子树的森林F和其中任意一个决策树T;在数据集D={(xi,yi)|i=1,2,...,N)}上,所述子树的权重通过以下方法获得:
其中α∈[0,1]表示平衡因子,I(·)表示指示函数,函数fm(xi),fd(xi)分别表示样本分类间隔和分类器多样性;
函数fm(xi),fd(xi)通过以下方法获得:
其中,表示森林F中预测样本xi为yi类的子树个数;而表示森林F中预测样本xi不是yi类的最大子树个数。
2.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述步骤3还包括判断当训练样本集是否为高维数据集,是则进行多粒度扫描,不是则进行下一步骤。
3.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述步骤5具体包括:
步骤5-1:计算当前子树的权重;
步骤5-2:根据各个子树的权重更新森林对每个样本所输出的类概率向量;
步骤5-3:对预测结果进行评估,如果是中间级,这些被更新的类概率向量会与原始样本空间向量拼接作为下一级的输入;如果是输出级,这些被更新的类概率向量会作为决策使用。
4.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述平衡因子通过实验结果确定最优取值策略,平衡因子优选为0.2。
5.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述预测结果为学位英语等级,所述学位英语等级是通过将百分制学位英语成绩采用分数区间来进行离散化得到。
6.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:已有学位英语成绩的本科学生的相关数据包括在籍和近年来已毕业的学生;在提取的相关数据中选取若干个变量,根据若干个变量中的全部或多个构建学位英语预测模型。
7.根据权利要求6所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述若干个变量包括“学号”、“入学年龄”、“登录平台次数”、“学习时长”、“读帖次数”、“发帖次数”、“作业完成等级”、“入学测试英语成绩”、“入学测试计算机成绩”、“大学英语二成绩”、“大学英语三成绩”、“所学课程平均成绩”、“统考大学英语成绩”及“学位英语等级”共14个变量,学位英语预测模型包含的变量情况可为:包含全部14个变量、删除“入学测试计算机成绩”、删除“入学测试计算机成绩”及“入学年龄”或者删除“入学测试计算机成绩”、“入学年龄”及“入学测试英语成绩”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349379.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理