[发明专利]基于半监督学习的大规模网络开放课程退课预测算法在审
申请号: | 201510967503.0 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105631536A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 江峰;李文涛 | 申请(专利权)人: | 重庆工商职业学院 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/20;G06K9/62 |
代理公司: | 重庆信航知识产权代理有限公司 50218 | 代理人: | 穆祥维 |
地址: | 400052 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于半监督学习的大规模网络开放课程退课预测算法,首先从慕课网站获取用户的学习日志文件,获取的用户一部分构成测试样本集,另一部分构成训练样本集;其次根据用户的学习日志文件统计训练样本集中所有样本的行为特征,得到最能表达训练样本集中所有样本共有特性的n种行为特征;第三根据n种行为特征采用半监督学习方法获得R种分类器;第四使用测试样本集对R种分类器的标注准确率进行测试,选出标注准确率最高的分类器,最后将任意一个未标记的用户的行为特征输入上述分类器,即可对给用户进行标记。该算法只需要使用较少的标记样本即可,减少了对样本进行标注花费的大量人力和物力,不但节约了预测成本,而且预测准确率也提高了。 | ||
搜索关键词: | 基于 监督 学习 大规模 网络 开放 课程 预测 算法 | ||
【主权项】:
基于半监督学习的大规模网络开放课程退课预测算法,其特征在于,包括如下步骤:S1:从MOOC网站获取用户的学习日志文件,获取的用户一部分构成测试样本集,另一部分构成训练样本集,其中测试样本集中的测试样本全部是已标记样本,该训练样本集中包括未标记样本和已标记样本,所有未标记样本构成未标记样本集,所有已标记样本构成标记样本集;S2:根据用户的学习日志文件统计训练样本集中所有样本的行为特征,得到最能表达训练样本集中所有样本共有特性的n种行为特征;设某一课程的课程持续时间为K周;设Ui={U(i,1),....,U(i,j),....,U(i,n)},Ui表示训练样本集中的第i个样本,U(i,j)={(U(i,j)1,....U(i,j)k....U(i,j)K)},U(i,j)表示训练样本集中第i个样本的第j种行为特征向量,U(i,j)k表示第i个用户的第j种行为特征在课程持续时间的第k周出现的次数;S3:从n种行为特征中随机选取m种行为特征,并采用下述方式获得R种分类器,其中,m≤n, R种分类器的获得方式如下:S301:设r=1;S302:j=1;S303:v=1;S304:设Prj(C|U(i,j))为训练样本集中第i个样本在第j种行为特征下被标注为C的概率,其中,被标注C=0的样本表示存留用户,被标注C=1的样本表示退课用户;S305:选择未标记样本集中第j种行为特征下的所有未标记样本,第j种行为特征下所有未标记样本形成的集合Uj,分别计算集合Uj中每个未标记样本的Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k),其中v=1,2,...,|Uj|,|Uj|表示集合Uj中样本的总数; 其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本的总数,Lj表示第j种行为特征下所有已标注样本形成的集合,|Lj|表示集合Lj中样本的总数,|Uj|+|Lj|表示第j种行为特征下训练样本集中样本的总数;Prj(U(v,j)|C=0)=Prj(U(v,j)1|C=0)·Prj(U(v,j)2|C=0),..., (1b);Prj(U(v,j)k|C=0),...Prj(U(v,j)K|C=0) 其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本的总数,|Lj,C=0(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=0的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本的总数; 其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本的总数;Prj(U(v,j)|C=1)=Prj(U(v,j)1|C=1)·Prj(U(v,j)2|C=1),..., (2b);Prj(U(v,j)k|C=1),...Prj(U(v,j)K|C=1) 其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本的总数,|Lj,C=1(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=1的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本的总数;Prj(U(v,j))=P(U(v,j)|C=0)·P(C=0) (3);P(U(v,j)|C=1)·P(C=1)输出Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k);S306:令v=v+1;S307:当v>|Uj|时,执行下一步,否则返回步骤S304;S308:max{Prj(C=0|U(v,j))}=max{Prj(C=0|U(v,j)),v=1,2,3...uj},将max{Prj(C=0|U(v,j))}对应的未标记样本从集合Uj中剔除,同时将max{Prj(C=0|U(v,j))}对应的未标记样本移入集合Lj,并将max{Prj(C=0|U(v,j))}对应的未标记样本标注C=0;max{Prj(C=1|U(v,j))}=max{Prj(C=1|U(v,j)),v=1,2,3...TUj},将max{Prj(C=1|U(v,j))}对应的未标记样本从集合Uj中剔除,同时将max{Prj(C=1|U(v,j))}对应的未标记样本移入集合Lj,并将max{Prj(C=1|U(v,j))}对应的未标记样本标注C=1;S309:更新第j种行为特征下所有未标记样本形成的集合Uj和第j种行为特征下所有已标注样本形成的集合Lj,令|Uj|=|Uj|‑2,|Tj|=|Tj|+2;S310:|Uj|≥2时,返回步骤S303,否则执行下一步;S311:令j=j+1;S312:当j>m时,输出当前已标记样本集,并执行下一步;否则返回步骤S303;S313:令r=r+1;S314:当r>R时,执行下一步;否则返回步骤S302;S4:选择最优的分类器S401:获取步骤S1中的测试样本集,该测试样本集中共有H个测试样本,h=1,2,…H;S402:令r=1;S403:令h=1;S404:根据公式(4)计算Ph(C=0|U(v,j)): 根据公式(5)计算Ph(C=1|U(v,j)): S405:如果Ph(C=0|U(v,j))≥Ph(C=1|U(v,j)),则将第h个测试样本标注C=0,否则标注C=1,输出标记后的第h个测试样本;S406:令h=h+1;S407:如果h>H,则执行下一步,否则返回步骤S404;S408:计算第r个分类器的准确率ηr,其中S=H表示使用第r个分类器进行标注的次数,S’表示使用第r个分类器标注正确的次数;S409:令r=r+1;S410:如果r>R,则执行下一步,否则返回步骤S403;S411:max{ηr}=max{ηr,r=1,2,3...R},max{ηr}对应的分类器为标注准确率最高的分类器,最后输出max{ηr}对应的分类器,该分类器记为S5:对于任意一个未标记的用户Ux,根据其学习日志文件,获取该用户的n种行为特征,选定步骤S411输出的分类器,然后根据公式(6)计算 根据公式(7)计算 如果 则将用户Ux标注C=0,否则注C=1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆工商职业学院,未经重庆工商职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510967503.0/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理