[发明专利]基于半监督学习的大规模网络开放课程退课预测算法在审

申请号：	201510967503.0	申请日：	2015-12-21
公开（公告）号：	CN105631536A	公开（公告）日：	2016-06-01
发明（设计）人：	江峰;李文涛	申请（专利权）人：	重庆工商职业学院
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/20;G06K9/62
代理公司：	重庆信航知识产权代理有限公司 50218	代理人：	穆祥维
地址：	400052 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及基于半监督学习的大规模网络开放课程退课预测算法，首先从慕课网站获取用户的学习日志文件，获取的用户一部分构成测试样本集，另一部分构成训练样本集；其次根据用户的学习日志文件统计训练样本集中所有样本的行为特征，得到最能表达训练样本集中所有样本共有特性的n种行为特征；第三根据n种行为特征采用半监督学习方法获得R种分类器；第四使用测试样本集对R种分类器的标注准确率进行测试，选出标注准确率最高的分类器，最后将任意一个未标记的用户的行为特征输入上述分类器，即可对给用户进行标记。该算法只需要使用较少的标记样本即可，减少了对样本进行标注花费的大量人力和物力，不但节约了预测成本，而且预测准确率也提高了。
搜索关键词：	基于监督学习大规模网络开放课程预测算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于半监督学习的大规模网络开放课程退课预测算法，其特征在于，包括如下步骤：S1：从MOOC网站获取用户的学习日志文件，获取的用户一部分构成测试样本集，另一部分构成训练样本集，其中测试样本集中的测试样本全部是已标记样本，该训练样本集中包括未标记样本和已标记样本，所有未标记样本构成未标记样本集，所有已标记样本构成标记样本集；S2：根据用户的学习日志文件统计训练样本集中所有样本的行为特征，得到最能表达训练样本集中所有样本共有特性的n种行为特征；设某一课程的课程持续时间为K周；设U_i＝{U(i,1),....,U(i,j),....,U(i,n)}，U_i表示训练样本集中的第i个样本，U(i,j)＝{(U(i,j)₁,....U(i,j)_k....U(i,j)_K)}，U(i,j)表示训练样本集中第i个样本的第j种行为特征向量，U(i,j)_k表示第i个用户的第j种行为特征在课程持续时间的第k周出现的次数；S3：从n种行为特征中随机选取m种行为特征，并采用下述方式获得R种分类器，其中，m≤n，

<mrow><mi>R</mi><mo>=</mo><msubsup><mi>C</mi><mi>n</mi><mi>m</mi></msubsup><mo>=</mo><mfrac><mrow><mi>n</mi><mo>!</mo></mrow><mrow><mi>m</mi><mo>!</mo><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>m</mi><mo>)</mo></mrow><mo>!</mo></mrow></mfrac><mo>,</mo><mi>r</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mn>3</mn><mo>...</mo><mi>R</mi><mo>;</mo></mrow>

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>|</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>)</mo></mrow><mo>·</mo><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mrow><mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>;</mo></mrow>

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>0</mn></mrow></msub><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>U</mi><mi>j</mi></msub><mo>|</mo><mo>+</mo><mo>|</mo><msub><mi>L</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mi>a</mi><mo>)</mo></mrow><mo>;</mo></mrow>

其中，|L_j,C＝0|表示在第j种行为特征下已标记样本集中被标注C＝0的样本的总数，L_j表示第j种行为特征下所有已标注样本形成的集合，|L_j|表示集合L_j中样本的总数，|U_j|+|L_j|表示第j种行为特征下训练样本集中样本的总数；P_rj(U(v,j)|C＝0)＝P_rj(U(v,j)₁|C＝0)·P_rj(U(v,j)₂|C＝0),..., (1b)；P_rj(U(v,j)_k|C＝0),...P_rj(U(v,j)_K|C＝0)

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><msub><mrow><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo></mrow><mi>k</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>0</mn></mrow></msub><mrow><mo>(</mo><mi>U</mi><msub><mrow><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo></mrow><mi>k</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>0</mn></mrow></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mi>b</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>;</mo></mrow>

其中，|L_j,C＝0|表示在第j种行为特征下已标记样本集中被标注C＝0的样本的总数，|L_j,C＝0(U(v,j)_k)|表示在第j种行为特征下已标记样本集中被标注C＝0的样本中，在课程持续时间的第k周出现第j种行为的次数为U(v,j)_k的样本的总数；

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>·</mo><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mo>;</mo></mrow>

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>1</mn></mrow></msub><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>U</mi><mi>j</mi></msub><mo>|</mo><mo>+</mo><mo>|</mo><msub><mi>L</mi><mi>j</mi></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mi>a</mi><mo>)</mo></mrow><mo>;</mo></mrow>

<mrow><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>U</mi><msub><mrow><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo></mrow><mi>k</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>U</mi><msub><mrow><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo></mrow><mi>k</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>L</mi><mrow><mi>j</mi><mo>,</mo><mi>C</mi><mo>=</mo><mn>1</mn></mrow></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mi>b</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>;</mo></mrow>

其中，|L_j,C＝1|表示在第j种行为特征下已标记样本集中被标注C＝1的样本的总数，|L_j,C＝1(U(v,j)_k)|表示在第j种行为特征下已标记样本集中被标注C＝1的样本中，在课程持续时间的第k周出现第j种行为的次数为U(v,j)_k的样本的总数；P_rj(U(v,j))＝P(U(v,j)|C＝0)·P(C＝0) (3)；P(U(v,j)|C＝1)·P(C＝1)输出P_rj(C＝0|U(v,j)_k)和P_rj(C＝1|U(v,j)_k)；S306：令v＝v+1；S307：当v>|U_j|时，执行下一步，否则返回步骤S304；S308：max{P_rj(C＝0|U(v,j))}＝max{P_rj(C＝0|U(v,j)),v＝1,2,3...u_j}，将max{P_rj(C＝0|U(v,j))}对应的未标记样本从集合U_j中剔除，同时将max{P_rj(C＝0|U(v,j))}对应的未标记样本移入集合L_j，并将max{P_rj(C＝0|U(v,j))}对应的未标记样本标注C＝0；max{P_rj(C＝1|U(v,j))}＝max{P_rj(C＝1|U(v,j)),v＝1,2,3...TU_j}，将max{P_rj(C＝1|U(v,j))}对应的未标记样本从集合U_j中剔除，同时将max{P_rj(C＝1|U(v,j))}对应的未标记样本移入集合L_j，并将max{P_rj(C＝1|U(v,j))}对应的未标记样本标注C＝1；S309：更新第j种行为特征下所有未标记样本形成的集合U_j和第j种行为特征下所有已标注样本形成的集合L_j，令|U_j|＝|U_j|‑2，|T_j|＝|T_j|+2；S310：|U_j|≥2时，返回步骤S303，否则执行下一步；S311：令j＝j+1；S312：当j>m时，输出当前已标记样本集，并执行下一步；否则返回步骤S303；S313：令r＝r+1；S314：当r>R时，执行下一步；否则返回步骤S302；S4：选择最优的分类器S401：获取步骤S1中的测试样本集，该测试样本集中共有H个测试样本，h＝1,2，…H；S402：令r＝1；S403：令h＝1；S404：根据公式(4)计算P_h(C＝0|U(v,j))：

<mrow><msub><mi>P</mi><mi>h</mi></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>0</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow><mo>;</mo></mrow>

根据公式(5)计算P_h(C＝1|U(v,j))：

<mrow><msub><mi>P</mi><mi>h</mi></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>P</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>|</mo><mi>U</mi><mo>(</mo><mrow><mi>v</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow><mo>;</mo></mrow>

S405：如果P_h(C＝0|U(v,j))≥P_h(C＝1|U(v,j))，则将第h个测试样本标注C＝0，否则标注C＝1，输出标记后的第h个测试样本；S406：令h＝h+1；S407：如果h>H，则执行下一步，否则返回步骤S404；S408：计算第r个分类器的准确率η_r，其中S＝H表示使用第r个分类器进行标注的次数，S’表示使用第r个分类器标注正确的次数；S409：令r＝r+1；S410：如果r>R，则执行下一步，否则返回步骤S403；S411：max{η_r}＝max{η_r,r＝1,2,3...R}，max{η_r}对应的分类器为标注准确率最高的分类器，最后输出max{η_r}对应的分类器，该分类器记为S5：对于任意一个未标记的用户U_x，根据其学习日志文件，获取该用户的n种行为特征，选定步骤S411输出的分类器，然后根据公式(6)计算