[发明专利]一种基于深度知识跟踪与强化学习的学习路径优化方法有效

申请号：	202110706088.9	申请日：	2021-06-24
公开（公告）号：	CN113268611B	公开（公告）日：	2022-11-01
发明（设计）人：	李建伟;李领康;于玉杰	申请（专利权）人：	北京邮电大学;北京思开科技有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08
代理公司：	北京永创新实专利事务所 11121	代理人：	易卜
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度知识跟踪强化学习路径优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度知识跟踪与强化学习的学习路径优化方法，其特征在于，包括知识点间的学习路径优化过程和知识点内的学习路径优化过程；具体步骤如下：

首先，针对某个学生，选择所有未学的离散知识点，以及没有先修知识点的根知识点作为待选知识点集合；利用该学生已经学过的各知识点，根据历史学习数据进行one-hot编码，输入到训练好的DKT模型中，输出学生对各待选知识点的掌握水平预测值；

然后，将各待选知识点的预测结果从高到低排序，选择预测结果最高的知识点K推荐给学生学习；学习过程使用知识点内学习路径优化算法实现；

所述知识点内学习路径优化算法，具体分为两个阶段：

第一阶段：使用强化学习的Q-Learning算法进行训练，得到该知识点K的掌握状态和做题动作对应的Q矩阵；

步骤301、初始化学习率α，折扣因子γ和训练回合的计数器EPISODES＝0；

步骤302、初始化强化学习算法的Q矩阵为0，并定义环境给予的奖励反馈Reward；

Q矩阵为1行2n列，每个状态对应的动作初始已对应完毕；2n为知识点K及其先修知识点下的n道试题，对应的动作集合数量；

奖励反馈Reward为：从当前状态执行某个动作后的状态达到了知识点目标状态值s_t，奖励值Reward为1，否则Reward为0；具体公式为：

(s,a)为当前的状态和动作，为当前状态采取动作之后的状态；

步骤303、判断Q矩阵是否收敛，如果是，停止训练过程，将当前Q矩阵输出，用于第二阶段知识点内学习路径推荐；否则，初始化状态s＝0.5，进入步骤304；

步骤304、判断当前回合当前状态s是否达到目标状态值，如果是，当前回合结束，进入步骤311；否则，进入步骤305；

步骤305、判断当前回合是否还有未执行的动作，如果是，根据Q矩阵的当前状态选择一个动作a，进入步骤306，否则当前回合结束，进入步骤311；

步骤306、完成动作a后，根据学生的历史学习数据进行one-hot编码后，输入到训练好的DKT模型，预测得到当前知识点K的最新掌握状态值即为下一个状态

步骤307、判断状态是否在Q矩阵的状态集合中，如果是，则进入步骤308；否则，加入状态集合，在Q矩阵中添加一行数据，且每个元素初始化为0；

步骤308、将状态代入奖励反馈Reward中返回该状态对应的奖励值R，回合计数EPISODES自增1，并在数据库中保存该回合时间记录与奖励值R；

步骤309、利用当前Q矩阵和奖励反馈Reward对Q矩阵进行更新；

更新公式如下：

表示下一个状态及对应的行为；是指状态下的所有动作对应的最大Q值；

步骤310、返回步骤304，继续判断下一个状态是否达到人为设定的目标值，并不断更新Q矩阵；

步骤311、判断当前已完成的回合数EPISODES是否大于等于目标回合数M，如果是，进入步骤312；否则，Q矩阵未收敛，进入步骤303；

步骤312、按时间统计最近M个回合获得奖励值R为1的概率P，判断是否满足P≥90％，如果是，则Q矩阵足够接近收敛，算法终止，Q矩阵训练完毕保存Q矩阵；否则，Q矩阵未收敛，进入步骤303，继续下一个回合训练；

第二阶段：使用训练好的Q矩阵用于该知识点内学习路径推荐；具体为：

步骤3.1：设定掌握度目标状态s_t的值，学生当前知识点掌握度水平s初始化为0.5；

步骤3.2：根据第一阶段训练的Q矩阵，选择状态s下最大Q值的动作a，将动作所对应的试题推荐给学生学习；

步骤3.3：学生完成学习后，根据学生当前知识点的作答记录，使用训练好的DKT算法模型计算学生的下一个状态并更新学生当前状态；

步骤3.4：判断更新后的当前状态是否达到目标状态值s_t，如果是，结束本知识点K的学习；否则，返回步骤3.2继续当前知识点K的下一个动作对应的试题内容学习；

最后，在当前知识点K学习通过之后，判断该知识点是否有后续知识点，如果有，将当前知识点K的后续知识点加入待选知识点集合，并将当前知识点K从待选知识点集合移出；否则，直接将当前知识点K从待选知识点集合移出，并判断待选知识点集合是否为空，如果是，终止循环；否则，继续下一个知识点学习。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京思开科技有限公司，未经北京邮电大学;北京思开科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110706088.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载