[发明专利]一种基于深度知识跟踪与强化学习的学习路径优化方法有效
申请号: | 202110706088.9 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113268611B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 李建伟;李领康;于玉杰 | 申请(专利权)人: | 北京邮电大学;北京思开科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 易卜 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 知识 跟踪 强化 学习 路径 优化 方法 | ||
1.一种基于深度知识跟踪与强化学习的学习路径优化方法,其特征在于,包括知识点间的学习路径优化过程和知识点内的学习路径优化过程;具体步骤如下:
首先,针对某个学生,选择所有未学的离散知识点,以及没有先修知识点的根知识点作为待选知识点集合;利用该学生已经学过的各知识点,根据历史学习数据进行one-hot编码,输入到训练好的DKT模型中,输出学生对各待选知识点的掌握水平预测值;
然后,将各待选知识点的预测结果从高到低排序,选择预测结果最高的知识点K推荐给学生学习;学习过程使用知识点内学习路径优化算法实现;
所述知识点内学习路径优化算法,具体分为两个阶段:
第一阶段:使用强化学习的Q-Learning算法进行训练,得到该知识点K的掌握状态和做题动作对应的Q矩阵;
步骤301、初始化学习率α,折扣因子γ和训练回合的计数器EPISODES=0;
步骤302、初始化强化学习算法的Q矩阵为0,并定义环境给予的奖励反馈Reward;
Q矩阵为1行2n列,每个状态对应的动作初始已对应完毕;2n为知识点K及其先修知识点下的n道试题,对应的动作集合数量;
奖励反馈Reward为:从当前状态执行某个动作后的状态达到了知识点目标状态值st,奖励值Reward为1,否则Reward为0;具体公式为:
(s,a)为当前的状态和动作,为当前状态采取动作之后的状态;
步骤303、判断Q矩阵是否收敛,如果是,停止训练过程,将当前Q矩阵输出,用于第二阶段知识点内学习路径推荐;否则,初始化状态s=0.5,进入步骤304;
步骤304、判断当前回合当前状态s是否达到目标状态值,如果是,当前回合结束,进入步骤311;否则,进入步骤305;
步骤305、判断当前回合是否还有未执行的动作,如果是,根据Q矩阵的当前状态选择一个动作a,进入步骤306,否则当前回合结束,进入步骤311;
步骤306、完成动作a后,根据学生的历史学习数据进行one-hot编码后,输入到训练好的DKT模型,预测得到当前知识点K的最新掌握状态值即为下一个状态
步骤307、判断状态是否在Q矩阵的状态集合中,如果是,则进入步骤308;否则,加入状态集合,在Q矩阵中添加一行数据,且每个元素初始化为0;
步骤308、将状态代入奖励反馈Reward中返回该状态对应的奖励值R,回合计数EPISODES自增1,并在数据库中保存该回合时间记录与奖励值R;
步骤309、利用当前Q矩阵和奖励反馈Reward对Q矩阵进行更新;
更新公式如下:
更新公式如下:
表示下一个状态及对应的行为;是指状态下的所有动作对应的最大Q值;
步骤310、返回步骤304,继续判断下一个状态是否达到人为设定的目标值,并不断更新Q矩阵;
步骤311、判断当前已完成的回合数EPISODES是否大于等于目标回合数M,如果是,进入步骤312;否则,Q矩阵未收敛,进入步骤303;
步骤312、按时间统计最近M个回合获得奖励值R为1的概率P,判断是否满足P≥90%,如果是,则Q矩阵足够接近收敛,算法终止,Q矩阵训练完毕保存Q矩阵;否则,Q矩阵未收敛,进入步骤303,继续下一个回合训练;
第二阶段:使用训练好的Q矩阵用于该知识点内学习路径推荐;具体为:
步骤3.1:设定掌握度目标状态st的值,学生当前知识点掌握度水平s初始化为0.5;
步骤3.2:根据第一阶段训练的Q矩阵,选择状态s下最大Q值的动作a,将动作所对应的试题推荐给学生学习;
步骤3.3:学生完成学习后,根据学生当前知识点的作答记录,使用训练好的DKT算法模型计算学生的下一个状态并更新学生当前状态;
步骤3.4:判断更新后的当前状态是否达到目标状态值st,如果是,结束本知识点K的学习;否则,返回步骤3.2继续当前知识点K的下一个动作对应的试题内容学习;
最后,在当前知识点K学习通过之后,判断该知识点是否有后续知识点,如果有,将当前知识点K的后续知识点加入待选知识点集合,并将当前知识点K从待选知识点集合移出;否则,直接将当前知识点K从待选知识点集合移出,并判断待选知识点集合是否为空,如果是,终止循环;否则,继续下一个知识点学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京思开科技有限公司,未经北京邮电大学;北京思开科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110706088.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的颈动脉内膜剥脱器械
- 下一篇:一种水刀及水刀机