[发明专利]一种基于深度知识跟踪与强化学习的学习路径优化方法有效

专利信息
申请号: 202110706088.9 申请日: 2021-06-24
公开(公告)号: CN113268611B 公开(公告)日: 2022-11-01
发明(设计)人: 李建伟;李领康;于玉杰 申请(专利权)人: 北京邮电大学;北京思开科技有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08
代理公司: 北京永创新实专利事务所 11121 代理人: 易卜
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 知识 跟踪 强化 学习 路径 优化 方法
【权利要求书】:

1.一种基于深度知识跟踪与强化学习的学习路径优化方法,其特征在于,包括知识点间的学习路径优化过程和知识点内的学习路径优化过程;具体步骤如下:

首先,针对某个学生,选择所有未学的离散知识点,以及没有先修知识点的根知识点作为待选知识点集合;利用该学生已经学过的各知识点,根据历史学习数据进行one-hot编码,输入到训练好的DKT模型中,输出学生对各待选知识点的掌握水平预测值;

然后,将各待选知识点的预测结果从高到低排序,选择预测结果最高的知识点K推荐给学生学习;学习过程使用知识点内学习路径优化算法实现;

所述知识点内学习路径优化算法,具体分为两个阶段:

第一阶段:使用强化学习的Q-Learning算法进行训练,得到该知识点K的掌握状态和做题动作对应的Q矩阵;

步骤301、初始化学习率α,折扣因子γ和训练回合的计数器EPISODES=0;

步骤302、初始化强化学习算法的Q矩阵为0,并定义环境给予的奖励反馈Reward;

Q矩阵为1行2n列,每个状态对应的动作初始已对应完毕;2n为知识点K及其先修知识点下的n道试题,对应的动作集合数量;

奖励反馈Reward为:从当前状态执行某个动作后的状态达到了知识点目标状态值st,奖励值Reward为1,否则Reward为0;具体公式为:

(s,a)为当前的状态和动作,为当前状态采取动作之后的状态;

步骤303、判断Q矩阵是否收敛,如果是,停止训练过程,将当前Q矩阵输出,用于第二阶段知识点内学习路径推荐;否则,初始化状态s=0.5,进入步骤304;

步骤304、判断当前回合当前状态s是否达到目标状态值,如果是,当前回合结束,进入步骤311;否则,进入步骤305;

步骤305、判断当前回合是否还有未执行的动作,如果是,根据Q矩阵的当前状态选择一个动作a,进入步骤306,否则当前回合结束,进入步骤311;

步骤306、完成动作a后,根据学生的历史学习数据进行one-hot编码后,输入到训练好的DKT模型,预测得到当前知识点K的最新掌握状态值即为下一个状态

步骤307、判断状态是否在Q矩阵的状态集合中,如果是,则进入步骤308;否则,加入状态集合,在Q矩阵中添加一行数据,且每个元素初始化为0;

步骤308、将状态代入奖励反馈Reward中返回该状态对应的奖励值R,回合计数EPISODES自增1,并在数据库中保存该回合时间记录与奖励值R;

步骤309、利用当前Q矩阵和奖励反馈Reward对Q矩阵进行更新;

更新公式如下:

更新公式如下:

表示下一个状态及对应的行为;是指状态下的所有动作对应的最大Q值;

步骤310、返回步骤304,继续判断下一个状态是否达到人为设定的目标值,并不断更新Q矩阵;

步骤311、判断当前已完成的回合数EPISODES是否大于等于目标回合数M,如果是,进入步骤312;否则,Q矩阵未收敛,进入步骤303;

步骤312、按时间统计最近M个回合获得奖励值R为1的概率P,判断是否满足P≥90%,如果是,则Q矩阵足够接近收敛,算法终止,Q矩阵训练完毕保存Q矩阵;否则,Q矩阵未收敛,进入步骤303,继续下一个回合训练;

第二阶段:使用训练好的Q矩阵用于该知识点内学习路径推荐;具体为:

步骤3.1:设定掌握度目标状态st的值,学生当前知识点掌握度水平s初始化为0.5;

步骤3.2:根据第一阶段训练的Q矩阵,选择状态s下最大Q值的动作a,将动作所对应的试题推荐给学生学习;

步骤3.3:学生完成学习后,根据学生当前知识点的作答记录,使用训练好的DKT算法模型计算学生的下一个状态并更新学生当前状态;

步骤3.4:判断更新后的当前状态是否达到目标状态值st,如果是,结束本知识点K的学习;否则,返回步骤3.2继续当前知识点K的下一个动作对应的试题内容学习;

最后,在当前知识点K学习通过之后,判断该知识点是否有后续知识点,如果有,将当前知识点K的后续知识点加入待选知识点集合,并将当前知识点K从待选知识点集合移出;否则,直接将当前知识点K从待选知识点集合移出,并判断待选知识点集合是否为空,如果是,终止循环;否则,继续下一个知识点学习。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京思开科技有限公司,未经北京邮电大学;北京思开科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110706088.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top