[发明专利]基于强化学习的自适应移动学习路径生成方法有效
申请号: | 201910338100.8 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110097192B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 任维武;底晓强;郑燕林;从立钢;杨明;刘名扬 | 申请(专利权)人: | 长春理工大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 长春众邦菁华知识产权代理有限公司 22214 | 代理人: | 王丹阳 |
地址: | 130022 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 自适应 移动 路径 生成 方法 | ||
1.一种基于强化学习的自适应移动学习路径生成方法,其特征是:该方法由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
式中,LeLFS为社会和学习者契合度,LeLFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤九、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和,如果结果值达到学习目标值D,则结束状态位Fsb为真;
步骤十、更新学习选择收益表LSRT,所述学习选择收益表LSRT中新值LSRT(Rij)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤十一、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤十二、判断迭代次数N是否超过预设值,如果是,则执行步骤十三,如果否,返回执行步骤六;
步骤十三、从学习选择收益表LSRT表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成学习路径推荐队列LPRQ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春理工大学,未经长春理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910338100.8/1.html,转载请声明来源钻瓜专利网。