[发明专利]基于强化学习的自适应移动学习路径生成方法有效
申请号: | 201910338100.8 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110097192B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 任维武;底晓强;郑燕林;从立钢;杨明;刘名扬 | 申请(专利权)人: | 长春理工大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 长春众邦菁华知识产权代理有限公司 22214 | 代理人: | 王丹阳 |
地址: | 130022 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 自适应 移动 路径 生成 方法 | ||
基于强化学习的自适应移动学习路径生成方法,涉及教育技术领域和强化学习领域,解决现有移动学习领域中学习资源多、学习需求杂、学习选择困难、学习收益不稳定等问题,获取学习环境和学习者的契合度、生成学习资源有向图;根据生成的学习资源有向图和学习收益值R,初始化学习选择收益表LSRT;然后根据学习收益值和计算结果值等更新学习选择收益表LSRT,最终生成生成学习路径推荐队列。本发明所述的自适应移动学习路径生成方法,能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列,解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。
技术领域
本发明涉及教育技术领域和强化学习领域,具体涉及一种基于强化学习的自适应移动学习路径生成方法。
背景技术
随着移动学习领域的拓展和移动学习资源、需求的增加,学习者希望在移动学习中高效地利用学习资源,快速高质量的完成学习。但海量无序的学习资源,让更多的学习者在选择时不知所措,所以有必要提出一种个性化自适应移动学习路径生成方法,能够根据移动学习环境、学习者特征和学习效果素自动推荐学习资源序列,并获得最大的学习收益。
发明内容
本发明为了解决移动学习环境中存在的学习资源多、学习需求杂、学习选择困难等问题,提供一种基于强化学习的自适应移动学习路径生成方法。
一种基于强化学习的自适应移动学习路径生成方法,由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
式中,LeLFS为社会和学习者契合度,LelFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春理工大学,未经长春理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910338100.8/2.html,转载请声明来源钻瓜专利网。