[发明专利]认知行为模型加速的深度Q网络强化学习方法及设备在审
申请号: | 202110669282.4 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113554166A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 黄健;李嘉祥;陈浩;刘权;张中杰;付可;韩润海 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 认知 行为 模型 加速 深度 网络 强化 学习方法 设备 | ||
1.一种认知行为模型加速的深度Q网络强化学习方法,其中,所述方法通过认知行为模型和深度强化学习模型实现;所述深度强化学习模型中包括启发策略网络和深度Q网络;所述方法包括:
利用所述认知行为模型从环境中获取状态信息并根据所述状态信息得到认知行为知识,并将所述认知行为知识发送至所述启发策略网络;
利用所述深度强化学习模型从所述环境中获取所述状态信息,并将所述状态信息发送至所述启发策略网络和所述深度Q网络;利用所述启发策略网络根据所述状态信息和所述认知行为知识得到启发策略值,并将所述启发策略值发送至所述深度Q网络;利用所述深度Q网络根据所述状态信息和所述启发策略值得到动作并执行;
利用所述深度强化学习模型从所述环境中获取回报,并对所述启发策略网络和所述深度Q网络进行迭代更新;
循环执行上述操作,响应于确定所述深度Q网络收敛,结束所述强化学习。
2.根据权利要求1所述的方法,其中,所述认知行为模型中包括:目标集、知识集、信念集、动作集和行为规则集;
所述方法还包括:构建所述认知行为模型;具体包括:
获取任务信息、环境信息和能力信息;
根据所述任务信息,构建所述目标集;
根据所述环境信息,构建所述知识集和所述信念集;
根据所述能力信息,构建所述动作集和所述行为规则集。
3.根据权利要求2所述的方法,其中,所述利用所述认知行为模型从环境中获取状态信息并根据所述状态信息得到认知行为知识,包括:
根据所述状态信息更新所述信念集;
根据所述状态信息更新所述目标集;
根据所述知识集、所述动作集、所述行为规则集、更新后的所述信念集和更新后的所述目标集得到所述认知行为知识。
4.根据权利要求3所述的方法,其中,所述目标集中包括多个按顺序排列的子目标;所述根据所述状态信息更新所述目标集,包括:
响应于确定任一所述子目标已经完成,删除所述目标集中的该子目标之前的所有所述子目标。
5.根据权利要求1所述的方法,其中,所述深度Q网络中包括价值网络和目标网络;
所述价值网络用于完成由所述状态信息到所述动作的映射;
所述目标网络用于形成离线的所述强化学习方式;所述目标网络与所述价值网络的网络结构相同,每隔预设周期获取所述价值网络的参数并同步到所述目标网络中。
6.根据权利要求5所述的方法,其中,所述利用所述所述深度Q网络根据所述状态信息和所述启发策略值得到动作并执行,包括:
利用所述价值网络根据所述状态信息得到价值网络输出;
将所述价值网络输出和所述启发策略值线性相加得到所述动作。
7.根据权利要求1所述的方法,其中,所述利用所述所述深度Q网络根据所述状态信息和所述启发策略值得到动作并执行,还包括:
在预设范围内随机确定一随机数;
响应于确定所述随机数大于预设的探索率,执行所述动作;
响应于确定所述随机数不大于预设的探索率,执行随机动作。
8.根据权利要求5所述的方法,其中,所述对所述启发策略网络和所述深度Q网络进行迭代更新,包括:
利用最小化损失函数的梯度下降方法分别构建所述价值网络和所述启发策略网络的损失函数,并分别利用各自对应的所述损失函数更新所述价值网络和所述启发策略网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110669282.4/1.html,转载请声明来源钻瓜专利网。