[发明专利]基于蒙特卡洛树搜索的深度强化学习的冰壶决策方法在审
申请号: | 202210229369.4 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114581834A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 李宗民;孙浩淼;肖倩;孙文洁;李亚传;王向东 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06N3/08;G06N3/04;G06V10/82 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 蒙特卡洛树 搜索 深度 强化 学习 决策 方法 | ||
本发明基于深度强化学习,使用改进的蒙特卡洛树搜索算法,实现了在连续动作空间内冰壶比赛决策生成。算法以下三个创新:核回归和核密度函数改进的动作选择函数,使用核回归使得动作集合中所有动作之间进行共享信息,可以通过现有的动作集合信息选择候选集合之外的动作,使用缓慢增长的离散采样动作集的方式处理连续动作空间。除此之外,还利用卷积神经网络训练策略决策网络和价值评估网络对蒙特卡洛树搜索算法中的动作选取和价值评估进行改进。本发明有效提升了现有的冰壶辅助决策模型的效果。
技术领域
本发明属于深度强化学习领域,是传统强化学习结合卷积神经网络的人工智能领域中的一项重要应用,尤其是涉及对连续动作空间的蒙特卡洛树搜索进行改进。
技术背景
2016年的著名的围棋人机大战,李世石以1∶3的对决结果输给了基于强化学习决策生成的AlphaGo,人工智能迅速火爆全网。AlphaGo的成功让我们看到强化学习的巨大潜力。冰壶运动越来越受到大家的关注与欢迎。作为一项技巧和谋略相结合的比赛项目,是不是也可以借助计算机的力量来规划冰壶比赛策略,作为运动员提高成绩辅助手段。
冰壶运动相对于传统强化学习对象比如说棋类活动有很大的不同。冰壶运动投掷冰壶的角度、速度和旋转都处于连续的动作空间,简单的离散不仅造成了精度低而且没有利用连续空间动作之间的相关性特点,对冰壶决策过程产生了很大的限制。其次冰壶游戏中一个重要的战略考虑是执行的不确定性。运动员可能打算以特定的角度和速度来推动冰壶,但不可避免的是,人类的精度有其局限性。此外,冰和冰壶造成了额外的不可预测性,因为冰的不同部分甚至不同的冰壶可能会产生的摩擦力和侧向力,并且冰面上的碎片也可能会影响会引起剧烈的轨道变化。所以本发明是在已知模型是不确定模型的前提下,从连续行动,连续状态和随机规划问题中选择策略的问题。
传统连续动作空间解决方法是使用领域知识来确定一个比较小的、离散的候选行动集来解决连续行动空间。然后对每个行为的随机结果的连续空间进行采样。最后,对于每个抽样结果,使用一个启发式函数来评估结果,但是在此之前只会进行一个非常浅的搜索。
我们提出的基于深度强化学习,使用改进的蒙特卡洛树搜索算法,使用核回归和核密度函数改进的动作选择函数,利用核回归使得动作集合中所有动作之间进行共享信息,还可以通过现有的动作集合信息选择候选集合之外的动作,使用缓慢增长的离散采样动作集的方式处理连续动作空间。有效提升了现有的冰壶辅助决策模型的效果。
发明内容
本发明提出的使用核回归和核密度函数改进的蒙特卡洛方法可以在原有的动作空间内生成新的动作集合,并且使用了逐步扩展方法,根据对节点的访问次数人为地限制了MCTS在节点中评估的操作数量,只有在对最佳可用措施的质量进行了充分的评估后,才会考虑其他措施。同时还结合了卷积神经网络训练的策略函数和价值函数,对MCTS在结点进行更为准确的评估。该方法实现了在连续动作空间内冰壶比赛决策生成,可以为运动员进行很好训练辅助。
其技术解决方案是:
基于深度强化学习的蒙特卡洛树搜索算法改进工作主要是包含以下两个方面:
1)策略网络和价值网络的训练
2)将训练好的策略价值网络结合到蒙特卡洛树搜索中,并且使用核回归和核密度函数进行蒙特卡洛树搜索中动作选择函数进行改进,此外还使用逐步扩展的方法,人为的限制结点搜索次数,平衡搜索树的深度和宽度。
附图说明
附图1策略网络和价值网络训练流程
附图2算法伪代码流程
具体实施方式
1)基于卷积神经网络的策略网络和价值网络的训练流程
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210229369.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轧钢加热炉炉墙
- 下一篇:一种可调整切割角度的EPE板材切割装置