[发明专利]一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法在审
申请号: | 202110774457.8 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113673672A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 金晶;姜宇;赵悦;李丹丹 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蒙特卡洛 强化 学习 比赛 策略 生成 方法 | ||
本发明公开一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法。步骤1:基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网络模型的输入及输出;步骤2:基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合;步骤3:利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖励数据更新策略价值网络;步骤4:利用步骤3更新的策略价值网络,指导蒙特卡洛树搜索;步骤5:重复步骤3‑步骤4得到训练好的策略价值网络。本发明用以解决难以获得有效数据集的策略决策的问题。
技术领域
本发明属于人工智能计算机博弈技术领域。具体涉及一种基于蒙特卡洛强化 学习的冰壶比赛策略生成方法。
背景技术
近年来,随着计算能力的提升,应用强化学习技术进行时序决策取得了飞速 发展。在许多策略博弈中,如围棋、象棋、扑克等,引入强化学习的机器决策智 能体已经成功战胜人类顶级玩家。强化学习技术可以在大量的对弈训练过程学习 过去的经验,并在对弈中发现人类没有掌握的策略技巧,强化学习在策略决策中 取得成功的应用。
冰壶运动以其场地范围大、状态和动作空间连续、推壶具有不确定性等特点, 是一种智力性和体力性要求很强的运动,相比于各种棋类活动,其自动策略设计 难度更高。由于冰壶属于双人有限零和博弈,因此可以使用计算机通过对冰壶状 态进行计算生成比赛策略。传统的冰壶比赛策略是专业人士根据冰壶规则及经验 对冰壶的状态设置评价函数,该方法对冰壶专业知识及经验要求较高,且采用该 技术的策略水平局限在人类的策略水平之内,效果不佳。
发明内容
本发明提供一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法,用以解决 难以获得有效数据集的策略决策的问题。
本发明通过以下技术方案实现:
一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法,所述冰壶比赛策略生 成方法包括以下步骤:
步骤1:基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网 络模型的输入及输出;
步骤2:基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合;
步骤3:利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖 励数据更新策略价值网络;
步骤4:利用步骤3更新的策略价值网络,指导蒙特卡洛树搜索;
步骤5:重复步骤3-步骤4得到训练好的策略价值网络。
进一步的,所述步骤1包括以下步骤:
步骤1.1:将状态空间和动作空间进行离散化,并设计策略价值网络的输入 和输出;
步骤1.2:基于步骤1.1的策略价值网络的输入和输出,设计策略价值网络 结构。
3.根据权利要求2所述一种基于蒙特卡洛强化学习的冰壶比赛策略生成方 法,其特征在于,所述步骤1.1包括以下步骤:
步骤1.1.1:将冰壶状态空间和动作空间进行离散化,设计网络的状态输入, 基于冰壶比赛状态,提取出7维特征,包括冰壶发球顺序、冰壶位置与大本营中 心的距离顺序,网络输入为32*32*29的图像信息;
步骤1.1.2:将冰壶状态空间和动作空间进行离散化,设计网络的输出,策 略输出为离散化后2048个不同动作的概率,价值输出为由输入状态到本局游戏 结束可能取得17种不同得分的概率;
步骤1.1.3:基于稠密卷积网络特点设计策略价值网络,最终网络公共部分 有四个稠密卷积块,策略输出与价值输出部分具有不同的卷积层与全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110774457.8/2.html,转载请声明来源钻瓜专利网。