[发明专利]基于蒙特卡洛树搜索的深度强化学习的冰壶决策方法在审
申请号: | 202210229369.4 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114581834A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 李宗民;孙浩淼;肖倩;孙文洁;李亚传;王向东 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06N3/08;G06N3/04;G06V10/82 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 蒙特卡洛树 搜索 深度 强化 学习 决策 方法 | ||
1.基于卷积神经网络的策略网络和价值网络的训练流程
(1)基于模拟学习的策略网络训练,训练数据是随机抽样的状态-行为对(s,a)。使用随机梯度上升来最大限度地提高在状态中选择专家行为的可能性。
(2)使用策略梯度增强学习(RL)来提高策略网络。
(3)价值网络的权重是基于状态-结果对(s,z)的回归来训练的,就是使用随机梯度降低来最小化预测值vθ(s)和相应结果z之间的均方误差。
2.蒙特卡洛树的改进
(1)基于核回归和核密度函数的UCT动作选择函数的改进
使用E(v|a)公式来代替原UCT动作选择函数中的va,具体可以描述为估计x处的y值是其他所有x的y加权求和得到的。此外用W(b)代替原UCT中的nb。对领域中特定点,核密度函数量化了可用的相关数据量。W(a)越小,也就代表在目前动作数据集中能够与动作a产生联系的数据过少,那么这个动作需要被优先探索。
(2)基于核密度函数的动作集扩充
利用选择函数选择的动作action,获取满足不等式K(at,a)γ同时是最小的W(a)值所对应的动作添加到该状态现有的动作集中。在具体实现中,我们使用选择的最优动作at,利用高斯核生成指定方差和均值的采样样本,这种采样使我们的算法能够探索和搜索连续空间中的动作。
(3)基于逐步扩展的结点访问扩展
MCTS中的大多数选择函数,包括UCT,都需要尝试每个操作一次。所以,很明显,它们并不直接适用于连续动作空间。逐步扩大,根据对节点的访问次数人为地限制了MCTS在节点中评估的操作数量。
(4)基于策略网络的结点动作集初始化以及价值网络的结点价值评估
对于每个结点的包括根节点在内的初始化,使用卷积神经网络训练好的策略函数初始化k个动作,即在温度参数τ下,利用无偏分布,使用πa|st+1对初始作用进行采样。不同于之前蒙特卡洛树搜索默认使用随机模拟获取价值求平均的方法,我们使用上述训练好的价值网络对已经初始化的或者已经扩展的状态结点进行评估。无需基于规则的任何领域知识,从而可以获得更快的搜索速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210229369.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轧钢加热炉炉墙
- 下一篇:一种可调整切割角度的EPE板材切割装置