[发明专利]一种基于反事实遗憾最小化的虚拟自我对弈方法和装置在审
申请号: | 202111004896.7 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113689001A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 陈宇轩;裘旭益;张犁;姚子羽;李石坚;崔振新;潘纲 | 申请(专利权)人: | 浙江大学;中国航空无线电电子研究所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08;G06F17/18;A63F13/67 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事实 遗憾 最小化 虚拟 自我 对弈 方法 装置 | ||
1.一种基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,所述虚拟自我对弈方法应用在多方智能体参与的博弈环境中,多方智能体采用相同算法生成策略,每个策略对应待优化的算法参数,决定算法输出动作的概率值;
所述虚拟自我对弈方法包括以下步骤:
每个智能体采用反事实遗憾最小化算法根据博弈环境状态生成针对全局策略的最佳回应策略;提取每个智能体的历史回应策略平均化后的动作的概率值得到每个智能体的平均策略;
按照一定比例分别对最佳回应策略和平均策略进行采样,将采样得到的环境状态、动作的概率值以及对应的回报分别存储到平均策略经验池和最佳回应策略经验池;
从平均策略经验池和最佳回应经验池中采样环境状态、动作的概率值以及对应的回报更新最佳回应策略和平均策略。
2.如权利要求1所述的基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,对最佳回应策略进行采样,包括:从最佳回应策略对应的输出动作的概率值进行筛选并输出决策动作,得到环境状态、动作的概率值以及对应的回报并存储到最佳回应策略经验池和平均策略经验池。
3.如权利要求1所述的基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,对平均策略进行采样,包括:当输入的环境状态存在于平均策略时,对该环境状态对应的输出动作的概率值进行筛选输出决策动作,将得到的环境状态、动作的概率值以及对应的回报存储到平均策略经验池;
当输入的环境状态不存在于平均策略时,依据输入的环境状态从最佳回应策略进行采样,即从最佳回应策略对应的输出动作的概率值进行筛选并输出动作,得到环境状态、动作的概率值以及对应的回报并存储到平均策略经验池。
4.如权利要求1所述的基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,针对每个智能体,执行0~1的随机数,在随机数小于预设比例时,选择最佳回应策略并执行依据最佳回应策略得到的决策动作;当随机数大于等于预设比例时,选择平均策略并执行依据平均策略得到的决策动作。
5.如权利要求1所述的基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,最佳回应策略和平均策略的更新方式为:
Πi+1=(1-α)Πi+αΒi+1(Πi)
其中,i代表第i次更新迭代,α表示更新比例,Πi表示第i次迭代下的平均策略,Βi+1(Πi)表示平均策略Πi的最佳回应策略,ωi为平均策略Πi下各动作的遗憾值,其中,动作的遗憾值表示为采用决策动作得到的回报与按照平均策略Πi对应的输出动作的概率值选择动作得到的回报期望之差,差值越大,表示选择决策动作越可能取得更大的回报,越对未采用决策动作产生的遗憾越大;
在更新平均策略时,从最佳回应策略经验池中提取环境状态,动作的概率值p和对应的回报,判断环境状态是否在平均策略中,若无,则新建该环境状态的平均策略为该动作的概率值;若有,则原平均策略的对应动作概率值加为新的动作概率值。
6.如权利要求1或5所述的基于反事实遗憾最小化的虚拟自我对弈方法,其特征在于,最佳回应策略和平均策略的更新过程为:
在最佳回应策略经验池大小小于预设阈值、且迭代次数小于预设迭代次数时,从平均策略经验池采样环境状态、动作的概率值以及对应的回报更新最佳回应策略;从最佳回应策略经验池采样环境状态、动作的概率值以及对应的回报按照比例更新平均策略;否则迭代更新结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;中国航空无线电电子研究所,未经浙江大学;中国航空无线电电子研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004896.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:头部旋磁治疗帽以及头部病灶有效定位方法
- 下一篇:一种牛奶酱油及其酿造方法