[发明专利]面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质在审
申请号: | 202111004903.3 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113688977A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 张犁;姚子羽;韩子亮;裘旭益;李石坚;崔振新;潘纲 | 申请(专利权)人: | 浙江大学;中国航空无线电电子研究所 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F3/01;A63F13/67 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 对抗 任务 人机 共生 强化 学习方法 装置 计算 设备 存储 介质 | ||
1.一种面向对抗任务的人机共生强化学习方法,其特征在于,包括以下步骤:
根据人类指导的示范数据,采用模仿学习优化CNN以得到CNN的策略函数;
根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数,并为PPO算法添加目标值网络用以计算回报值,采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络;
以优化的PPO算法初始化NFSP算法中进行对抗任务每个智能体的平均策略网络,并采用MCTS算法计算每个智能体的最佳回应策略;
根据人类反馈数据训练NFSP算法的奖励值估计,依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习,以优化智能体的平均策略和最佳回应策略。
2.如权利要求1所述的面向对抗任务的人机共生强化学习方法,其特征在于,采用模仿学习优化CNN以得到CNN的策略函数,包括:
获取带有噪声的示范数据作为示范数据集;
利用示范数据集训练CNN得到策略网络的初始策略函数,采集原PPO算法在初始策略函数的在线策略数据集,对在线策略数据集与初始示范数据集的差集中的环境状态进行人工标注后添加到示范数据集;迭代循环此过程,直到训练结束获得CNN的最终策略函数。
3.如权利要求1所述的面向对抗任务的人机共生强化学习方法,其特征在于,增加回报值的损失函数表示为:
其中,LVF(φ)表示在策略φ下的损失函数,st表示t时刻的环境状态,Vφ(st)表示环境状态st在策略φ下的期望价值,γi-1表示奖励的衰减系数,γT-t表示从t时刻到游戏结束时刻T时的价值衰减,表示当前策略下特定终结状态st的期望价值,T表示每一局的步数(即一局游戏的规定长度),t表示任一给定时刻,t+i表示从t到T时刻之间任一未来时刻。
4.如权利要求1所述的面向对抗任务的人机共生强化学习方法,其特征在于,采用分布式训练方式更新PPO算法的策略网络和原值网络,包括:
在PPO算法上采用分布式计算架构,定义1个点全局结点和多个工作结点,其中,全局结点负责存储全局网络参数、接受来自工作结点的梯度数据以及对全局参数进行更新;每个工作结点对应环境中的智能体和操作系统的一个线程,不保存网络参数,而是在每次计算梯度时向全局网络请求并得到参数,当梯度计算完毕后发送梯度给全局结点。
5.如权利要求1所述的面向对抗任务的人机共生强化学习方法,其特征在于,采用MCTS算法计算每个智能体的最佳回应策略时,将结点选择的UCT函数的第一项修改为q(s,a),其初始值为NFSP算法中原最佳回应网络关于状态s输出的状态值V(s),并在第二项中乘以平均策略网络输出的概率P(s,a),即修改后的UCT函数表示为:
其中,q(s,a)表示状态s下选择动作a所获得的奖励,N(s,a)表示在状态s下访问动作a的次数,N(s,b)表示在状态s下访问动作b的次数,c是控制探索与利用的系数;
当前智能体以最大化UCT函数的动作作为下一步动作;
在结点选择过程中,当前智能体的对手使用当前智能体的平均策略网络来选择动作,当执行到终止状态时,将当前智能体的奖励记为r,通过反向传播过程来更新模拟路径上各个状态结点的统计值q(s,a)和N(s,a):
N(s,a)←N(s,a)+1
其中,符号←表示更新的意思;
对博弈树进行多轮模拟,得到当前状态下各个动作的访问次数N(s,a),采取访问次数最大的动作作为当前的最佳回应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;中国航空无线电电子研究所,未经浙江大学;中国航空无线电电子研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004903.3/1.html,转载请声明来源钻瓜专利网。