[发明专利]面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质在审
申请号: | 202111004903.3 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113688977A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 张犁;姚子羽;韩子亮;裘旭益;李石坚;崔振新;潘纲 | 申请(专利权)人: | 浙江大学;中国航空无线电电子研究所 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F3/01;A63F13/67 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 对抗 任务 人机 共生 强化 学习方法 装置 计算 设备 存储 介质 | ||
本发明公开了一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质,包括:根据人类指导的示范数据,采用模仿学习优化CNN以得到CNN的策略函数;根据CNN的策略函数初始化PPO算法的策略网络的策略函数,为PPO算法添加目标值网络用以计算回报值,采用分布式训练方式以增加回报值的损失函数优化PPO算法;以PPO算法初始化NFSP算法中智能体的平均策略网络,并采用MCTS算法计算智能体的最佳回应策略;根据人类反馈数据训练NFSP算法的奖励值估计,依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习,以优化智能体的平均策略和最佳回应策略。以提升智能体在对抗任务的决策准确性。
技术领域
本发明属于人工智能及智能博弈对抗的技术领域,具体涉及一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质。
背景技术
人工智能领域有很多应用问题需要算法在每个时刻作出贯序决策。对于围棋问题,算法每一步需要根据当前盘面状态以决定放置棋子的最优位置,如公开号为CN112717415A的专利申请公开的基于信息瓶颈理论的强化学习对战游戏AI训练方法。对于自动驾驶问题,算法每一刻需要根据当前路况信息来确定安全的行驶策略,如公开号为CN111605565A的专利申请公开的基于深度强化学习的自动驾驶行为决策方法。强化学习是求解这类问题的通用方法,其目标是希望智能体在与环境的交互过程中,通过不断试错来积累经验,随着时间的推移并最终学习到一个合理的行为策略。近年来,随着算法的进步和计算能力的增强,强化学习在游戏、自动驾驶、控制论等应用方面已经取得了许多重要的成果。
但是,现实世界中存在着大量复杂场景,其具有奖励稀疏、非完全信息、大规模搜索空间、合作竞争关系复杂等特点。强化学习在这些复杂问题上通常收敛较慢、难以学习到有效策略,这也是当前强化学习研究面临的主要挑战。
在具有不确定性的复杂环境中,人类的经验、直觉与智能算法的速度、精准具有互补合作的巨大潜力。通过人类指导和人在环路的人机智能协同,将人类智能与机器智能进行深度融合,以人机协作方式推进人机智能共生,将有助于提高智能系统应对复杂环境的能力水平。人机智能共生有望在通用问题求解、开放环境问题求解等方面取得突破。
虽然当今强化学习取得了令人瞩目的成就,但是现有的强化学习方法在复杂任务环境下仍然难以训练、能力有限,人机智能共生的国内外研究也尚处于概念发展的初级阶段,其理论模型缺失,在协同决策、高效交互等方面还需深入研究。
发明内容
鉴于上述,本发明的目的是提供一种面向对抗任务的人机共生强化学习方法和系统,通过人机共生的方式对多智能体对抗任务的决策策略进行多阶段优化,以提升智能体在对抗任务的决策准确性。
第一方面,实施例提供的一种面向对抗任务的人机共生强化学习方法,包括以下步骤:
根据人类指导的示范数据,采用模仿学习优化CNN以得到CNN的策略函数;
根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数,并PPO算法添加目标值网络用以计算回报值,采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络;
以优化的PPO算法初始化NFSP算法中进行对抗任务每个智能体的平均策略网络,并采用MCTS算法计算每个智能体的最佳回应策略;
根据人类反馈数据训练NFSP算法的奖励值估计,依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习,以优化智能体的平均策略和最佳回应策略。
第二方面,实施例提供的一种面向对抗任务的人机共生强化学习装置,包括:
模仿学习模块,用于根据人类指导的示范数据,采用模仿学习优化CNN以得到CNN的策略函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;中国航空无线电电子研究所,未经浙江大学;中国航空无线电电子研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004903.3/2.html,转载请声明来源钻瓜专利网。