[发明专利]基于多智体强化学习的心智理论模型实现方法及装置在审
申请号: | 202210635877.2 | 申请日: | 2022-06-06 |
公开(公告)号: | CN115081617A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 胡铮;谭奇明;张春红;庄本辉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F17/18;G05D1/10 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多智体 强化 学习 心智 理论 模型 实现 方法 装置 | ||
本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置,该方法包括:基于心智理论模型建立原始联合心智模型网络以预测多个己方智能体的友方智能体的意图特征信息;建立多智体强化学习的任务场景结合意图特征信息,分级建模场景任务的主目标及其子目标;通过主目标的收敛后的主目标实现算法和子目标的规则化子目标实现算法收集待使用数据,以对原始联合心智模型网络进行训练,通过目标联合心智模型网络预测当前己方智能体的意图信息并将其添加至多智体算法的输入信息,实现己方智能体的协同。本申请实施例提供的基于多智体强化学习的心智理论模型实现方法结合多智体强化学习、心智理论模型和任务场景,提升了多智能体的协同效果。
技术领域
本申请涉及心智模型和多智体控制领域,尤其涉及一种基于多智体强化学习的心智理论模型实现方法及装置。
背景技术
目前,在强化学习与心智理论结合的方法中大多使用的都是单智体算法与心智理论模型进行结合,并且任务场景中的智能体数目较少、不同的智能体之间需要单独进行心智理论建模,而如果将这种方法直接应用到多智体场景中,将会给予网络训练极大的压力,从而导致多智能体的协同效果不佳。
发明内容
本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置,旨在提升多智能体的协同效果。
第一方面,本申请提供一种基于多智体强化学习的心智理论模型实现方法,包括:
基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
在一个实施例中,所述通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同,包括:
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;
通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;
将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。
所述基于心智理论模型建立原始联合心智模型网络,包括:
确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;
通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络。
所述通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210635877.2/2.html,转载请声明来源钻瓜专利网。