[发明专利]基于多智体强化学习的心智理论模型实现方法及装置在审
申请号: | 202210635877.2 | 申请日: | 2022-06-06 |
公开(公告)号: | CN115081617A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 胡铮;谭奇明;张春红;庄本辉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F17/18;G05D1/10 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多智体 强化 学习 心智 理论 模型 实现 方法 装置 | ||
1.一种基于多智体强化学习的心智理论模型实现方法,其特征在于,包括:
基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
2.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同,包括:
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;
通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;
将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。
3.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述基于心智理论模型建立原始联合心智模型网络,包括:
确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;
通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络。
4.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,包括:
通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息;
通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息;
将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体的意图特征信息。
5.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标,包括:
确定多智体强化学习的任务场景,其中,所述任务场景的布局包括场景大小、作战多方初始位置信息、任务目标和最终任务评价指标;
将所述场景大小、所述作战多方初始位置信息、所述任务目标和所述最终任务评价指标与所述意图特征信息进行结合,分级建模所述场景任务的主目标及其子目标。
6.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法,包括:
通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出,对所述主目标进行训练,得到所述收敛后的主目标实现算法;
对己方智能体选定的目标进行追击并基于所述平台底层规则,得到所述规则化子目标实现算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210635877.2/1.html,转载请声明来源钻瓜专利网。