[发明专利]基于多智体强化学习的心智理论模型实现方法及装置在审

申请号：	202210635877.2	申请日：	2022-06-06
公开（公告）号：	CN115081617A	公开（公告）日：	2022-09-20
发明（设计）人：	胡铮;谭奇明;张春红;庄本辉	申请（专利权）人：	北京邮电大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04;G06F17/18;G05D1/10
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多智体强化学习心智理论模型实现方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置，该方法包括：基于心智理论模型建立原始联合心智模型网络以预测多个己方智能体的友方智能体的意图特征信息；建立多智体强化学习的任务场景结合意图特征信息，分级建模场景任务的主目标及其子目标；通过主目标的收敛后的主目标实现算法和子目标的规则化子目标实现算法收集待使用数据，以对原始联合心智模型网络进行训练，通过目标联合心智模型网络预测当前己方智能体的意图信息并将其添加至多智体算法的输入信息，实现己方智能体的协同。本申请实施例提供的基于多智体强化学习的心智理论模型实现方法结合多智体强化学习、心智理论模型和任务场景，提升了多智能体的协同效果。

技术领域

本申请涉及心智模型和多智体控制领域，尤其涉及一种基于多智体强化学习的心智理论模型实现方法及装置。

背景技术

目前，在强化学习与心智理论结合的方法中大多使用的都是单智体算法与心智理论模型进行结合，并且任务场景中的智能体数目较少、不同的智能体之间需要单独进行心智理论建模，而如果将这种方法直接应用到多智体场景中，将会给予网络训练极大的压力，从而导致多智能体的协同效果不佳。

发明内容

本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置，旨在提升多智能体的协同效果。

第一方面，本申请提供一种基于多智体强化学习的心智理论模型实现方法，包括：

基于心智理论模型建立原始联合心智模型网络，通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息；

建立多智体强化学习的任务场景并结合所述意图特征信息，分级建模所述场景任务的主目标及其子目标；

对所述主目标进行训练，得到收敛后的主目标实现算法，并基于平台底层规则得到所述子目标的规则化子目标实现算法；

通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练，得到目标联合心智模型网络；

通过所述目标联合心智模型网络预测当前己方智能体的意图信息，并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中，实现己方智能体的协同。