[发明专利]基于认知的智能体强化学习方法、装置及系统有效
申请号: | 201911083011.X | 申请日: | 2019-11-07 |
公开(公告)号: | CN110826725B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 段炼;徐鹏飞 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 认知 智能 强化 学习方法 装置 系统 | ||
1.一种基于认知的智能体强化学习方法,其特征在于,智能体所属的强化学习的应用环境中包括多个智能体,所述方法应用于每一个所述智能体中,所述方法包括:
获取外部环境反馈的当前状态,所述外部环境指预设的根据输入数据获得输出结果的规则库;
根据所述当前状态,通过动作预测器预测其它智能体在本回合中将会采取的预测动作,其中,所述动作预测器为第一预设模型;
根据所述预测动作及所述当前状态,通过动作评估器对候选动作表中包含的第一预设候选动作进行评估,并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作,其中,所述动作评估器为第二预设模型;
发送所述评估动作至外部环境,以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果,所述交互结果包括由所述当前状态转移至的交互后的状态;
接收所述外部环境返回的交互结果,所述交互结果中包含交互后的状态及所述其它智能体的实际动作;
根据交互结果,更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。
2.根据权利要求1所述基于认知的智能体强化学习方法,其特征在于,所述候选动作表为状态动作价值表,所述状态动作价值表用于描述在预设状态下,选择每个动作的价值依赖于此时所述其它智能体的动作。
3.根据权利要求2所述基于认知的智能体强化学习方法,其特征在于,所述根据交互结果,更新所述动作预测器和所述动作评估器的步骤包括:
根据所述其它智能体的所述预测动作及所述实际动作,产生动作误差信号,以根据所述动作误差信号通过预设学习方法更新所述动作预测器;
根据预测奖赏及实际奖赏,产生奖赏预测误差,以根据所述奖赏预测误差通过预设方式更新所述动作评估器,其中,所述奖赏指在所述预设状态下交互双方的动作所给予自身的可量化的标量反馈信号,所述预测奖赏指所述预测动作在所述当前状态下所对应的所述评估动作所对应的奖赏,所述实际奖赏指所述实际动作在所述当前状态下所对应的所述评估动作所对应的奖赏。
4.根据权利要求1所述基于认知的智能体强化学习方法,其特征在于,所述根据所述预测动作及所述当前状态,通过动作评估器对候选动作表中包含的第一预设候选动作进行评估,并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤之前,还包括:
判断是否满足预设条件;
若满足所述预设条件,根据预设性格参数,以所述性格参数所对应的第二预设候选动作作为所述评估动作。
5.根据权利要求1所述基于认知的智能体强化学习方法,其特征在于,所述应用环境中包括两个以上的所述智能体;
所述根据所述当前状态,通过动作预测器预测其它智能体在本回合中将会采取的预测动作的步骤包括:
根据所述当前状态,通过动作预测器预测每个所述其它智能体各自在本回合中将会采取的预测动作;
所述根据所述预测动作及所述当前状态,通过动作评估器对候选动作表中包含的第一预设候选动作进行评估,并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤包括:
根据所有所述预测动作及所述当前状态,通过动作评估器对候选动作表中包含的第一预设候选动作进行评估,并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作;
所述发送所述评估动作至外部环境,以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果的步骤包括:
发送所述评估动作至外部环境,以使所述外部环境根据所述评估动作和所有所述其它智能体各自的实际动作确定交互结果;
其中,所述交互结果中包含交互后的状态及每个所述其它智能体各自的实际动作。
6.根据权利要求1所述基于认知的智能体强化学习方法,其特征在于,所述获取外部环境反馈的当前状态的步骤之前,还包括:
初始化时,所述动作预测器随机预测所述其它智能体在本回合中将会采取的预测动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911083011.X/1.html,转载请声明来源钻瓜专利网。