[发明专利]基于图像输入的多智能体跨模态深度确定性策略梯度训练方法有效
申请号: | 201910049650.8 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109948642B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 成慧;杨凯;吴华栋;张东 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V30/19;G06N3/006;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图像 输入 智能 体跨模态 深度 确定性 策略 梯度 训练 方法 | ||
1.一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,包括以下步骤:
S1.搭建仿真器中的实验平台,定义交互物体与机械臂类型,定义机械臂控制任务的最终目标与奖惩规则,明确双智能体的状态空间和动作空间;
S2.基于深度确定性策略梯度算法,为两组智能体:teacher和student建立决定行动的actor模块与评判反馈的critic模块,两种模块都基于深度神经网络搭建,并随机初始化网络参数;
S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块,该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新;
S4.利用训练好的导师智能体,指导学徒智能体actor模块的训练,该过程包括:学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块,同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块;具体包括:
S41.学徒actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’;
对于目标actor,根据经验池中随机采样的样本[sL,sH,a,r,sL’,sH’],其中sL和sH分别为当前时刻下的全状态信息和图像信息,s′L和s′H分别为下一个时刻的全状态信息和图像信息;利用下述梯度下降公式优化学徒在线actor:
公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息sL与动作a计算状态-动作对的Q值,该Q值取负后作为损失函数的第一项参与梯度计算;上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度;μt和μs分别为导师actor模块的网络和学徒actor模块的网络,r表示回报;
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;
S42.利用步骤S41的更新公式更新学徒智能体的actor模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[sL,sH,a,r,sL’,sH’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;
S43.利用样本[sL,a,r,sL’]以小步长更新导师的actor与critic模块,让导师智能体也能收益于学徒智能体的环境探索经验;
S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数;
S5.重复步骤S4,直到智能体的决策满足优化终止条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910049650.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:异常群体识别方法及装置
- 下一篇:一种基于深层网络融合模型的车辆类型分类方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序