[发明专利]基于图像输入的多智能体跨模态深度确定性策略梯度训练方法有效

专利信息
申请号: 201910049650.8 申请日: 2019-01-18
公开(公告)号: CN109948642B 公开(公告)日: 2023-03-28
发明(设计)人: 成慧;杨凯;吴华栋;张东 申请(专利权)人: 中山大学
主分类号: G06V10/774 分类号: G06V10/774;G06V30/19;G06N3/006;G06V10/82;G06N3/0464;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 陈伟斌
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 图像 输入 智能 体跨模态 深度 确定性 策略 梯度 训练 方法
【权利要求书】:

1.一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法,其特征在于,包括以下步骤:

S1.搭建仿真器中的实验平台,定义交互物体与机械臂类型,定义机械臂控制任务的最终目标与奖惩规则,明确双智能体的状态空间和动作空间;

S2.基于深度确定性策略梯度算法,为两组智能体:teacher和student建立决定行动的actor模块与评判反馈的critic模块,两种模块都基于深度神经网络搭建,并随机初始化网络参数;

S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块,该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新;

S4.利用训练好的导师智能体,指导学徒智能体actor模块的训练,该过程包括:学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块,同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块;具体包括:

S41.学徒actor模块包含两个结构完全相同,参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ′为目标actor,其参数表示为θμ’

对于目标actor,根据经验池中随机采样的样本[sL,sH,a,r,sL’,sH’],其中sL和sH分别为当前时刻下的全状态信息和图像信息,s′L和s′H分别为下一个时刻的全状态信息和图像信息;利用下述梯度下降公式优化学徒在线actor:

公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息sL与动作a计算状态-动作对的Q值,该Q值取负后作为损失函数的第一项参与梯度计算;上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度;μt和μs分别为导师actor模块的网络和学徒actor模块的网络,r表示回报;

目标actor是在线actor的延迟更新,目标actor的参数更新公式为:

θμ’=τθμ+(1-τ)θμ’,其中τ为平衡因子;

S42.利用步骤S41的更新公式更新学徒智能体的actor模块,并利用更新后的actor模块对环境进行探索得到新的探索样本[sL,sH,a,r,sL’,sH’],将新的探索样本加入到原本的经验池中,如果样本数量达到经验池的最大样本数量,则用最新的探索样本替换旧的样本;

S43.利用样本[sL,a,r,sL’]以小步长更新导师的actor与critic模块,让导师智能体也能收益于学徒智能体的环境探索经验;

S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数;

S5.重复步骤S4,直到智能体的决策满足优化终止条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910049650.8/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top