[发明专利]基于图像输入的多智能体跨模态深度确定性策略梯度训练方法有效

申请号：	201910049650.8	申请日：	2019-01-18
公开（公告）号：	CN109948642B	公开（公告）日：	2023-03-28
发明（设计）人：	成慧;杨凯;吴华栋;张东	申请（专利权）人：	中山大学
主分类号：	G06V10/774	分类号：	G06V10/774;G06V30/19;G06N3/006;G06V10/82;G06N3/0464;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法；首先构建在仿真平台中的机械臂训练环境；之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体；然后基于深度确定性策略梯度算法，训练导师的actor模块与critic模块和学徒的actor模块，最终实现基于图像输入的跨模态深度强化学习机械臂训练算法；在总体训练完成的时候，就能够只使用学徒的演员网络，接受高维度的图像输入，输出能够完成任务的动作，并且这样的方法很适合迁移到真实环境中，由于真实环境无法提供全状态模态的信息，但是图像模态的信息较为容易获得，所以当训练好学徒的演员网络之后，就可以抛弃全状态模态信息的需求，直接利用图像输入获得比较好的输出策略。
搜索关键词：	基于图像输入智能体跨模态深度确定性策略梯度训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，其特征在于，包括以下步骤：S1.搭建仿真器中的实验平台，定义交互物体与机械臂类型，定义机械臂控制任务的最终目标与奖惩规则，明确双智能体的状态空间和动作空间；S2.基于深度确定性策略梯度算法，为两组智能体：teacher和student建立决定行动的actor模块与评判反馈的critic模块，两种模块都基于深度神经网络搭建，并随机初始化网络参数；S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块，该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新；S4.利用训练好的导师智能体，指导学徒智能体actor模块的训练，该过程包括：学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块，同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块；S5.重复步骤S4，直到智能体的决策满足优化终止条件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910049650.8/，转载请声明来源钻瓜专利网。

上一篇：异常群体识别方法及装置
下一篇：一种基于深层网络融合模型的车辆类型分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于图像输入的多智能体跨模态深度确定性策略梯度训练方法有效

专利文献下载