[发明专利]基于图像输入的多智能体跨模态深度确定性策略梯度训练方法有效
申请号: | 201910049650.8 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109948642B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 成慧;杨凯;吴华栋;张东 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V30/19;G06N3/006;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图像 输入 智能 体跨模态 深度 确定性 策略 梯度 训练 方法 | ||
本发明涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法;首先构建在仿真平台中的机械臂训练环境;之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体;然后基于深度确定性策略梯度算法,训练导师的actor模块与critic模块和学徒的actor模块,最终实现基于图像输入的跨模态深度强化学习机械臂训练算法;在总体训练完成的时候,就能够只使用学徒的演员网络,接受高维度的图像输入,输出能够完成任务的动作,并且这样的方法很适合迁移到真实环境中,由于真实环境无法提供全状态模态的信息,但是图像模态的信息较为容易获得,所以当训练好学徒的演员网络之后,就可以抛弃全状态模态信息的需求,直接利用图像输入获得比较好的输出策略。
技术领域
本发明属于人工智能与机器人领域的强化学习算法,更具体地,涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法。
背景技术
近年来由于计算资源的快速增加和深度学习网络的发展,利用大量数据训练监督学习算法模型在多个领域都取得了非常好的成绩。目前将基于学习的方法应用在机器人控制领域主要有两大类方法:自监督学习和强化学习。自监督学习的方法即让机器人直接或间接收集任务数据并且打上标签,之后依靠大量带标签的训练数据完成深度神经网络的训练。
相比较于自监督学习的方法,强化学习从任务出发,在任务环境中探索并得到相应的回报来进行策略的更新。强化学习不需要进行数据的标注,而且不需要任何机器人领域相关的先验知识,但任务的复杂性和动态环境的不确定性决定了系统必须具备很强的自适应能力和自主能力。强化学习从环境中得到的回报是一种弱监督信号,利用强化学习进行策略的学习需要大量的探索才能比较好地得到一个比较好的控制策略。强化学习的历史由来已久,强化学习和马尔可夫决策过程(MDP)有很大的关系,简化成一个五元组的形式则是状态s(state),动作a(action),奖励r(reward),损失系数γ(gamma)和转移概率p(probability)。其中状态描述了智能体在当前环境中的属性,智能体根据当前二点状态决定动作,执行该动作能够与环境交互得到奖励,转移概率描述了执行完动作后智能体到达新的状态的概率分布,损失系数用来对将来的奖励进行衰减,决定智能体的决策更多地专注于当前状态还是将来可能的回报。智能体学习的目标是寻找一个策略,以便在整个马尔可夫过程中能够取得最大的奖励总和。强化学习算法运用在控制领域总的来说有两大类,一类是由policy gradient发展而来的策略梯度算法,代表为TRPO(trust region policyoptimization)与PPO(proximal policy optimization),一类是确定性策略梯度下降算法,如DDPG(deep deterministic policy gradient),区别在于DDPG根据当前状态直接输出一个确定的动作,而TRPO与PPO输出的是动作的一个概率分布。
在机械臂控制领域利用视觉信号作为输入结合了卷积神经网络和强化学习算法的使用。但是强化学习在高维度信息输入的时候都会面临一个比较严重的维度爆炸问题,即智能体在环境中的探索次数会随着输入维度的提高而极大地增加。如果直接使用物理的机械臂进行这样的探索,会面临着时间与资源的巨大损耗,并且由于强化学习在训练初期的不稳定性,对机械臂的物理性损伤也是巨大的。
在仿真环境中训练强化学习智能体是目前一种比较热门的训练方法,利用仿真环境对现实物理规则的模拟,可以让智能体在虚拟的仿真环境中进行大量的探索的实验,相比于直接在现实中进行实验还不需要担心其物理损耗的问题。在现有的相关技术中,利用仿真环境提供的额外信息训练高维度输入强化学习智能体是一个比较通用的方案。
同一事物或者场景存在着不同的数据形式,但这些数据都能指向同一场景和事物,这些数据被称为模态,在系统中,仿真模拟器的物理参数(空间坐标,灯光,重力参数)被称为去全状态模态,这些模态能够被用来完整地描述一个仿真环境。而图像模态是指存在于仿真环境中的某一个摄像头所拍摄下来的场景图片,图像模态只能部分描述一个仿真场景,摄像头没有拍到的部分在图像模态中是未知的,但是相比于全状态模态,在真实世界场景下图像模态能够更容易获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910049650.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:异常群体识别方法及装置
- 下一篇:一种基于深层网络融合模型的车辆类型分类方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序