[发明专利]基于深度强化学习的水下机器人轨迹控制方法及控制系统有效
申请号: | 201710479333.0 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107102644B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 马琼雄;余润笙;石振宇;黄晁星;李腾龙;张庆茂 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06;G05B13/04 |
代理公司: | 44245 广州市华学知识产权代理有限公司 | 代理人: | 郑浦娟;谢静娜 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习的水下机器人轨迹控制方法及控制系统,包括学习阶段和应用阶段;在学习阶段,通过仿真器模拟水下机器人的运作过程,采集仿真器所模拟的正在运作的水下机器人的数据,包括各时刻的状态和各时刻对应下一时刻的目标状态,通过这些数据针对决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络四个神经网络进行学习;在应用阶段,获取到水下机器人当前时刻的状态以及下一时刻的目标状态,然后输入至学习阶段最终学习得到的决策神经网络中,通过决策神经网络计算出水下机器人当前时刻需要的推进力。本发明可以实现水下机器人运动轨迹的精确控制。 | ||
搜索关键词: | 基于 深度 强化 学习 水下 机器人 轨迹 控制 方法 控制系统 | ||
【主权项】:
1.一种基于深度强化学习的水下机器人轨迹控制方法,其特征在于,包括学习阶段和应用阶段;在所述学习阶段,通过仿真器模拟水下机器人的运作过程,并且采集仿真器所模拟的正在运作的水下机器人的数据,根据这些数据针对决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络进行学习;具体步骤如下:/nS1、首先建立四个神经网络,分别作为决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络,并且针对四个神经网络的神经网络参数进行初始化;其中神经网络的参数指的是神经网络中各层神经元的连接权重;同时建立一个经验数据缓冲区,并进行初始化;然后针对上述初始化后的四个神经网络,从初始时刻开始,进入步骤S2开始学习;/nS2、实时采集仿真器所模拟的正在运作的水下机器人在当前时刻的状态;然后根据当前时刻的状态和下一时刻的目标状态,利用当前决策神经网络计算当前时刻需要的推进力;在获取到当前时刻需要的推进力后,将当前时刻需要的推进力实施至仿真器所模拟的正在运作的水下机器人上;然后采用水下机器人的动力学模型计算出水下机器人下一时刻的状态;并且根据当前时刻需要的推进力、下一时刻的状态以及下一时刻的目标状态计算出的当前时刻的奖励信号值;/nS3、将步骤S2中获取到的当前时刻的状态、当前时刻的奖励信号值以及下一时刻的目标状态组成一个经验存入经验数据缓冲区;/nS4、判断经验数据缓冲区当前存储的数据量是否大于指定阈值,若是,则从经验数据缓冲区中随机选取出N个经验,然后执行步骤S5,否则执行步骤S6;/nS5、更新当前决策神经网络、当前辅助决策神经网络、当前评价神经网络和当前辅助评价神经网络的神经网络参数,具体为:/nS51、针对于步骤S4中选取出的N个经验中的每个经验进行以下处理:将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前决策神经网络,通过当前决策神经网络输出某时刻的推进力;同时将每个经验中的某时刻状态、某时刻下一时刻的目标状态输入至当前辅助决策神经网络,通过当前辅助决策神经网络输出某时刻的推进力;然后将每个经验中的某时刻的状态和上述当前决策神经网络输出的某时刻的推进力输入至当前评价神经网络中,将当前评价神经网络的输出均作为当前评价神经网络的评价值;同时将每个经验中的某时刻状态和当前辅助决策神经网络获取输出的某时刻的推进力输入至当前辅助评价神经网络中,将当前辅助评价神经网络的输出均作为当前辅助评价神经网络的评价值;根据当前评价神经网络和当前辅助评价神经网络输出的评价值,利用评价神经网络的损失函数计算出当前评价神经网络的梯度;然后根据当前评价神经网络的梯度对当前评价神经网络的神经网络参数进行更新,得到更新后的评价神经网络,再根据更新后的评价神经网络对当前辅助评价神经网络的神经网络参数进行更新,得到更新后的辅助评价神经网络;/nS52、根据当前评价神经网络的评价值,利用决策神经网络的损失函数计算当前决策神经网络的梯度,然后根据当前决策神经网络的梯度对当前决策神经网络的神经网络参数进行更新,得到更新后的决策神经网络,同时根据更新后的决策神经网络的神经网络参数针对辅助决策神经网络的神经网络参数进行更新,得到更新后的辅助决策神经网络,然后进入步骤S6;所述更新后的决策神经网络和更新后的辅助决策神经网络供下一时刻使用;/nS6、当下一时刻到来时,即下一时刻为当前时刻时,判定该时刻是否到达时刻T;若否,则返回步骤S2;若是,则表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络均完成一次训练,进入步骤S7;/nS7、判断决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络当前的训练次数定值M是否超过定值m;/n若否,则将到来的下一时刻重设为初始时刻,然后返回步骤S2,开始决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络的下一次训练;/n若是,则计算决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络完成最近的m次训练时通过步骤S2所计算得到的奖励信号值的标准差,并且判断其是否小于第一阈值,若是,则决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络学习结束;若否,则将到来的下一时刻重设为初始时刻,然后返回步骤S2;/n在所述应用阶段:首先获取水下机器人当前时刻的状态以及下一时刻的目标状态,然后由上述学习阶段学习完成的决策神经网络根据水下机器人当前时刻的状态以及下一时刻的目标状态计算出当前时刻需要输出至水下机器人的推进力。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710479333.0/,转载请声明来源钻瓜专利网。