[发明专利]一种基于贝叶斯深度强化学习的水下机器人智能控制方法有效
申请号: | 202210633134.1 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114995468B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 陈然;李蕾;陈昱同;于谌言;蔡乐周;王琪皓;董锦衡;王向群;袁银龙;华亮 | 申请(专利权)人: | 南通大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 深度 强化 学习 水下 机器人 智能 控制 方法 | ||
1.一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,包括以下步骤:
S1、依据水下机器人搭载的传感器系统感知水下环境信息;
S2、构建水下机器人贝叶斯深度强化学习智能控制模型;
S3、依据交互训练完成水下机器人智能控制模型学习;
S4、水下机器人运动控制方法部署应用;
在步骤S1中,通过机器人本体搭载的超声波、摄像机传感器系统获取机器人自身姿态信息sr和环境状态信息se,其中px,py,pz分别为机器人的经度、纬度和深度信息,v,/φ分别为机器人的速度、航向角和俯仰角信息,/分别为障碍物相对水下机器人的坐标信息,/为水流速度;s=f(se,sr)为系统整体的多模态信息,f为基于贝叶斯神经网的多模态信息融合网络,把不同模态信息通过概率化建模进行统一;
在步骤S2中,将水下机器人智能控制模型建模为贝叶斯深度强化学习模型,其中深度强化学习的状态信息为多模态信息s=(se,sr),动作a=(a1,a2,a3,a4,a5,a6)为水下机器人6个螺旋桨的转动速度,奖赏值其中α,β为大于零的常系数,d1,d2分别为水下机器人到目标位置的距离和到障碍物的距离信息,贝叶斯深度强化学习结构包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,其中Actor网络μ为贝叶斯神经网络,Critic网络Q、Actor target网络μ'和Critic target网络Q'为人工神经网络,网络Q、μ'和Q'应的网络权重参数分别为θQ、θμ'和θQ',网络μ的权重参数为高斯分布,且其分布的均值为θμ。
2.根据权利要求1所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,所述步骤S3具体包括如下步骤:
S31:通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critictarget网络Q'四个网络,在此基础上初始化任务环境;
S32:通过水下机器人搭载的传感器系统实时采样获得水下机器人的多模态信息,包括机器人自身状态信息sr和环境状态信息se;
S33:对Actor网络μ的权重进行随机抽样n次,依据状态信息sr和se得到水下机器人动作变量其中/为第i次采样的权重值;
S34:机器人执行动作a,通过水下机器人搭载的传感器系统得到新的状态信息s'r、新的环境状态信息s'e,并获得对应的奖赏值r;
S35:将状态信息sr、se、a、r、s'r、s'e存储到经验池D中,并通过抽取小批次数据进行训练,更新网络权重参数θμ和θQ,在此基础上通过软更新方式对Actor target网络μ'和Critictarget网络Q'进行权重更新,即:
S36:判定整局训练是否结束,如果整局训练结束,则跳转步骤S37,如果整局训练未结束,则跳转到步骤S33;
S37:判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤S32,开始新一轮训练。
3.根据权利要求2所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法,其特征在于,在步骤S4中,将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中,启动机器人后,利用搭载的传感器系统获得多模态信息,将该多模态信息输入到深度强化学习Actor网络中,通过多次采样获得控制指令的均值,执行命令更新多模态信息,直到任务结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210633134.1/1.html,转载请声明来源钻瓜专利网。