首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于深度强化学习的无人艇航迹控制方法有效

申请号：	202011353012.4	申请日：	2020-11-26
公开（公告）号：	CN112540614B	公开（公告）日：	2022-10-25
发明（设计）人：	仲伟波;李浩东;冯友兵;常琦;许强;林伟;孙彬;胡智威;齐国庆	申请（专利权）人：	江苏科技大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04;G06N3/08
代理公司：	南京正联知识产权代理有限公司 32243	代理人：	杭行
地址：	212003***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人航迹控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人艇航迹控制方法，其特征在于：包括如下步骤：

步骤一：初始化一个决策网络Q和一个目标网络Q′的网络参数；

步骤二：获得无人艇当前状态S_t，包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据，以及之前时刻舵角位置和螺旋桨输出动力的信息；

步骤三：对无人艇的状态信息进行预处理，对于船的大惯性将长度和角度信息的微分量引入到无人艇的状态信息；对于船的迟滞性将状态信息的积分量引入到状态信息，形成状态S′_t，其中S′_t＝(S_t，S_t-1，S_t-2…S_t-λ)；

步骤四：将状态S′_t代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r，

奖励函数为：

r＝k·r_v·r_y+r_s+r_z

其中：r_v为速度奖励，以靠近当前目标航迹点方向上的速度设置奖励，无人艇与目标航迹的水平距离为x_t，且x_t≥0

r_y为航迹控制奖励，无人艇航行贴线精度越高奖励越大，无人艇与目标航迹的垂直距离为y_t，且y_t≥0

r_s为位置奖励，无人艇越靠近目标位置奖励越大，与目标航迹点距离越小，奖励越大，与目标航迹点距离为

无人艇到达目标航迹点的范围阈值d内，无人艇的当前航迹点更新为下一航迹点；

r_z为避障奖励，通过避障传感器无人艇可以获得无人艇前方障碍物信息，以无人艇航行速度的大小设置动态的安全距离gv_d，当小于安全距离时无人艇获得负奖励，

以上公式中字母a，b，c，d，g，h，k均为常数；

步骤五：执行动作并进入下一状态S_t+1并预处理得到状态S′_t+1；

步骤六：将(S_t′，S′_t+1，ac，r)作为一条数据连同采样优先级存储到经验池中；

步骤七：以采样优先级作为采样概率的依据采样m条数据，投入目标网络得到损失函数ω；

步骤八：用损失函数ω更新决策网络Q；

步骤九：若i＞＝n，则用决策网络Q的参数更新一次目标网络Q′，且令i＝0，

i为决策网络Q的更新次数，n为预设常量；

步骤十：观察是否达到训练结束条件，达到了就结束训练，否则跳转到步骤二。

2.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法，其特征在于：所述步骤二中，将之前时刻舵角，螺旋桨输出动力这些动作信息也作为状态信息，作为当前状态信息的一部分。

3.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法，其特征在于：所述步骤三中，将状态S′_t输入到状态动作值函数网络中，使不满足马尔科夫性的大迟滞系统也可一定程度上满足马尔科夫性。

4.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法，其特征在于：所述步骤二中，动态调整训练神经网络的数据被采样的概率，促进最新的数据能被尽早被利用，保证所有数据被均匀地使用。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏科技大学，未经江苏科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011353012.4/1.html，转载请声明来源钻瓜专利网。

上一篇：导航方法和车载导航设备
下一篇：一种具有成品老化检测装置的控制器

同类专利

专利分类

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top