[发明专利]一种基于深度强化学习的无人艇航迹控制方法有效

申请号：	202011353012.4	申请日：	2020-11-26
公开（公告）号：	CN112540614B	公开（公告）日：	2022-10-25
发明（设计）人：	仲伟波;李浩东;冯友兵;常琦;许强;林伟;孙彬;胡智威;齐国庆	申请（专利权）人：	江苏科技大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N3/04;G06N3/08
代理公司：	南京正联知识产权代理有限公司 32243	代理人：	杭行
地址：	212003***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人航迹控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于无人艇航迹控制领域，公开了一种基于深度强化学习的无人艇航迹控制方法。包括如下步骤：用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架，通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。

技术领域

本发明属于无人艇航迹控制领域，具体涉及一种基于深度强化学习的无人艇航迹控制方法。

背景技术

近年来深度神经网络有了长足的发展，强化学习在结合了深度神经网络后在下棋，游戏，推荐系统等方面取得了显著成就。深度强化学习之所以能在这些领域取得良好的训练效果是因为这些领域的规则都是比较明确的，其状态的转移严格符合马尔科夫性，智能体在这些环境下受到的影响因素是较少而且可控的。而深度强化学习运用到无人艇时，无人艇受到的各种环境因素的影响很多，无人艇在不同环境下完成不同任务时我们考虑的环境因素有一定差别。无人艇能否获得足够多且足够精确的环境信息是影响深度强化学习学习效果好坏的重要因素。而无人艇的航迹控制是无人艇完成其他许多任务的基础，将深度强化学习运用到无人艇的航迹控制是无人艇自动控制迈向人工智能的重要一步。

发明内容

本发明设计了一种用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架，通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。

本发明通过如下技术方案实现：一种基于深度强化学习的无人艇航迹控制方法，包括如下步骤：

步骤一：初始化一个决策网络Q和一个目标网络Q′的网络参数；

步骤二：获得无人艇当前状态S_t，包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据，以及之前时刻舵角位置和螺旋桨输出动力的信息；

步骤三：对无人艇的状态信息进行预处理，对于船的大惯性我们将长度和角度信息的微分量引入到无人艇的状态信息；对于计算板卡延迟我们将状态信息的积分量引入到状态信息；

步骤四：将状态S_t′代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r；

步骤五：执行动作并进入下一状态S_t+1并预处理得到状态S′_t+1；

步骤六：将(S_t′,S′_t+1,ac,r)作为一条数据连同采样优先级存储到经验池中；

步骤七：以采样优先级作为采样概率的依据采样m条数据，投入目标网络得到损失函数ω；

步骤八：用ω更新决策网络Q；

步骤九：若i＝n，则用决策网络Q的参数更新一次目标网络Q′，且令i＝0；