[发明专利]面向无人船路径规划的深度强化学习奖励函数优化方法在审
申请号: | 202010962958.4 | 申请日: | 2020-09-14 |
公开(公告)号: | CN111880549A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 曹志英;杜意权;张秀国;郭嗣彧;郑易松 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 无人 路径 规划 深度 强化 学习 奖励 函数 优化 方法 | ||
本发明提供一种面向无人船路径规划的深度强化学习奖励函数优化方法,包括:S1、获取环境信息;S2、获取无人船与障碍物之间的距离以及无人船与目标点之间的距离;S3、根据船舶到达目标点的次数,给予相对应的奖励值;S4、判断船舶是否在奖励域内,根据奖励域奖励原则给予相应的奖励;S5、判断无人船是否与障碍物碰撞,给予相对应的惩罚值;S6、判断船舶是否在危险域内,根据危险域惩罚原则给予相应的惩罚,否则根据一般情况奖励原则给予奖励。本发明通过在船舶航行的目标点附近增加奖励域、在障碍物附近增加危险域,并引入计数原则,来增大或者减少获得的奖励或惩罚,加快深度强化学习算法的收敛速度,引导船舶更快地避开障碍物到达目标点。
技术领域
本发明涉及路径规划技术领域,具体而言,尤其涉及一种面向无人船路径规划的深度强化学习奖励函数优化方法。
背景技术
目前全世界各国的经济联系越发紧密,贸易更加频繁,船舶作为一种重要的交通工具,发挥着重要作用。然而,随着船舶航行密度的越来越大以及航行环境也日渐复杂,导致海上安全事故频繁发生。近年来的数据显示,造成海难的主要原因是船舶在航行过程中船员未及时检测到的障碍物对船舶产生了碰撞。同时有些情况下不适合载人船舶前往工作地点执行任务,需要船舶自主航行去应对海上复杂多变的恶劣环境,这就需要船舶具备自主避障功能。为了保障船舶行驶安全,避免海上安全事故的发生,国内外学者提出了许多有关船舶避障的方法。
路径规划作为船舶避障最基本且重要的环节,其目标就是建立一条从起始点到目标点之间的最优路径,在满足船舶航行性能要求的前提下,还可以避开所有障碍物。
目前传统的无人船路径规划算法有人工势场法(APF)、A*算法、进化神经网络和进化算法等。APF通过构建虚拟引力场引导无人船驶向目标航路点,将航行限制区转换为虚拟障碍物区域,从而构建虚拟斥力场避开静态障碍物,但是当有一个相等的斥力和吸引力或当目标点的斥力很大时,船舶就会停滞不前,陷入局部最优。A*算法是Dijkstra算法的改进版,通过在状态空间中搜索并对每一个搜索的位置进行评估,得到最好的位置,再从这个位置进行搜索直到达到目标。但是该方法的规划路径功能依赖于栅格地图,栅格的间距大小和数量会直接影响算法的计算速度和准确性。进化神经网络主要是通过对历史船舶避碰操作的样本数据进行学习,实现无人船在静态及动态障碍物的环境下进行路径规划并规避障碍物。但是该方法的准确性高度依赖于训练进化神经网络的样本数据,对于不同的航行区域需要训练对应的神经网络模型。进化算法包括蚁群算法和模拟退化算法等,例如Vettor,R et al.利用optimization genetic algorithm将环境信息作为初始种群进行计算,最终得到满足要求的航行路径并在开阔水域实现了无人船舶自主路径规划。这类算法实现简单但是迭代次数高,容易陷入局部最优解,而且找到的路径转角过多,不能用于连续的拓扑环境。
最近几年,随着深度强化学习的发展,基于深度强化学习的船舶路径规划方法也开始被许多学者研究。该方法将深度强化学习算法与无人船舶操控动作相结合,让船舶在仿真环境中不断尝试,实时输出准确的航行动作,学习如何避开障碍物到达目标点,最后得到有效的船舶路径规划模型。在使用该模型的时候,不需要再次训练,只需要将得到的模型部署到需要进行路径规划的船舶上,然后将环境信息传入模型,就可以实现路径规划。
基于深度强化学习的无人船路径规划需要随机初始化深度强化学习算法网络参数,将现实环境中的障碍物抽象出来建立实验环境。建立路径规划模型时首先初始化船舶位置、航向、航速、船舶与目标点距离、船舶与障碍物距离等数据作为输入,确定船舶初始状态。然后网络根据输入的船舶状态信息预测船舶需要执行的动作,船舶执行该动作得到下一时刻船舶状态,并且由奖励函数评判动作好坏得到一个奖励或者惩罚。最后将本次船舶状态、执行的动作、获得的奖励以及执行动作后的下一状态保存到缓冲池中用来更新深度强化学习算法网络参数。重复上述过程直到得到有效的船舶路径规划模型。而在这个过程中奖励函数作为评价执行动作好坏的评价者对深度强化学习算法有着很大的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010962958.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种椴木蘑菇养殖用自动打孔接种装置
- 下一篇:一种多功能管道吊装定位辅助装置