[发明专利]一种基于深度强化学习的无人艇航迹控制方法有效
申请号: | 202011353012.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112540614B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 仲伟波;李浩东;冯友兵;常琦;许强;林伟;孙彬;胡智威;齐国庆 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 杭行 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人 航迹 控制 方法 | ||
本发明属于无人艇航迹控制领域,公开了一种基于深度强化学习的无人艇航迹控制方法。包括如下步骤:用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架,通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。
技术领域
本发明属于无人艇航迹控制领域,具体涉及一种基于深度强化学习的无人艇航迹控制方法。
背景技术
近年来深度神经网络有了长足的发展,强化学习在结合了深度神经网络后在下棋,游戏,推荐系统等方面取得了显著成就。深度强化学习之所以能在这些领域取得良好的训练效果是因为这些领域的规则都是比较明确的,其状态的转移严格符合马尔科夫性,智能体在这些环境下受到的影响因素是较少而且可控的。而深度强化学习运用到无人艇时,无人艇受到的各种环境因素的影响很多,无人艇在不同环境下完成不同任务时我们考虑的环境因素有一定差别。无人艇能否获得足够多且足够精确的环境信息是影响深度强化学习学习效果好坏的重要因素。而无人艇的航迹控制是无人艇完成其他许多任务的基础,将深度强化学习运用到无人艇的航迹控制是无人艇自动控制迈向人工智能的重要一步。
发明内容
本发明设计了一种用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架,通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。
本发明通过如下技术方案实现:一种基于深度强化学习的无人艇航迹控制方法,包括如下步骤:
步骤一:初始化一个决策网络Q和一个目标网络Q′的网络参数;
步骤二:获得无人艇当前状态St,包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据,以及之前时刻舵角位置和螺旋桨输出动力的信息;
步骤三:对无人艇的状态信息进行预处理,对于船的大惯性我们将长度和角度信息的微分量引入到无人艇的状态信息;对于计算板卡延迟我们将状态信息的积分量引入到状态信息;
步骤四:将状态St′代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r;
步骤五:执行动作并进入下一状态St+1并预处理得到状态S′t+1;
步骤六:将(St′,S′t+1,ac,r)作为一条数据连同采样优先级存储到经验池中;
步骤七:以采样优先级作为采样概率的依据采样m条数据,投入目标网络得到损失函数ω;
步骤八:用ω更新决策网络Q;
步骤九:若i=n,则用决策网络Q的参数更新一次目标网络Q′,且令i=0;
步骤十:观察是否达到训练结束条件,达到了就结束训练,否则跳转到步骤二。
进一步,所述步骤二中,将舵角,螺旋桨输出动力这些动作信息也作为状态信息,作为状态信息的一部分。
进一步,所述步骤三中,将状态输入到决策网络中时,会对状态S的数据进行预处理,使不满足马尔科夫性的大迟滞系统也可一定程度上满足马尔科夫性。
进一步,详细设置了无人艇获取的奖励,防止由于奖励稀疏问题导致的强化学习训练效率低下。
进一步,所述步骤二中,动态调整训练神经网络的数据被采样的概率,促进最新的数据能被尽早被利用,保证所有数据被均匀地使用。提高了数据的整体利用率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011353012.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:导航方法和车载导航设备
- 下一篇:一种具有成品老化检测装置的控制器