[发明专利]一种基于深度强化学习的无人艇实时避障算法在审
申请号: | 201910756983.4 | 申请日: | 2019-08-16 |
公开(公告)号: | CN110472738A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 周治国 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 11797 北京专赢专利代理有限公司 | 代理人: | 刘梅<国际申请>=<国际公布>=<进入国 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习的无人艇实时避障算法,涉及无人艇技术领域;本发明采用深度学习方法获取图像信息,在A3C算法的基础上,优化网络结构,丰富避障信息,根据规划路径、躲避障碍、探索适应环境的三项需求,重新规范智能体的动作空间,选择三类环境进行训练;与GPU平台相结合,将预训练数据整合到深度神经网络上,提高训练效率,保证算法的实时性。结果表明,本方法在满足单次处理速度要求的同时,训练时间缩短59.3%,效率提高71.7%以上,算法模型在未知环境中的表现得到有效提升,优于现有方案。 | ||
搜索关键词: | 算法 避障算法 动作空间 规划路径 获取图像 强化学习 神经网络 时间缩短 速度要求 算法模型 网络结构 未知环境 训练数据 训练效率 实时性 智能体 避障 整合 优化 探索 表现 保证 学习 | ||
【主权项】:
1.一种基于深度强化学习的无人艇实时避障算法,其特征在于,包括以下步骤:/n1)在深度神经网络CNN的基础上增加两个LSTM网络,LSTM1包含64个隐藏单元,输入为图像信息与上一次的奖赏信息;LSTM2包含256个隐藏单元,输入为图像信息、LSTM1的输出价值、当前的速度以及上一次的动作;在每一次迭代过后,网络保留了之前的图像信息it、采取的动作at-1以及该动作的回报rt-1,为下一次的学习提供参考;/n2)在A3C算法中增加深度检测与回环检测两项辅助任务,丰富导航信息;/n3)将网络与GPU平台结合,处理训练与预测的数据;多个并行的Agent与环境产生的数据先经过训练队列被放入到训练器进行批处理,再输入到GPU网络中进行训练;/n4)以智能体代表无人艇,规范其动作空间:针对无人艇探索—避障—适应动态环境的需求,用三类环境模型来共同模拟无人艇的实际航行环境,将算法在其中进行训练迭代,训练完成后,在不同环境中验证,智能体将视觉信息输入到深度强化学习网络中,得到避障决策。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910756983.4/,转载请声明来源钻瓜专利网。