[发明专利]自适应调频导航方法及存储介质在审
申请号: | 202210520352.4 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114964255A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 陈宇铵;吉建民 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N3/04;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 苗娟 |
地址: | 230026*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 调频 导航 方法 存储 介质 | ||
本发明的一种自适应调频导航方法及存储介质,其中方法包括以下步骤,设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模;用轨迹参数空间对半马尔科夫过程的动作空间进行降维;从降维后的动作空间中采样,获取大量的交互式导航经验,根据收集到的导航经验,训练最优的调频导航策略;将训练好的导航策略迁移到实体机器人。本发明的一种自适应调频导航方法使用自适应调频的导航技术,使得基于深度强化学习的导航算法能够适应更多样的环境,获得更好的泛化性。在场景复杂性较低的环境中,尽可能以低频率控制机器人,降低算法的计算开销,在场景复杂性较高的环境中,以合适的高频率控制机器人,确保其安全性。
技术领域
本发明涉及机器人导航技术领域,具体涉及一种自适应调频导航方法及存储介质。
背景技术
虽然经典的移动机器人导航技术在实际场景中已有大量应用,但是大部分都存在计算量大,场景泛化性差的问题,为了解决这些问题,现有技术提出了用深度强化学习的方法,使机器人在与环境交互的过程中,通过奖励函数对成功与失败经验的自动标签,从而学会避障并到达终点的策略。现有的基于深度强化学习的导航技术大多数为了确保安全性,都以较高的控制频率对机器人发出速度指令,使得机器人能够快速对环境的变化做出反应,但这种做法对计算资源的开销极大,提高了计算平台的硬件成本和能源消耗。并且在深度强化学习的训练环境下,较高的控制频率(即较小的控制间隔)使得机器人及其容易出现局部最优的问题,难以在未知复杂环境中完成长距离导航任务。
发明内容
本发明提出的一种自适应调频导航方法,可解决上述技术问题。
为实现上述目的,本发明采用了以下技术方案:
一种自适应调频导航方法,包括以下步骤,
设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模;
用轨迹参数空间对半马尔科夫过程的动作空间进行降维;
从降维后的动作空间中采样,获取大量的交互式导航经验,根据收集到的导航经验,训练最优的调频导航策略;
将训练好的导航策略迁移到实体机器人。
进一步的,设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模,包括:
设机器人的状态S包含两部分,分别是机器人用激光传感器感知到的附近6m×6m区域的局部地图,和目标点的相对位置(x,y,θ),其中x,y表示坐标,θ表示目标点的方向;
机器人的行动指令A包含三个维度,分别是线速度,角速度,和执行时间,在每一个状态S,执行行动A以后,都会有相应的奖励函数R来评价该行动A是否合适,越合适则R的数值越大,该实施例把ti时刻的奖励函数定义为:
其中,为靠近目标点的奖励项,表示上一步与目标点的距离减去当前与目标点的距离然后乘10,表示越靠近目标点越奖励,越远离目标点越惩罚:上述公式中pg表示机器人的目标点,表示ti-1时刻机器人的位置,表示ti时刻机器人的位置,表示和pg位置之间的直线距离;
为ti时刻到达奖励值,当机器人到达目标点即pt-pg<0.20时奖励值为500,即否则该项为0,即
为ti时刻碰撞惩罚值,如果ti时刻机器人发生碰撞则给与-500的惩罚,即否则该项为0,即发生碰撞,则
为ti时刻的行动执行时间惩罚值加一个固定值,设置为单次行动的执行时间越长该项的惩罚就越大,用来使机器人尽快的到达目标点,并且尽量减少规划行动的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210520352.4/2.html,转载请声明来源钻瓜专利网。