[发明专利]自适应调频导航方法及存储介质在审
申请号: | 202210520352.4 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114964255A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 陈宇铵;吉建民 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N3/04;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 苗娟 |
地址: | 230026*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 调频 导航 方法 存储 介质 | ||
1.一种自适应调频导航方法,其特征在于,包括以下步骤,
设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模;
用轨迹参数空间对半马尔科夫过程的动作空间进行降维;
从降维后的动作空间中采样,获取大量的交互式导航经验,根据收集到的导航经验,训练最优的调频导航策略;
将训练好的导航策略迁移到实体机器人。
2.根据权利要求1所述的自适应调频导航方法,其特征在于:设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模,包括:
设机器人的状态S包含两部分,分别是机器人用激光传感器感知到的附近6m×6m区域的局部地图,和目标点的相对位置(x,y,θ),其中x,y表示坐标,θ表示目标点的方向;
机器人的行动指令A包含三个维度,分别是线速度,角速度,和执行时间,在每一个状态S,执行行动A以后,都会有相应的奖励函数R来评价该行动A是否合适,越合适则R的数值越大,该实施例把ti时刻的奖励函数定义为:
其中,为靠近目标点的奖励项,表示上一步与目标点的距离减去当前与目标点的距离然后乘10,表示越靠近目标点越奖励,越远离目标点越惩罚:上述公式中pg表示机器人的目标点,表示ti-1时刻机器人的位置,表示ti时刻机器人的位置,表示和pg位置之间的直线距离;
为ti时刻到达奖励值,当机器人到达目标点即pt-pg<0.20时奖励值为500,即否则该项为0,即
为ti时刻碰撞惩罚值,如果ti时刻机器人发生碰撞则给与-500的惩罚,即否则该项为0,即发生碰撞,则
为ti时刻的行动执行时间惩罚值加一个固定值,设置为单次行动的执行时间越长该项的惩罚就越大,用来使机器人尽快的到达目标点,并且尽量减少规划行动的次数。
3.根据权利要求1所述的自适应调频导航方法,其特征在于:所述用轨迹参数空间对半马尔科夫过程的动作空间进行降维,包括设计导航策略的神经网络结构,并初始化为随机策略,具体包括:
采用神经网络来表示导航策略,神经网络的结构包括前三层2D卷积和最大池化用于提取栅格图像信息,第一个卷积层为64维,3x3的卷积核和ReLU激活函数,第二个卷积层为128维,3x3的卷积核和ReLU激活函数,第三个卷积层为256维,3x3的卷积核和ReLU激活函数;
其中三个最大池化层的核为2x2,步长为2;
卷积层的输出经过一个全连接层后被转化为512维,然和和目标点的位置进行拼接,再经过两层512维的全连接层后得到一个2维的数据,然后经过随机采样,ELU激活函数,和轨迹参数空间中2维到3维的转换,最后得到线速度,角速度和执行时间;
神经网络中的参数用xavier算法初始化,相应的初始策略为一个随机策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210520352.4/1.html,转载请声明来源钻瓜专利网。