[发明专利]自适应调频导航方法及存储介质在审

申请号：	202210520352.4	申请日：	2022-05-13
公开（公告）号：	CN114964255A	公开（公告）日：	2022-08-30
发明（设计）人：	陈宇铵;吉建民	申请（专利权）人：	中国科学技术大学
主分类号：	G01C21/20	分类号：	G01C21/20;G06N3/04;G06N3/08
代理公司：	合肥天明专利事务所(普通合伙) 34115	代理人：	苗娟
地址：	230026***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应调频导航方法存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自适应调频导航方法，其特征在于，包括以下步骤，

设计与真实环境接近的机器人导航仿真器，对导航问题用半马尔科夫过程进行数学建模；

用轨迹参数空间对半马尔科夫过程的动作空间进行降维；

从降维后的动作空间中采样，获取大量的交互式导航经验，根据收集到的导航经验，训练最优的调频导航策略；

将训练好的导航策略迁移到实体机器人。

2.根据权利要求1所述的自适应调频导航方法，其特征在于：设计与真实环境接近的机器人导航仿真器，对导航问题用半马尔科夫过程进行数学建模，包括：

设机器人的状态S包含两部分，分别是机器人用激光传感器感知到的附近6m×6m区域的局部地图，和目标点的相对位置(x,y,θ)，其中x,y表示坐标，θ表示目标点的方向；

机器人的行动指令A包含三个维度，分别是线速度，角速度，和执行时间，在每一个状态S，执行行动A以后，都会有相应的奖励函数R来评价该行动A是否合适，越合适则R的数值越大，该实施例把t_i时刻的奖励函数定义为：

其中，为靠近目标点的奖励项，表示上一步与目标点的距离减去当前与目标点的距离然后乘10，表示越靠近目标点越奖励，越远离目标点越惩罚：上述公式中pg表示机器人的目标点，表示t_i-1时刻机器人的位置，表示t_i时刻机器人的位置，表示和pg位置之间的直线距离；

为t_i时刻到达奖励值，当机器人到达目标点即pt-pg＜0.20时奖励值为500，即否则该项为0，即

为t_i时刻碰撞惩罚值，如果t_i时刻机器人发生碰撞则给与-500的惩罚，即否则该项为0，即发生碰撞，则

为t_i时刻的行动执行时间惩罚值加一个固定值，设置为单次行动的执行时间越长该项的惩罚就越大，用来使机器人尽快的到达目标点，并且尽量减少规划行动的次数。

3.根据权利要求1所述的自适应调频导航方法，其特征在于：所述用轨迹参数空间对半马尔科夫过程的动作空间进行降维，包括设计导航策略的神经网络结构，并初始化为随机策略，具体包括：

采用神经网络来表示导航策略，神经网络的结构包括前三层2D卷积和最大池化用于提取栅格图像信息，第一个卷积层为64维，3x3的卷积核和ReLU激活函数，第二个卷积层为128维，3x3的卷积核和ReLU激活函数，第三个卷积层为256维，3x3的卷积核和ReLU激活函数；

其中三个最大池化层的核为2x2，步长为2；

卷积层的输出经过一个全连接层后被转化为512维，然和和目标点的位置进行拼接，再经过两层512维的全连接层后得到一个2维的数据，然后经过随机采样，ELU激活函数，和轨迹参数空间中2维到3维的转换，最后得到线速度，角速度和执行时间；

神经网络中的参数用xavier算法初始化，相应的初始策略为一个随机策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210520352.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载