[发明专利]自适应调频导航方法及存储介质在审

专利信息
申请号: 202210520352.4 申请日: 2022-05-13
公开(公告)号: CN114964255A 公开(公告)日: 2022-08-30
发明(设计)人: 陈宇铵;吉建民 申请(专利权)人: 中国科学技术大学
主分类号: G01C21/20 分类号: G01C21/20;G06N3/04;G06N3/08
代理公司: 合肥天明专利事务所(普通合伙) 34115 代理人: 苗娟
地址: 230026*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应 调频 导航 方法 存储 介质
【权利要求书】:

1.一种自适应调频导航方法,其特征在于,包括以下步骤,

设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模;

用轨迹参数空间对半马尔科夫过程的动作空间进行降维;

从降维后的动作空间中采样,获取大量的交互式导航经验,根据收集到的导航经验,训练最优的调频导航策略;

将训练好的导航策略迁移到实体机器人。

2.根据权利要求1所述的自适应调频导航方法,其特征在于:设计与真实环境接近的机器人导航仿真器,对导航问题用半马尔科夫过程进行数学建模,包括:

设机器人的状态S包含两部分,分别是机器人用激光传感器感知到的附近6m×6m区域的局部地图,和目标点的相对位置(x,y,θ),其中x,y表示坐标,θ表示目标点的方向;

机器人的行动指令A包含三个维度,分别是线速度,角速度,和执行时间,在每一个状态S,执行行动A以后,都会有相应的奖励函数R来评价该行动A是否合适,越合适则R的数值越大,该实施例把ti时刻的奖励函数定义为:

其中,为靠近目标点的奖励项,表示上一步与目标点的距离减去当前与目标点的距离然后乘10,表示越靠近目标点越奖励,越远离目标点越惩罚:上述公式中pg表示机器人的目标点,表示ti-1时刻机器人的位置,表示ti时刻机器人的位置,表示和pg位置之间的直线距离;

为ti时刻到达奖励值,当机器人到达目标点即pt-pg<0.20时奖励值为500,即否则该项为0,即

为ti时刻碰撞惩罚值,如果ti时刻机器人发生碰撞则给与-500的惩罚,即否则该项为0,即发生碰撞,则

为ti时刻的行动执行时间惩罚值加一个固定值,设置为单次行动的执行时间越长该项的惩罚就越大,用来使机器人尽快的到达目标点,并且尽量减少规划行动的次数。

3.根据权利要求1所述的自适应调频导航方法,其特征在于:所述用轨迹参数空间对半马尔科夫过程的动作空间进行降维,包括设计导航策略的神经网络结构,并初始化为随机策略,具体包括:

采用神经网络来表示导航策略,神经网络的结构包括前三层2D卷积和最大池化用于提取栅格图像信息,第一个卷积层为64维,3x3的卷积核和ReLU激活函数,第二个卷积层为128维,3x3的卷积核和ReLU激活函数,第三个卷积层为256维,3x3的卷积核和ReLU激活函数;

其中三个最大池化层的核为2x2,步长为2;

卷积层的输出经过一个全连接层后被转化为512维,然和和目标点的位置进行拼接,再经过两层512维的全连接层后得到一个2维的数据,然后经过随机采样,ELU激活函数,和轨迹参数空间中2维到3维的转换,最后得到线速度,角速度和执行时间;

神经网络中的参数用xavier算法初始化,相应的初始策略为一个随机策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210520352.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top