[发明专利]一种基于时序差分学习的可靠性导航方法在审

专利信息
申请号: 202210848733.5 申请日: 2022-07-19
公开(公告)号: CN115203592A 公开(公告)日: 2022-10-18
发明(设计)人: 郭宏亮;师睿 申请(专利权)人: 郭宏亮
主分类号: G06F16/9537 分类号: G06F16/9537;G06F16/29;G06N20/00;G01C21/34;G01C21/20
代理公司: 北京正华智诚专利代理事务所(普通合伙) 11870 代理人: 吕春艳
地址: 610051 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 时序 学习 可靠性 导航 方法
【权利要求书】:

1.一种基于时序差分学习的可靠性导航方法,其特征在于,包括以下步骤:

步骤A:建立决策过程模型,并生成数个节点s和数个指定动作a;

步骤B:制定决策列表策略π,采用π确定数个指定动作a的优先级;

步骤C:基于决策过程模型,采集得到当前行驶代价r的样本值,并分别求取Gπ(s)和Gπ(s,a)的均值估计值与方差估计值;其中,所述Gπ(s)为智能体从节点s出发,并遵守策略π直到到达终点累计的奖励之和;所述Gπ(s,a)为智能体从节点s出发,并执行动作a后遵守策略π直到到达终点,累计收集的奖励之和;

步骤D:根据步骤C中的均值估计值和方差估计值计算线性组合值Zπ(s,a);将上述线性组合值代入步骤B中的决策列表策略π,并更新决策列表策略得到π';

步骤E:循环步骤B-步骤D,直到完成规定学习次数,输出更新后的决策列表策略π',导航根据π'进行实时指引,直到智能体到达终点。

2.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤A的具体步骤为:

步骤A1:输入地图Graph和导航的起点o、终点d;

步骤A2:设定最大学习次数Nt

步骤A3:初始化数据,使学习次数i=0。

3.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤B的具体步骤为:

步骤B1:收集所有边的集合作为最大动作集M,并根据计算线性组合值从小到大的顺序排列M中的各个指定动作a,得到按照优先级顺序排列的集合π(s)={a1、a2、a3......ak};

步骤B2:选择其中优先级最高的指定动作a1,若a1所对应的边不可通行,则顺延选用下一优先级的指定动作。

4.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤C的具体步骤为:

步骤C1:实时采集当前行驶代价r的样本值;

步骤C2:通过步骤C1中的r对Gπ(s)和Gπ(s,a)的均值估计值进行实时更新;

步骤C3:通过步骤C1中的r对Gπ(s)和Gπ(s,a)的方差估计值进行实时更新。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭宏亮,未经郭宏亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210848733.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top