[发明专利]一种基于时序差分学习的可靠性导航方法在审
申请号: | 202210848733.5 | 申请日: | 2022-07-19 |
公开(公告)号: | CN115203592A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 郭宏亮;师睿 | 申请(专利权)人: | 郭宏亮 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06N20/00;G01C21/34;G01C21/20 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 吕春艳 |
地址: | 610051 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 学习 可靠性 导航 方法 | ||
1.一种基于时序差分学习的可靠性导航方法,其特征在于,包括以下步骤:
步骤A:建立决策过程模型,并生成数个节点s和数个指定动作a;
步骤B:制定决策列表策略π,采用π确定数个指定动作a的优先级;
步骤C:基于决策过程模型,采集得到当前行驶代价r的样本值,并分别求取Gπ(s)和Gπ(s,a)的均值估计值与方差估计值;其中,所述Gπ(s)为智能体从节点s出发,并遵守策略π直到到达终点累计的奖励之和;所述Gπ(s,a)为智能体从节点s出发,并执行动作a后遵守策略π直到到达终点,累计收集的奖励之和;
步骤D:根据步骤C中的均值估计值和方差估计值计算线性组合值Zπ(s,a);将上述线性组合值代入步骤B中的决策列表策略π,并更新决策列表策略得到π';
步骤E:循环步骤B-步骤D,直到完成规定学习次数,输出更新后的决策列表策略π',导航根据π'进行实时指引,直到智能体到达终点。
2.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤A的具体步骤为:
步骤A1:输入地图Graph和导航的起点o、终点d;
步骤A2:设定最大学习次数Nt;
步骤A3:初始化数据,使学习次数i=0。
3.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤B的具体步骤为:
步骤B1:收集所有边的集合作为最大动作集M,并根据计算线性组合值从小到大的顺序排列M中的各个指定动作a,得到按照优先级顺序排列的集合π(s)={a1、a2、a3......ak};
步骤B2:选择其中优先级最高的指定动作a1,若a1所对应的边不可通行,则顺延选用下一优先级的指定动作。
4.根据权利要求1所述的基于时序差分学习的可靠性导航方法,其特征在于,所述步骤C的具体步骤为:
步骤C1:实时采集当前行驶代价r的样本值;
步骤C2:通过步骤C1中的r对Gπ(s)和Gπ(s,a)的均值估计值进行实时更新;
步骤C3:通过步骤C1中的r对Gπ(s)和Gπ(s,a)的方差估计值进行实时更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭宏亮,未经郭宏亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210848733.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:石墨粉复选机
- 下一篇:一种肝癌治疗检测用血液提取装置