[发明专利]一种基于时序差分学习的可靠性导航方法在审

申请号：	202210848733.5	申请日：	2022-07-19
公开（公告）号：	CN115203592A	公开（公告）日：	2022-10-18
发明（设计）人：	郭宏亮;师睿	申请（专利权）人：	郭宏亮
主分类号：	G06F16/9537	分类号：	G06F16/9537;G06F16/29;G06N20/00;G01C21/34;G01C21/20
代理公司：	北京正华智诚专利代理事务所(普通合伙) 11870	代理人：	吕春艳
地址：	610051 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时序学习可靠性导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时序差分学习的可靠性导航方法，其特征在于，包括以下步骤：

步骤A：建立决策过程模型，并生成数个节点s和数个指定动作a；

步骤B：制定决策列表策略π，采用π确定数个指定动作a的优先级；

步骤C：基于决策过程模型，采集得到当前行驶代价r的样本值，并分别求取G^π(s)和G^π(s,a)的均值估计值与方差估计值；其中，所述G^π(s)为智能体从节点s出发，并遵守策略π直到到达终点累计的奖励之和；所述G^π(s,a)为智能体从节点s出发，并执行动作a后遵守策略π直到到达终点，累计收集的奖励之和；

步骤D：根据步骤C中的均值估计值和方差估计值计算线性组合值Z^π(s,a)；将上述线性组合值代入步骤B中的决策列表策略π，并更新决策列表策略得到π'；

步骤E：循环步骤B-步骤D，直到完成规定学习次数，输出更新后的决策列表策略π'，导航根据π'进行实时指引，直到智能体到达终点。

2.根据权利要求1所述的基于时序差分学习的可靠性导航方法，其特征在于，所述步骤A的具体步骤为：

步骤A1：输入地图Graph和导航的起点o、终点d；

步骤A2：设定最大学习次数N_t；

步骤A3：初始化数据，使学习次数i＝0。

3.根据权利要求1所述的基于时序差分学习的可靠性导航方法，其特征在于，所述步骤B的具体步骤为：

步骤B1：收集所有边的集合作为最大动作集M，并根据计算线性组合值从小到大的顺序排列M中的各个指定动作a，得到按照优先级顺序排列的集合π(s)＝{a₁、a₂、a₃......a_k}；

步骤B2：选择其中优先级最高的指定动作a₁，若a₁所对应的边不可通行，则顺延选用下一优先级的指定动作。

4.根据权利要求1所述的基于时序差分学习的可靠性导航方法，其特征在于，所述步骤C的具体步骤为：

步骤C1：实时采集当前行驶代价r的样本值；

步骤C2：通过步骤C1中的r对G^π(s)和G^π(s,a)的均值估计值进行实时更新；