[发明专利]基于最小二乘截断时域差分学习的路径规划决策优化方法在审

申请号：	202111682698.6	申请日：	2021-12-31
公开（公告）号：	CN114518751A	公开（公告）日：	2022-05-20
发明（设计）人：	方强;兰奕星;徐昕;任君凯;张一川;周星	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	胡君;邹大坚
地址：	410073 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于最小截断时域学习路径规划决策优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法，步骤包括：S1.使用第一策略收集智能体与环境交互样本，并学习特征表示的基函数；S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本，利用基函数获得样本特征，并利用投影均方贝尔曼误差作为截断指标，以控制采用最小二乘时域差分或线性时域差分进行参数更新，获取近似最优的策略评价器；S3.使用执行器生成的策略收集与环境交互样本，并利用基函数获得样本特征，使用步骤S2中评价器作为策略执行器的评价函数，得到控制策略输出；S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。

技术领域

本发明涉及机器人智能控制技术领域，尤其涉及一种基于最小二乘截断时域差分学习的路径规划决策优化方法。

背景技术

路径规划即是为机器人在规定范围内的区域内找到一条从起点到终点的无碰撞安全路径。针对于机器人的路径规划，目前通常是采用以基于图搜索的算法、人工势场法、基于随机采样方法为代表的传统方法，然而上述技术方法通常只能完成特定环境下的路径规划决策优化任务，缺乏学习能力与泛化性能，同时还依赖于机器人动力学等相关的先验信息。另一类以深度强化学习方法为代表性算法的基于数据驱动的方法，能够实现在不依赖于任务先验信息的条件下自主学习完成对复杂规划任务的求解。

在深度强化学习路径规划方法中，策略评价与特征表示是决策优化所依赖的两个重要环节。其中，策略评价目的在于给所学策略的优化过程提供有效的指标，策略评价器的优劣关乎着深度强化学习最终所学策略的近似最优性。而高效的策略评价以及策略学习依赖于特征表示，有效的特征表示能够降低策略学习过程中的样本需求，并且提高学习过程的稳定性。现有技术中，基于深度强化学习算法的机器人路径规划中，策略评价器通常是采用非线性神经网络作为逼近器并采用随机梯度下降方法进行优化训练，或者采用经典的线性时域差分方法或者最小二乘时域差分方法进行学习，使用卷积神经网络耦合学习高维观测的特征表示与值函数或策略函数，会存在着以下问题：

1、策略评价函数若采用非线性神经网络作为逼近器并采用随机梯度下降方法进行优化训练时，评价器收敛性难以保证且收敛速度较慢，进而影响策略学习效果；而基于线性逼近器结构的评价器虽然有收敛性理论保证，但其逼近能力依赖于特征表示器的学习效果。

2、策略评价器的逼近方式若采用经典的线性时域差分方法或者最小二乘时域差分方法进行学习，线性时域差分方法存在着样本利用率低，难以选取学习率等缺陷，而最小二乘时域差分方法虽然无需选取学习率，且改善了样本利用率问题，但是却存在着渐进最优性较差的缺点，且在实际使用过程中容易出现因矩阵不满秩而出现病态求解的问题。

3、机器人路径规划作为连续的任务，若使用基于线性时域差分方法作为策略评价的强化学习方法，由于样本利用率低，则会导致控制效率低、控制精度差等问题，而若使用最小二乘时域差分方法作为策略评价，由于会存在渐进最优性较差、病态求解等问题，仍然会导致随着规划时间长，控制效率与精度降低等的问题。

4、深度强化学习方法使用卷积神经网络耦合学习高维观测的特征表示与值函数或策略函数，还会使得学习过程样本效率较低。而线性时域差分方法与最小二乘时域差分方法均需要依赖于传统的基于核的特征表示，这类特征表示方法需要依赖于较多的手工特征构建，难以满足深度强化学习解决高维复杂观测条件下的策略评价与序贯决策需求，应用于机器人路径规划时会进一步增加控制复杂度、降低控制效率。

综上，现有深度强化学习存在特征表示学习困难，策略评价器学习效率低等问题，这使得直接将深度强化学习技术用于机器人路径规划决策优化中会导致控制器学习效率低下的问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、规划决策效率以及准确性高的基于最小二乘截断时域差分学习的路径规划决策优化方法。

为解决上述技术问题，本发明提出的技术方案为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111682698.6/2.html，转载请声明来源钻瓜专利网。

上一篇：人体重识别方法、人体重识别装置、计算机设备及介质
下一篇：智能矫治器

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于最小二乘截断时域差分学习的路径规划决策优化方法在审

专利文献下载